AI ಸಂಸ್ಥೆಗಳು ಶೀಘ್ರದಲ್ಲೇ ಇಂಟರ್ನೆಟ್‌ನ ಹೆಚ್ಚಿನ ಡೇಟಾವನ್ನು ಖಾಲಿ ಮಾಡುತ್ತವೆ

AI ಸಂಸ್ಥೆಗಳು ಶೀಘ್ರದಲ್ಲೇ ಇಂಟರ್ನೆಟ್‌ನ ಹೆಚ್ಚಿನ ಡೇಟಾವನ್ನು ಖಾಲಿ ಮಾಡುತ್ತವೆ

ಅಂತರ್ಜಾಲವು ಚಿತ್ರಗಳನ್ನು ಮಾತ್ರವಲ್ಲ, ಅವುಗಳನ್ನು ಲೇಬಲ್ ಮಾಡಲು ಸಂಪನ್ಮೂಲಗಳನ್ನು ಸಹ ಒದಗಿಸಿದೆ. ಒಮ್ಮೆ ಸರ್ಚ್ ಇಂಜಿನ್‌ಗಳು ನಾಯಿಗಳು, ಬೆಕ್ಕುಗಳು, ಕುರ್ಚಿಗಳು ಅಥವಾ ಯಾವುದನ್ನಾದರೂ ಚಿತ್ರಗಳನ್ನು ತಲುಪಿಸಿದ ನಂತರ, ಈ ಚಿತ್ರಗಳನ್ನು ಮೆಕ್ಯಾನಿಕಲ್ ಟರ್ಕ್ ಮೂಲಕ ನೇಮಕಗೊಂಡ ಮಾನವರು ಪರಿಶೀಲಿಸಿದರು ಮತ್ತು ಟಿಪ್ಪಣಿ ಮಾಡಿದರು, ಇದು ಅಮೆಜಾನ್ ಒದಗಿಸಿದ ಕ್ರೌಡ್‌ಸೋರ್ಸಿಂಗ್ ಸೇವೆಯಾಗಿದೆ, ಇದು ಜನರು ಪ್ರಾಪಂಚಿಕ ಕಾರ್ಯಗಳನ್ನು ಮಾಡುವ ಮೂಲಕ ಹಣವನ್ನು ಗಳಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ. ಫಲಿತಾಂಶವು ಲಕ್ಷಾಂತರ ಕ್ಯುರೇಟೆಡ್, ಪರಿಶೀಲಿಸಿದ ಚಿತ್ರಗಳ ಡೇಟಾಬೇಸ್ ಆಗಿದೆ. ಅದರ ತರಬೇತಿಗಾಗಿ ಇಮೇಜ್‌ನೆಟ್‌ನ ಭಾಗಗಳನ್ನು ಬಳಸುವುದರ ಮೂಲಕ, 2012 ರಲ್ಲಿ, ಅಲೆಕ್ಸ್‌ನೆಟ್ ಎಂಬ ಪ್ರೋಗ್ರಾಂ “ಆಳವಾದ ಕಲಿಕೆಯ” ಗಮನಾರ್ಹ ಸಾಮರ್ಥ್ಯವನ್ನು ಪ್ರದರ್ಶಿಸಿತು-ಅಂದರೆ, ಹಿಂದೆ ಬಳಸಿದ್ದಕ್ಕಿಂತ ಹೆಚ್ಚಿನ ಪದರಗಳನ್ನು ಹೊಂದಿರುವ ನರ ನೆಟ್‌ವರ್ಕ್‌ಗಳು. AI ಉತ್ಕರ್ಷದ ಪ್ರಾರಂಭ, ಮತ್ತು ತರಬೇತಿ ಡೇಟಾವನ್ನು ಒದಗಿಸಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾದ ಲೇಬಲಿಂಗ್ ಉದ್ಯಮ.

ದೊಡ್ಡ ಭಾಷಾ ಮಾದರಿಗಳ (ಎಲ್‌ಎಲ್‌ಎಂ) ನಂತರದ ಅಭಿವೃದ್ಧಿಯು ಇಂಟರ್ನೆಟ್ ಡೇಟಾವನ್ನು ಅವಲಂಬಿಸಿದೆ, ಆದರೆ ವಿಭಿನ್ನ ರೀತಿಯಲ್ಲಿ. LLM ಗಾಗಿ ಕ್ಲಾಸಿಕ್ ತರಬೇತಿ ವ್ಯಾಯಾಮವು ಚಿತ್ರದ ವಿಷಯಗಳನ್ನು ಯಾವ ಪದವು ಉತ್ತಮವಾಗಿ ವಿವರಿಸುತ್ತದೆ ಎಂಬುದನ್ನು ಊಹಿಸುವುದಿಲ್ಲ; ಪಠ್ಯದ ತುಣುಕಿನಿಂದ ಕತ್ತರಿಸಿದ ಪದವು ಅದರ ಸುತ್ತಲಿನ ಇತರ ಪದಗಳ ಆಧಾರದ ಮೇಲೆ ಏನೆಂದು ಊಹಿಸುತ್ತದೆ.

ಈ ರೀತಿಯ ತರಬೇತಿಯಲ್ಲಿ ಲೇಬಲ್ ಮತ್ತು ಕ್ಯುರೇಟೆಡ್ ಡೇಟಾ ಅಗತ್ಯವಿಲ್ಲ; “ಸ್ವಯಂ-ಮೇಲ್ವಿಚಾರಣೆಯ ತರಬೇತಿ” ಎಂದು ಕರೆಯಲ್ಪಡುವ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ಸಿಸ್ಟಮ್ ಪದಗಳನ್ನು ಖಾಲಿ ಮಾಡಬಹುದು, ಊಹೆಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಬಹುದು ಮತ್ತು ಅದರ ಉತ್ತರಗಳನ್ನು ಗ್ರೇಡ್ ಮಾಡಬಹುದು. ಆದಾಗ್ಯೂ, ಹೇರಳವಾದ ಡೇಟಾದ ಅವಶ್ಯಕತೆಯಿದೆ. ತರಬೇತಿಗಾಗಿ ಸಿಸ್ಟಮ್ ಅನ್ನು ಹೆಚ್ಚು ಪಠ್ಯವನ್ನು ನೀಡಿದರೆ, ಅದು ಉತ್ತಮವಾಗಿರುತ್ತದೆ. ಅಂತರ್ಜಾಲವು ನೂರಾರು ಟ್ರಿಲಿಯನ್ ಪದಗಳ ಪಠ್ಯವನ್ನು ನೀಡುತ್ತದೆ, ಇದು LLM ಗಳಿಗೆ ಯಾದೃಚ್ಛಿಕವಾಗಿ ಕೆಸರುಗಳಲ್ಲಿ ಠೇವಣಿಯಾದ ಇಂಗಾಲದ ಆಧುನಿಕ ಉದ್ಯಮಕ್ಕೆ ಆಯಿತು: ಅದ್ಭುತವಾದ ಇಂಧನವಾಗಿ ಪರಿಷ್ಕರಿಸಲಾಗಿದೆ.

ಕಾಮನ್ ಕ್ರಾಲ್, 50bn ವೆಬ್ ಪುಟಗಳನ್ನು ಒಳಗೊಂಡಂತೆ ಹೆಚ್ಚಿನ ತೆರೆದ ಇಂಟರ್ನೆಟ್‌ನ ಆರ್ಕೈವ್, AI ಸಂಶೋಧನೆಯಲ್ಲಿ ವ್ಯಾಪಕವಾಗಿ ಬಳಸಲ್ಪಟ್ಟಿತು. ಸಾವಿರಾರು ಪುಸ್ತಕಗಳ ವ್ಯಾಪಕವಾಗಿ ಬಳಸಿದ ಸಂಕಲನವಾದ Books3 ನಂತಹ ಹೆಚ್ಚು ಹೆಚ್ಚು ಮೂಲಗಳಿಂದ ಡೇಟಾದೊಂದಿಗೆ ಹೊಸ ಮಾದರಿಗಳು ಪೂರಕವಾಗಿವೆ. ಆದರೆ ಪಠ್ಯಕ್ಕಾಗಿ ಯಂತ್ರಗಳ ಹಸಿವು ಇಂಟರ್ನೆಟ್ ಹೊಂದಿಕೆಯಾಗದ ದರದಲ್ಲಿ ಬೆಳೆದಿದೆ. Epoch AI, ಸಂಶೋಧನಾ ಸಂಸ್ಥೆಯು, 2028 ರ ವೇಳೆಗೆ, ಇಂಟರ್ನೆಟ್‌ನಲ್ಲಿ ಉತ್ತಮ ಗುಣಮಟ್ಟದ ಪಠ್ಯ ಡೇಟಾದ ಸಂಗ್ರಹವನ್ನು ಬಳಸಲಾಗುವುದು ಎಂದು ಅಂದಾಜಿಸಿದೆ. ಉದ್ಯಮದಲ್ಲಿ ಇದನ್ನು “ಡೇಟಾ ವಾಲ್” ಎಂದು ಕರೆಯಲಾಗುತ್ತದೆ. ಈ ಗೋಡೆಯನ್ನು ಹೇಗೆ ಎದುರಿಸುವುದು ಎಂಬುದು AI ಯ ಪ್ರಮುಖ ಪ್ರಶ್ನೆಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ ಮತ್ತು ಬಹುಶಃ ಅದರ ಪ್ರಗತಿಯನ್ನು ನಿಧಾನಗೊಳಿಸುವ ಸಾಧ್ಯತೆಯಿದೆ.

ಪೂರ್ಣ ಚಿತ್ರವನ್ನು ವೀಕ್ಷಿಸಿ

(ದಿ ಎಕನಾಮಿಸ್ಟ್)

ಪ್ರಮಾಣಕ್ಕಿಂತ ಹೆಚ್ಚಾಗಿ ಡೇಟಾ ಗುಣಮಟ್ಟವನ್ನು ಕೇಂದ್ರೀಕರಿಸುವುದು ಒಂದು ವಿಧಾನವಾಗಿದೆ. AI ಲ್ಯಾಬ್‌ಗಳು ತಮ್ಮ ಮಾದರಿಗಳನ್ನು ಸಂಪೂರ್ಣ ಅಂತರ್ಜಾಲದಲ್ಲಿ ಸರಳವಾಗಿ ತರಬೇತಿ ನೀಡುವುದಿಲ್ಲ. ತಮ್ಮ ಮಾದರಿಗಳು ಎಷ್ಟು ಕಲಿಯುತ್ತವೆ ಎಂಬುದನ್ನು ಹೆಚ್ಚಿಸಲು ಅವರು ಡೇಟಾವನ್ನು ಫಿಲ್ಟರ್ ಮಾಡುತ್ತಾರೆ ಮತ್ತು ಅನುಕ್ರಮಗೊಳಿಸುತ್ತಾರೆ. AI ಸಂಸ್ಥೆಯ ಡಾಟಾಬ್ರಿಕ್ಸ್‌ನ ನವೀನ್ ರಾವ್, ಇದು ಮಾರುಕಟ್ಟೆಯಲ್ಲಿ AI ಮಾದರಿಗಳ ನಡುವಿನ “ಮುಖ್ಯ ವ್ಯತ್ಯಾಸ” ಎಂದು ಹೇಳುತ್ತಾರೆ. ಪ್ರಪಂಚದ ಬಗ್ಗೆ “ನಿಜವಾದ ಮಾಹಿತಿ” ನಿಸ್ಸಂಶಯವಾಗಿ ಮುಖ್ಯವಾಗಿದೆ; ಆದ್ದರಿಂದ ಬಹಳಷ್ಟು “ತಾರ್ಕಿಕತೆ” ಮಾಡುತ್ತದೆ. ಅದು ಶೈಕ್ಷಣಿಕ ಪಠ್ಯಪುಸ್ತಕಗಳನ್ನು ವಿಶೇಷವಾಗಿ ಮೌಲ್ಯಯುತವಾಗಿಸುತ್ತದೆ, ಆದರೆ ಡೇಟಾ ಮೂಲಗಳ ನಡುವಿನ ಸಮತೋಲನವನ್ನು ಹೊಂದಿಸುವುದು ಒಂದು ಕರಾಳ ಕಲೆಯಾಗಿ ಉಳಿದಿದೆ. ಅದಕ್ಕಿಂತ ಹೆಚ್ಚಾಗಿ, ಸಿಸ್ಟಮ್ ವಿವಿಧ ರೀತಿಯ ಡೇಟಾವನ್ನು ಎದುರಿಸುವ ಕ್ರಮವು ಸಹ ಮುಖ್ಯವಾಗಿದೆ. ತರಬೇತಿ ಪ್ರಕ್ರಿಯೆಯ ಕೊನೆಯಲ್ಲಿ ಗಣಿತದಂತಹ ಒಂದು ವಿಷಯದ ಎಲ್ಲಾ ಡೇಟಾವನ್ನು ಒಟ್ಟುಗೂಡಿಸಿ ಮತ್ತು ನಿಮ್ಮ ಮಾದರಿಯು ಗಣಿತದಲ್ಲಿ ಪರಿಣತಿಯನ್ನು ಪಡೆಯಬಹುದು ಆದರೆ ಕೆಲವು ಇತರ ಪರಿಕಲ್ಪನೆಗಳನ್ನು ಮರೆತುಬಿಡಬಹುದು.

ಇದನ್ನೂ ಓದಿ  AI ಗೆ ನಿಯಂತ್ರಣದ ಅಗತ್ಯವಿದೆ, ಆದರೆ ಯಾವ ರೀತಿಯ ಮತ್ತು ಎಷ್ಟು?

ಡೇಟಾವು ವಿಭಿನ್ನ ವಿಷಯಗಳ ಮೇಲೆ ಮಾತ್ರವಲ್ಲದೆ ವಿಭಿನ್ನ ಸ್ವರೂಪಗಳಲ್ಲಿದ್ದಾಗ ಈ ಪರಿಗಣನೆಗಳು ಇನ್ನಷ್ಟು ಸಂಕೀರ್ಣವಾಗಬಹುದು. ಹೊಸ ಪಠ್ಯದ ಡೇಟಾದ ಕೊರತೆಯಿಂದಾಗಿ, OpenAI ನ GPT-4o ಮತ್ತು Google ನ ಜೆಮಿನಿಯಂತಹ ಪ್ರಮುಖ ಮಾದರಿಗಳು ಈಗ ತಮ್ಮ ಸ್ವಯಂ-ಮೇಲ್ವಿಚಾರಣೆಯ ಕಲಿಕೆಯ ಸಮಯದಲ್ಲಿ ಚಿತ್ರ, ವೀಡಿಯೊ ಮತ್ತು ಆಡಿಯೊ ಫೈಲ್‌ಗಳು ಮತ್ತು ಪಠ್ಯದ ಮೇಲೆ ಸಡಿಲಗೊಳ್ಳುತ್ತವೆ. ವೀಡಿಯೊ ಫೈಲ್‌ಗಳು ಡೇಟಾ ಪಾಯಿಂಟ್‌ಗಳೊಂದಿಗೆ ಎಷ್ಟು ದಟ್ಟವಾಗಿರುತ್ತವೆ ಎಂಬುದನ್ನು ನೀಡಿದರೆ ವೀಡಿಯೊದ ತರಬೇತಿಯು ಕಠಿಣವಾಗಿದೆ. ಪ್ರಸ್ತುತ ಮಾದರಿಗಳು ಸಾಮಾನ್ಯವಾಗಿ ವಿಷಯಗಳನ್ನು ಸರಳಗೊಳಿಸಲು ಚೌಕಟ್ಟುಗಳ ಉಪವಿಭಾಗವನ್ನು ನೋಡುತ್ತವೆ.

ಯಾವುದೇ ಮಾದರಿಗಳನ್ನು ಬಳಸಿದರೂ, ಮಾಲೀಕತ್ವವು ಹೆಚ್ಚು ಸಮಸ್ಯೆಯಾಗಿ ಗುರುತಿಸಲ್ಪಟ್ಟಿದೆ. ತರಬೇತಿ LLM ಗಳಲ್ಲಿ ಬಳಸಲಾಗುವ ವಸ್ತುವು ಸಾಮಾನ್ಯವಾಗಿ ಹಕ್ಕುಸ್ವಾಮ್ಯವನ್ನು ಹೊಂದಿದೆ ಮತ್ತು ಹಕ್ಕುದಾರರ ಒಪ್ಪಿಗೆಯಿಲ್ಲದೆ ಅಥವಾ ಪಾವತಿಸದೆ ಬಳಸಲಾಗುತ್ತದೆ. ಕೆಲವು AI ಮಾದರಿಗಳು ಪೇವಾಲ್‌ಗಳ ಹಿಂದೆ ಇಣುಕುತ್ತವೆ. ಮಾದರಿ ರಚನೆಕಾರರು ಈ ರೀತಿಯ ವಿಷಯವು ಅಮೇರಿಕನ್ ಹಕ್ಕುಸ್ವಾಮ್ಯ ಕಾನೂನಿನಲ್ಲಿ “ನ್ಯಾಯಯುತ ಬಳಕೆ” ವಿನಾಯಿತಿಯ ಅಡಿಯಲ್ಲಿ ಬರುತ್ತದೆ ಎಂದು ಹೇಳಿಕೊಳ್ಳುತ್ತಾರೆ. AI ಮಾದರಿಗಳು ಅವರು ಕಲಿಯುವಾಗ ಹಕ್ಕುಸ್ವಾಮ್ಯದ ವಸ್ತುಗಳನ್ನು ಓದಲು ಅನುಮತಿಸಬೇಕು, ಮಾನವರು ಹೇಗೆ ಸಾಧ್ಯವೋ ಅವರು ಹೇಳುತ್ತಾರೆ. ಆದರೆ ಬೆನೆಡಿಕ್ಟ್ ಇವಾನ್ಸ್, ತಂತ್ರಜ್ಞಾನ ವಿಶ್ಲೇಷಕ, “ಸ್ಕೇಲ್‌ನಲ್ಲಿನ ವ್ಯತ್ಯಾಸ” “ತಾತ್ವಿಕತೆಯ ವ್ಯತ್ಯಾಸ” ಕ್ಕೆ ಕಾರಣವಾಗಬಹುದು ಎಂದು ಹೇಳಿದ್ದಾರೆ.

ವಿಭಿನ್ನ ಹಕ್ಕುದಾರರು ವಿಭಿನ್ನ ತಂತ್ರಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತಿದ್ದಾರೆ. ಗೆಟ್ಟಿ ಇಮೇಜಸ್ ತನ್ನ ಇಮೇಜ್ ಸ್ಟೋರ್‌ನ ಅನಧಿಕೃತ ಬಳಕೆಗಾಗಿ ಇಮೇಜ್-ಜನರೇಷನ್ ಸಂಸ್ಥೆಯಾದ ಸ್ಟೆಬಿಲಿಟಿ AI ವಿರುದ್ಧ ಮೊಕದ್ದಮೆ ಹೂಡಿದೆ. ಲಕ್ಷಾಂತರ ಲೇಖನಗಳ ಹಕ್ಕುಸ್ವಾಮ್ಯ ಉಲ್ಲಂಘನೆಗಾಗಿ ನ್ಯೂಯಾರ್ಕ್ ಟೈಮ್ಸ್ ಓಪನೈ ಮತ್ತು ಮೈಕ್ರೋಸಾಫ್ಟ್ ವಿರುದ್ಧ ಮೊಕದ್ದಮೆ ಹೂಡಿದೆ. ಇತರ ಪತ್ರಿಕೆಗಳು ತಮ್ಮ ವಿಷಯಕ್ಕೆ ಪರವಾನಗಿ ನೀಡಲು ಒಪ್ಪಂದಗಳನ್ನು ಮಾಡಿಕೊಂಡಿವೆ. ನ್ಯೂಸ್ ಕಾರ್ಪ್, ವಾಲ್ ಸ್ಟ್ರೀಟ್ ಜರ್ನಲ್‌ನ ಮಾಲೀಕ, ಐದು ವರ್ಷಗಳಲ್ಲಿ $250m ಮೌಲ್ಯದ ಒಪ್ಪಂದಕ್ಕೆ ಸಹಿ ಹಾಕಿದರು. (ದಿ ಎಕನಾಮಿಸ್ಟ್ AI ಸಂಸ್ಥೆಗಳೊಂದಿಗಿನ ಸಂಬಂಧದ ಬಗ್ಗೆ ಒಂದು ಸ್ಥಾನವನ್ನು ತೆಗೆದುಕೊಂಡಿಲ್ಲ.) ಪಠ್ಯ ಮತ್ತು ವೀಡಿಯೊದ ಇತರ ಮೂಲಗಳು ಅದೇ ರೀತಿ ಮಾಡುತ್ತಿವೆ. ಸ್ಟಾಕ್ ಓವರ್‌ಫ್ಲೋ, ಕೋಡಿಂಗ್ ಸಹಾಯ-ಸೈಟ್, ರೆಡ್ಡಿಟ್, ಸಾಮಾಜಿಕ-ಮಾಧ್ಯಮ ಸೈಟ್ ಮತ್ತು ಎಕ್ಸ್ (ಹಿಂದೆ ಟ್ವಿಟರ್) ತರಬೇತಿಗಾಗಿ ತಮ್ಮ ವಿಷಯಕ್ಕೆ ಪ್ರವೇಶಕ್ಕಾಗಿ ಈಗ ಶುಲ್ಕ ವಿಧಿಸುತ್ತಿವೆ.

ಇದನ್ನೂ ಓದಿ  Google ಅಪ್ಲಿಕೇಶನ್‌ಗಳು ಶೀಘ್ರದಲ್ಲೇ ಸರಳೀಕೃತ ಖಾತೆ ಸ್ವಿಚರ್ UI ಅನ್ನು ಪಡೆಯಬಹುದು (APK ಟಿಯರ್‌ಡೌನ್)

ನ್ಯಾಯವ್ಯಾಪ್ತಿಯ ನಡುವೆ ಪರಿಸ್ಥಿತಿ ಭಿನ್ನವಾಗಿರುತ್ತದೆ. ಜಪಾನ್ ಮತ್ತು ಇಸ್ರೇಲ್ ತಮ್ಮ AI ಕೈಗಾರಿಕೆಗಳನ್ನು ಉತ್ತೇಜಿಸಲು ಅನುಮತಿಸುವ ನಿಲುವನ್ನು ಹೊಂದಿವೆ. ಯುರೋಪಿಯನ್ ಯೂನಿಯನ್ ಯಾವುದೇ ಸಾರ್ವತ್ರಿಕ “ನ್ಯಾಯಯುತ ಬಳಕೆ” ಪರಿಕಲ್ಪನೆಯನ್ನು ಹೊಂದಿಲ್ಲ, ಆದ್ದರಿಂದ ಕಟ್ಟುನಿಟ್ಟಾಗಿ ಸಾಬೀತುಪಡಿಸಬಹುದು. ಮಾರುಕಟ್ಟೆಗಳನ್ನು ಸ್ಥಾಪಿಸಿದಾಗ, ವಿವಿಧ ಪ್ರಕಾರದ ಡೇಟಾವು ವಿಭಿನ್ನ ಬೆಲೆಗಳನ್ನು ಆದೇಶಿಸುತ್ತದೆ: ನವೀಕೃತವಾಗಿ ಉಳಿಯಲು ನೈಜ ಪ್ರಪಂಚದಿಂದ ಸಮಯೋಚಿತ ಮಾಹಿತಿಗೆ ಮಾದರಿಗಳಿಗೆ ಪ್ರವೇಶದ ಅಗತ್ಯವಿದೆ.

ಪೂರ್ವ-ತರಬೇತಿ ಪಡೆದ ಆವೃತ್ತಿ ಎಂದು ಕರೆಯಲ್ಪಡುವ ಸ್ವಯಂ-ಮೇಲ್ವಿಚಾರಣೆಯ ಕಲಿಕೆಯಿಂದ ತಯಾರಿಸಿದ ಆವೃತ್ತಿಯನ್ನು ತರಬೇತಿಯ ನಂತರದ ಹೆಚ್ಚುವರಿ ಡೇಟಾದ ಮೂಲಕ ಸಂಸ್ಕರಿಸಿದಾಗ ಮಾದರಿ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ಸುಧಾರಿಸಬಹುದು. “ಮೇಲ್ವಿಚಾರಣೆಯ ಉತ್ತಮ-ಶ್ರುತಿ”, ಉದಾಹರಣೆಗೆ, ಮಾನವರಿಂದ ಸಂಗ್ರಹಿಸಿದ ಅಥವಾ ಕರಕುಶಲ ಮಾದರಿಯ ಪ್ರಶ್ನೋತ್ತರ ಜೋಡಿಗಳಿಗೆ ಆಹಾರವನ್ನು ನೀಡುವುದನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ. ಇದು ಉತ್ತಮ ಉತ್ತರಗಳು ಹೇಗಿರುತ್ತದೆ ಎಂಬುದನ್ನು ಮಾದರಿಗಳಿಗೆ ಕಲಿಸುತ್ತದೆ. “ಮಾನವ ಪ್ರತಿಕ್ರಿಯೆಯಿಂದ ಬಲವರ್ಧನೆ-ಕಲಿಕೆ” (RLHF), ಇನ್ನೊಂದರಲ್ಲಿ ಕೈ, ಉತ್ತರವು ಪ್ರಶ್ನಿಸುವವರನ್ನು ತೃಪ್ತಿಪಡಿಸಿದರೆ (ಸೂಕ್ಷ್ಮವಾಗಿ ವಿಭಿನ್ನ ವಿಷಯ) ಅವರಿಗೆ ಹೇಳುತ್ತದೆ.

RLHF ನಲ್ಲಿ ಬಳಕೆದಾರರು ಅದರ ಔಟ್‌ಪುಟ್‌ಗಳ ಗುಣಮಟ್ಟದ ಬಗ್ಗೆ ಮಾದರಿ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ನೀಡುತ್ತಾರೆ, ನಂತರ ಅದನ್ನು ಮಾದರಿಯ ನಿಯತಾಂಕಗಳನ್ನು ಅಥವಾ “ತೂಕಗಳನ್ನು” ತಿರುಚಲು ಬಳಸಲಾಗುತ್ತದೆ.ಥಂಬ್ಸ್-ಅಪ್ ಅಥವಾ -ಡೌನ್‌ನಂತಹ ಚಾಟ್‌ಬಾಟ್‌ಗಳೊಂದಿಗಿನ ಬಳಕೆದಾರರ ಸಂವಹನಗಳು ವಿಶೇಷವಾಗಿ RLHF ಗೆ ಉಪಯುಕ್ತವಾಗಿವೆ. ಇದು ಟೆಕ್ಕಿಗಳು “ಡೇಟಾ ಫ್ಲೈವೀಲ್” ಎಂದು ಕರೆಯುವುದನ್ನು ರಚಿಸುತ್ತದೆ, ಇದರಲ್ಲಿ ಹೆಚ್ಚಿನ ಬಳಕೆದಾರರು ಹೆಚ್ಚಿನ ಡೇಟಾಗೆ ದಾರಿ ಮಾಡಿಕೊಡುತ್ತಾರೆ, ಇದು ಉತ್ತಮ ಮಾದರಿಯನ್ನು ಟ್ಯೂನಿಂಗ್ ಮಾಡಲು ಹಿಂತಿರುಗಿಸುತ್ತದೆ. AI ಸ್ಟಾರ್ಟ್‌ಅಪ್‌ಗಳು ಬಳಕೆದಾರರು ತಮ್ಮ ಮಾದರಿಗಳಿಗೆ ಯಾವ ರೀತಿಯ ಪ್ರಶ್ನೆಗಳನ್ನು ಕೇಳುತ್ತಾರೆ ಎಂಬುದನ್ನು ಸೂಕ್ಷ್ಮವಾಗಿ ಗಮನಿಸುತ್ತಿದ್ದಾರೆ ಮತ್ತು ಆ ವಿಷಯಗಳ ಮೇಲೆ ತಮ್ಮ ಮಾದರಿಗಳನ್ನು ಟ್ಯೂನ್ ಮಾಡಲು ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುತ್ತಾರೆ.

ಅದನ್ನು ಅಳೆಯಿರಿ

ಇಂಟರ್ನೆಟ್‌ನಲ್ಲಿ ಪೂರ್ವ-ತರಬೇತಿ ಡೇಟಾ ಒಣಗಿದಂತೆ, ನಂತರದ ತರಬೇತಿ ಹೆಚ್ಚು ಮುಖ್ಯವಾಗಿದೆ. ಸ್ಕೇಲ್ AI ಮತ್ತು ಸರ್ಜ್ AI ನಂತಹ ಲೇಬಲಿಂಗ್ ಕಂಪನಿಗಳು ತರಬೇತಿಯ ನಂತರದ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುವ ಮೂಲಕ ವರ್ಷಕ್ಕೆ ನೂರಾರು ಮಿಲಿಯನ್ ಡಾಲರ್‌ಗಳನ್ನು ಗಳಿಸುತ್ತವೆ. ಸ್ಕೇಲ್ ಇತ್ತೀಚೆಗೆ $14bn ಮೌಲ್ಯಮಾಪನದಲ್ಲಿ $1bn ಸಂಗ್ರಹಿಸಿದೆ. ಮೆಕ್ಯಾನಿಕಲ್ ಟರ್ಕ್ ದಿನಗಳಿಂದ ವಿಷಯಗಳು ಮುಂದುವರೆದಿವೆ: ಅತ್ಯುತ್ತಮ ಲೇಬಲ್‌ಗಳು ಗಂಟೆಗೆ $100 ವರೆಗೆ ಗಳಿಸುತ್ತಾರೆ. ಆದರೆ, ನಂತರದ ತರಬೇತಿಯು ಉತ್ತಮ ಮಾದರಿಗಳನ್ನು ಉತ್ಪಾದಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ ಮತ್ತು ಅನೇಕ ವಾಣಿಜ್ಯ ಅನ್ವಯಿಕೆಗಳಿಗೆ ಸಾಕಾಗುತ್ತದೆ, ಇದು ಅಂತಿಮವಾಗಿ ಹೆಚ್ಚುತ್ತಿದೆ.

ಡೇಟಾ ವಾಲ್ ಅನ್ನು ಸ್ವಲ್ಪಮಟ್ಟಿಗೆ ಹಿಂದಕ್ಕೆ ತಳ್ಳುವ ಬದಲು, ಅದರ ಮೇಲೆ ಸಂಪೂರ್ಣವಾಗಿ ನೆಗೆಯುವುದು ಮತ್ತೊಂದು ಪರಿಹಾರವಾಗಿದೆ. ಸಿಂಥೆಟಿಕ್ ಡೇಟಾವನ್ನು ಬಳಸುವುದು ಒಂದು ವಿಧಾನವಾಗಿದೆ, ಇದು ಯಂತ್ರದಿಂದ ರಚಿಸಲ್ಪಟ್ಟಿದೆ ಮತ್ತು ಆದ್ದರಿಂದ ಅಪರಿಮಿತವಾಗಿದೆ. ಗೂಗಲ್ ಅಂಗಸಂಸ್ಥೆಯಾದ ಡೀಪ್‌ಮೈಂಡ್ ನಿರ್ಮಿಸಿದ ಆಲ್ಫಾಗೋ ಝೀರೋ ಒಂದು ಉತ್ತಮ ಉದಾಹರಣೆಯಾಗಿದೆ. ಕಂಪನಿಯ ಮೊದಲ ಯಶಸ್ವಿ ಗೋ-ಪ್ಲೇಯಿಂಗ್ ಮಾದರಿಯು ಹವ್ಯಾಸಿ ಆಟಗಳಿಂದ ಲಕ್ಷಾಂತರ ಚಲನೆಗಳ ಡೇಟಾವನ್ನು ಬಳಸಿಕೊಂಡು ತರಬೇತಿ ಪಡೆದಿದೆ. AlphaGo Zero ಯಾವುದೇ ಪೂರ್ವ ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಡೇಟಾವನ್ನು ಬಳಸಿಲ್ಲ. ಬದಲಾಗಿ ಮೂರು ದಿನಗಳ ಕಾಲ ತನ್ನ ವಿರುದ್ಧ 4.9 ಮೀ ಪಂದ್ಯಗಳನ್ನು ಆಡುವ ಮೂಲಕ ಗೋ ಕಲಿತು, ಗೆಲುವಿನ ತಂತ್ರಗಳನ್ನು ಗಮನಿಸಿ. ಆ “ಬಲವರ್ಧನೆಯ ಕಲಿಕೆ” ಹೆಚ್ಚಿನ ಸಂಖ್ಯೆಯ ಸಂಭವನೀಯ ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಅನುಕರಿಸುವ ಮೂಲಕ ಮತ್ತು ಗೆಲ್ಲುವ ಉತ್ತಮ ಅವಕಾಶವನ್ನು ಆಯ್ಕೆ ಮಾಡುವ ಮೂಲಕ ತನ್ನ ಎದುರಾಳಿಯ ಚಲನೆಗಳಿಗೆ ಹೇಗೆ ಪ್ರತಿಕ್ರಿಯಿಸಬೇಕೆಂದು ಕಲಿಸುತ್ತದೆ.

ಇದನ್ನೂ ಓದಿ  ಅರಿಜಿತ್ ಸಿಂಗ್ ವಿರುದ್ಧ AI: ಹಾಡುಗಳನ್ನು ರಚಿಸಲು ತನ್ನ ಧ್ವನಿಯನ್ನು ಅನುಕರಿಸುವ ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆ ವಿರುದ್ಧ ಬಾಲಿವುಡ್ ಗಾಯಕ ಜಯಗಳಿಸಿದ್ದಾರೆ

LLMಗಳನ್ನು ಬರೆಯಲು ಇದೇ ವಿಧಾನವನ್ನು ಬಳಸಬಹುದು, ಹೇಳುವುದಾದರೆ, ಗಣಿತದ ಪುರಾವೆ, ಹಂತ-ಹಂತ. LLM ಅನೇಕ ಮೊದಲ ಹಂತಗಳನ್ನು ಮೊದಲು ಉತ್ಪಾದಿಸುವ ಮೂಲಕ ಉತ್ತರವನ್ನು ನಿರ್ಮಿಸಬಹುದು. ಗುಣಮಟ್ಟವನ್ನು ನಿರ್ಣಯಿಸಲು ಮಾನವ ತಜ್ಞರಿಂದ ದತ್ತಾಂಶದ ಮೇಲೆ ತರಬೇತಿ ಪಡೆದ ಪ್ರತ್ಯೇಕ “ಸಹಾಯಕ” AI, ಯಾವುದು ಉತ್ತಮ ಮತ್ತು ನಿರ್ಮಿಸಲು ಯೋಗ್ಯವಾಗಿದೆ ಎಂಬುದನ್ನು ಗುರುತಿಸುತ್ತದೆ. ಅಂತಹ AI-ಉತ್ಪಾದಿತ ಪ್ರತಿಕ್ರಿಯೆಯು ಸಿಂಥೆಟಿಕ್ ಡೇಟಾದ ಒಂದು ರೂಪವಾಗಿದೆ ಮತ್ತು ಮೊದಲ ಮಾದರಿಯನ್ನು ಮತ್ತಷ್ಟು ತರಬೇತಿ ನೀಡಲು ಬಳಸಬಹುದು. ಅಂತಿಮವಾಗಿ ನೀವು LLM ಒಂದೇ ಸಮಯದಲ್ಲಿ ಉತ್ತರಿಸಿದ್ದಕ್ಕಿಂತ ಉತ್ತಮ-ಗುಣಮಟ್ಟದ ಉತ್ತರವನ್ನು ಹೊಂದಿರಬಹುದು ಮತ್ತು ಬೂಟ್ ಮಾಡಲು ಸುಧಾರಿತ LLM ಅನ್ನು ಹೊಂದಿರಬಹುದು, ಇದು ನಿಧಾನವಾದ, ಉದ್ದೇಶಪೂರ್ವಕವಾದ “ಸಿಸ್ಟಮ್ 2” ಚಿಂತನೆಯಂತಿದೆ. ಮಾನವರಲ್ಲಿ, OpenAI ನ ಸಹ-ಸಂಸ್ಥಾಪಕರಾದ ಆಂಡ್ರೆಜ್ ಕಾರ್ಪತಿಯವರ ಇತ್ತೀಚಿನ ಭಾಷಣದಲ್ಲಿ ವಿವರಿಸಲಾಗಿದೆ. ಪ್ರಸ್ತುತ, LLM ಗಳು “ಸಿಸ್ಟಮ್ 1” ಚಿಂತನೆಯನ್ನು ಬಳಸಿಕೊಳ್ಳುತ್ತವೆ, ಮಾನವನ ಪ್ರತಿಫಲಿತ ಪ್ರತಿಕ್ರಿಯೆಯಂತೆಯೇ ಚರ್ಚೆಯಿಲ್ಲದೆ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಉಂಟುಮಾಡುತ್ತವೆ.

ತೊಂದರೆಯು ಆರೋಗ್ಯ ರಕ್ಷಣೆ ಅಥವಾ ಶಿಕ್ಷಣದಂತಹ ಸೆಟ್ಟಿಂಗ್‌ಗಳಿಗೆ ವಿಧಾನವನ್ನು ವಿಸ್ತರಿಸುತ್ತಿದೆ. ಗೇಮಿಂಗ್‌ನಲ್ಲಿ, ಗೆಲುವಿನ ಸ್ಪಷ್ಟ ವ್ಯಾಖ್ಯಾನವಿದೆ ಮತ್ತು ಚಲಿಸುವಿಕೆಯು ಅನುಕೂಲಕರವಾಗಿದೆಯೇ ಎಂಬುದರ ಕುರಿತು ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುವುದು ಸುಲಭವಾಗಿದೆ. ಬೇರೆಡೆ ಇದು ಟ್ರಿಕ್ ಆಗಿದೆ. “ಉತ್ತಮ” ನಿರ್ಧಾರ ಯಾವುದು ಎಂಬುದರ ಕುರಿತು ಡೇಟಾವನ್ನು ಸಾಮಾನ್ಯವಾಗಿ ತಜ್ಞರಿಂದ ಸಂಗ್ರಹಿಸಲಾಗುತ್ತದೆ. ಆದರೆ ಅದು ದುಬಾರಿಯಾಗಿದೆ, ಸಮಯ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ ಮತ್ತು ಕೇವಲ ಒಂದು ತೇಪೆ ಪರಿಹಾರವಾಗಿದೆ. ಮತ್ತು ನಿರ್ದಿಷ್ಟ ತಜ್ಞರು ಸರಿಯಾಗಿದ್ದರೆ ನಿಮಗೆ ಹೇಗೆ ತಿಳಿಯುತ್ತದೆ?

ಹೆಚ್ಚಿನ ದತ್ತಾಂಶಕ್ಕೆ ಪ್ರವೇಶವು ಸ್ಪಷ್ಟವಾಗಿದೆ-ತಜ್ಞ ಮೂಲಗಳಿಂದ ಸಂಗ್ರಹಿಸಲಾಗಿದೆ, ಕೃತಕವಾಗಿ ರಚಿಸಲಾಗಿದೆ ಅಥವಾ ಮಾನವ ತಜ್ಞರು ಒದಗಿಸಲಾಗಿದೆ-AI ನಲ್ಲಿ ತ್ವರಿತ ಪ್ರಗತಿಯನ್ನು ಕಾಪಾಡಿಕೊಳ್ಳಲು ಪ್ರಮುಖವಾಗಿದೆ. ತೈಲಕ್ಷೇತ್ರಗಳಂತೆ, ಹೆಚ್ಚು ಪ್ರವೇಶಿಸಬಹುದಾದ ಡೇಟಾ ಮೀಸಲುಗಳು ಖಾಲಿಯಾಗಿವೆ. ಹೊಸದನ್ನು-ಅಥವಾ ಸಮರ್ಥನೀಯ ಪರ್ಯಾಯಗಳನ್ನು ಕಂಡುಹಿಡಿಯುವುದು ಈಗ ಸವಾಲು.

© 2024, The Economist Newspaper Ltd. ಎಲ್ಲಾ ಹಕ್ಕುಗಳನ್ನು ಕಾಯ್ದಿರಿಸಲಾಗಿದೆ.

ದಿ ಎಕನಾಮಿಸ್ಟ್‌ನಿಂದ, ಪರವಾನಗಿ ಅಡಿಯಲ್ಲಿ ಪ್ರಕಟಿಸಲಾಗಿದೆ. ಮೂಲ ವಿಷಯವನ್ನು www.economist.com ನಲ್ಲಿ ಕಾಣಬಹುದು

Comments

No comments yet. Why don’t you start the discussion?

Leave a Reply

Your email address will not be published. Required fields are marked *