नई दिल्ली – आर्टिफिशियल इंटेलिजेंस (AI) किस प्रकार से इंटरनेट से जानकारी इकट्ठा करता है, यह विषय लंबे समय से चर्चा में रहा है। अब एक ताजा रिपोर्ट ने इस रहस्य से पर्दा उठाया है। स्टेटिस्टा द्वारा किए गए अध्ययन के अनुसार, एआई सिस्टम को प्रशिक्षण देने के लिए सबसे अधिक डेटा रेडिट (Reddit) से प्राप्त होता है।
5,000 रैंडम कीवर्ड्स और 1.5 लाख उद्धरणों के विश्लेषण पर आधारित यह रिपोर्ट बताती है कि इंटरनेट के किन-किन प्रमुख प्लेटफॉर्म्स से एआई को डेटा मिलता है।
टॉप डेटा स्रोतों की सूची
रिपोर्ट के मुताबिक, रेडिट एआई के लिए सबसे बड़ा डेटा स्रोत है, जो कुल डेटा का 40.1% प्रदान करता है। इसके बाद विकिपीडिया (26.3%), यूट्यूब (23.5%), और गूगल (23.3%) जैसे प्लेटफॉर्म आते हैं। नीचे टॉप-10 स्रोतों की पूरी सूची दी गई है:
स्रोत | प्रतिशत (%) |
---|---|
रेडिट | 40.1 |
विकिपीडिया | 26.3 |
यूट्यूब | 23.5 |
गूगल | 23.3 |
येल्प | 21.0 |
फेसबुक | 20.0 |
अमेजन | 18.7 |
ट्रिपएडवाइजर | 12.5 |
मेपबॉक्स | 11.3 |
ओपनस्ट्रीटमैप | 11.3 |
पारदर्शिता पर सवाल और डेटा चोरी के आरोप
एआई कंपनियों की ओर से पारदर्शिता की कमी और डेटा के अनधिकृत उपयोग को लेकर गंभीर सवाल उठे हैं। कई प्लेटफॉर्म्स ने आरोप लगाया है कि उनके डेटा का उपयोग बिना अनुमति के किया गया।
- Advertisement -
रेडिट ने हाल ही में इंटरनेट आर्काइव की वेबैक मशीन को अपनी साइट से ब्लॉक कर दिया है। रेडिट का आरोप है कि एआई कंपनियां इस टूल के माध्यम से उनका कंटेंट कॉपी कर रही थीं। वेबैक मशीन वेबसाइटों के पुराने वर्शन और कंटेंट को संग्रहित करती है, जिसे अब रेडिट ने एक्सेस से रोकने की योजना बनाई है।
एपीआई विवाद और यूजर्स की नाराजगी
2023 में, रेडिट ने अपने API (एप्लिकेशन प्रोग्रामिंग इंटरफेस) की नीतियों में बड़ा बदलाव किया। इस कदम के बाद कई थर्ड-पार्टी ऐप्स को बंद करना पड़ा। रेडिट ने स्पष्ट किया कि उसका डेटा अनधिकृत रूप से एआई प्रशिक्षण के लिए इस्तेमाल हो रहा था, जिसके चलते उसे यह निर्णय लेना पड़ा। इस बदलाव के बाद वैश्विक स्तर पर यूजर्स के विरोध प्रदर्शन भी हुए।
एआई से सावधानी की सलाह
ओपनएआई और चैटजीपीटी के प्रमुख निक टर्ले ने इस बात पर ज़ोर दिया है कि एआई टूल्स से मिली जानकारी को अंतिम सत्य मानने के बजाय ‘दूसरी राय’ के रूप में उपयोग किया जाना चाहिए। रिपोर्ट में यह भी स्वीकार किया गया है कि भले ही तकनीक में सुधार हो रहा हो, लेकिन एआई अब भी लगभग 10% मामलों में गलत उत्तर दे सकता है।
निष्कर्ष
स्टेटिस्टा की रिपोर्ट से स्पष्ट होता है कि एआई सिस्टम्स को इंटरनेट के कुछ चुनिंदा प्लेटफॉर्म्स से सबसे अधिक डेटा मिलता है, विशेष रूप से रेडिट जैसे मंचों से। लेकिन इसके साथ ही यह भी जरूरी हो गया है कि डेटा उपयोग को लेकर पारदर्शिता, अनुमति और नैतिकता पर ध्यान दिया जाए।