भोपाल समाचार, टेक्नोलॉजी न्यूज़ डिपार्मेंट, 21 जनवरी 2026: UPSC trainer विजेंद्र चौहान (डॉ विजेंद्र सिंह चौहान) का एक बयान काफी वायरल हो रहा है और उसको लेकर सबके अपने पक्ष सोशल मीडिया पर सामने आ रहे हैं। तो यह बिल्कुल सही समय है जब श्री विजेंद्र चौहान के उस रिसर्च पेपर के बारे में सबको बताया जाए, जिसके आधार पर और इसके अध्ययन के दौरान श्री विजेंद्र चौहान को AI के बारे में अपना माइंडसेट बनाने का मौका मिला:-
Digital Diglossia: A Study of the Possibility of Reproducing Linguistic Hegemony in Hindi LLM Development
बिल्कुल इसी शीर्षक के साथ, यह रिसर्च पेपर दिल्ली विश्वविद्यालय के ज़ाकिर हुसैन दिल्ली कॉलेज के एसोसिएट प्रोफेसर डॉ. विजेंद्र सिंह चौहान द्वारा किए गए एक शोध पर आधारित है। हिंदी में इसका शीर्षक है "डिजिटल डायग्लॉसिया : हिन्दी एलएलएम (LLM) निर्माण में भाषिक हेजेमनी प्रजनन संभावना का अध्ययन"। यह रिसर्च पेपर Research Review Journal of Social Science में दिनांक 30 जून 2025 को प्रकाशित हुआ। इसकी डायरेक्ट लिंक इसी समाचार में उपलब्ध है।
डॉ विजेंद्र का मुख्य मुद्दा: डिजिटल डायग्लॉसिया का बढ़ता खतरा
डॉ विजेंद्र के रिसर्च पेपर का मुख्य मुद्दा "डिजिटल डायग्लॉसिया का बढ़ता खतरा" है। डॉ विजेंद्र की रिसर्च के अनुसार, आज के तकनीकी युग में जहाँ ChatGPT और Gemini जैसे Large Language Models (LLMs) हमारी ज़िंदगी का हिस्सा बन रहे हैं, वहीं यह शोध एक कड़वी सच्चाई को उजागर करता है। प्रोफेसर विजेंद्र का तर्क है कि हिंदी समाज में पहले से मौजूद 'उच्च' (मानक हिंदी) और 'निम्न' (बोलचाल या क्षेत्रीय बोलियां) के बीच का भाषाई असंतुलन अब डिजिटल दुनिया में भी अपनी जगह बना रहा है। इसे शोध में 'डिजिटल डायग्लॉसिया' कहा गया है।
डॉ विजेंद्र की रिसर्च रिपोर्ट के मुख्य बिंदु:
• भाषाई वर्चस्व और तकनीक: LLM निर्माण की प्रक्रिया, जैसे डेटा का चुनाव, टोकनाइजेशन और ट्रेनिंग, केवल मौजूदा भाषाई असमानताओं को दर्शाती नहीं है, बल्कि उन्हें तकनीकी रूप से और अधिक सुदृढ़ करती है।
• अंग्रेजी बनाम हिंदी की गुणवत्ता: शोध में डॉ विजेंद्र द्वारा पाया गया है कि अंग्रेजी में प्रशिक्षित LLM मॉडल अधिक गहरे और संवेदनशील उत्तर देते हैं, जबकि हिंदी में उत्तर अक्सर सतही, दोहरावपूर्ण और शुष्क होते हैं। उदाहरण के लिए, 'सामाजिक न्याय' पर अंग्रेजी मॉडल गहरे संदर्भ देता है, जबकि हिंदी मॉडल केवल सीमित और सतही उत्तर ही दे पाता है।
• क्षेत्रीय बोलियों का बहिष्कार: वर्तमान हिंदी AI मॉडल मुख्य रूप से 'शुद्ध या मानक हिंदी' पर आधारित हैं। जब उपयोगकर्ता क्षेत्रीय शब्दों जैसे "धाकड़" या "चटक-मटक" का प्रयोग करते हैं, तो मॉडल अक्सर त्रुटिपूर्ण उत्तर देता है या अंग्रेजी की ओर मुड़ जाता है। इससे क्षेत्रीय और लोक भाषाओं के 'डिजिटल विस्मृति' (Digital Erasure) का खतरा बढ़ गया है।
The digital embodiment of social prejudices
डॉ विजेंद्र ने अपनी रिसर्च रिपोर्ट में सबसे चौंकाने वाला खुलासा जातिगत और लैंगिक पूर्वाग्रहों को लेकर किया है:
1. लैंगिक भेदभाव: डॉ विजेंद्र के शोध के अनुसार, हिंदी AI में पेशेवर संदर्भों में 87.8% उत्तर पुरुष-केंद्रित पाए गए हैं।
2. जातिगत और धार्मिक पूर्वाग्रह: 'Indian-BhED' डेटासेट के माध्यम से यह सामने आया है कि ये मॉडल अक्सर दलितों और धार्मिक अल्पसंख्यकों के प्रति नकारात्मक रूढ़ियों को दोहराते हैं।
3. भाषाई पूंजी का खेल: पियरे बोरदियू के सिद्धांत का हवाला देते हुए डॉ विजेंद्र का शोध बताता है कि AI प्रणालियाँ अनजाने में उसी 'भाषाई पूंजी' को दोबारा स्थापित कर रही हैं, जो ऐतिहासिक रूप से बहिष्कार और असमानता को जन्म देती रही है।
Experts Opinion and the Way Forward
इस शोध के माध्यम से प्रोफेसर विजेंद्र सिंह ने AI के क्षेत्र में 'भाषाई न्याय' का आह्वान किया है। रिपोर्ट में कुछ महत्वपूर्ण सुझाव दिए गए हैं:
• AI मॉडल के प्रशिक्षण के लिए समावेशी और बहुसांस्कृतिक डेटाबेस (Corpus) बनाना अनिवार्य होना चाहिए।
• क्षेत्रीय साहित्य, दलित साहित्य और स्त्री लेखन को AI के डिजिटल डेटा में प्राथमिकता दी जानी चाहिए।
• सरकारों और संस्थानों को 'समावेशी कॉर्पस निधि' (Inclusive Corpus Fund) की स्थापना करनी चाहिए ताकि हिंदी अपनी आंतरिक बहुलता को न खोए।
• अध्ययन की अवधि:
यह महत्वपूर्ण होता है कि कोई भी रिसर्च में अध्ययन की अवधि कितनी थी। यदि कोई रेंडम स्टडी हुई है तो उसे इतना विश्वसनीय नहीं माना जाता है। प्रोफेसर डॉक्टर विजेंद्र सिंह की रिसर्च रिपोर्ट में अध्ययन के शुरू होने से लेकर समाप्त होने तक की किसी विशिष्ट समय सीमा या अवधि का उल्लेख नहीं किया गया है। सिर्फ इतना सा पता चलता है कि यह रिसर्च रिपोर्ट दिनांक 2 अप्रैल 2025 को, प्रकाशक को प्राप्त हुई। दिनांक 9 मई 2025 को उसके द्वारा स्वीकार की गई और 30 जून 2025 को प्रकाशित की गई।
यह अध्ययन 1959 से लेकर 2024-25 तक के विभिन्न शोध साहित्यों और सिद्धांतों की समीक्षा करता है। इसका मतलब हुआ कि प्रोफेसर डॉक्टर विजेंद्र ने स्वयं अथवा उनकी टीम में किसी ने एल्गोरिथम के साथ कोई छानबीन या जांच पड़ताल नहीं की।
प्रोफेसर डॉ विजेंद्र की रिसर्च में शामिल सदस्यों की संख्या:
चूंकि यह अध्ययन मुख्य रूप से पुस्तकालय आधारित शोध और तुलनात्मक विश्लेषण है, इसलिए इसमें किसी बड़े जन-सर्वेक्षण, परीक्षण या प्रतिभागियों की निश्चित संख्या का उल्लेख नहीं है। शोध पद्धति के अनुसार, इसमें विशेषज्ञों के साक्षात्कार (Expert Interviews) शामिल किए गए हैं, लेकिन उन विशेषज्ञों की सटीक संख्या रिसर्च रिपोर्ट में नहीं दी गई है।
इसका मतलब हुआ कि प्रोफेसर डॉक्टर विजेंद्र ने ना तो स्वयं को ही अध्ययन किया है और ना ही किसी भी प्रकार का परीक्षण अथवा अपने निष्कर्ष की पुष्टि करने के लिए उनके पास कोई टीम थी। उन्होंने विशेषज्ञों से सवाल किया और उनसे प्राप्त जवाब के आधार पर अपना माइंडसेट बनाया है। जबकि इस अध्ययन का विस्तार काफी बड़ा है।
विविध मॉडलों का विश्लेषण: इसमें दुनिया के प्रमुख Large Language Models (LLMs) जैसे GPT-4, Google's Gemini, Meta का LLaMA और Anthropic के Claude का विश्लेषण किया गया है।
बहु-आयामी दृष्टिकोण: शोध में केवल भाषाई ही नहीं, बल्कि जाति (Caste), धर्म (Religion) और लिंग (Gender) से संबंधित पूर्वाग्रहों का भी अध्ययन किया गया है।
साहित्यिक समीक्षा: इसमें कम से कम 11 प्रमुख पूर्ववर्ती शोध कार्यों (जैसे Malik et al., Joshi et al., Khandelwal et al.) और पियरे बोरदियू एवं फर्ग्यूसन जैसे विद्वानों के वैश्विक सिद्धांतों का संदर्भ लिया गया है।
भाषाई व्यापकता: यह अध्ययन अंग्रेजी, मानक हिंदी और क्षेत्रीय बोलियों (जैसे अवधी, बुंदेली, मैथिली) के बीच के जटिल संबंधों की पड़ताल करता है।
प्रोफेसर विजेंदर सिंह की रिसर्च के कमजोर पक्ष
जर्नल की अपनी प्रतिष्ठा होती है। यह एक कम ज्ञात जर्नल है।
मेथडोलॉजी बहुत कमजोर/अस्पष्ट: मुख्यतः secondary sources + "तुलनात्मक कोर्पस एनालिसिस" और "LLM responses का मूल्यांकन" का क्लेम, लेकिन कोई स्पेसिफिक LLM (जैसे GPT-4, Grok, Llama), कोई प्रॉम्प्ट एक्जाम्पल, कोई क्वांटिटेटिव मेट्रिक्स (BLEU, perplexity, bias score), कोई टेबल/ग्राफ नहीं।
विश्लेषण ज्यादातर qualitative और राय-आधारित लगता है, डेटा-ड्रिवन नहीं।
कुछ जगहों पर हिंदी टेक्स्ट में टाइपो/OCR एरर (जैसे "बोरहदयू" Bourdieu के लिए, "एकगोररहिक" algorithmic के लिए) जो PDF में स्कैन/कॉपी, पेस्ट एरर लगते हैं।
निष्कर्ष:-
प्रोफेसर डॉ विजेंद्र सिंह द्वारा की गई रिसर्च का सब्जेक्ट काफी अच्छा है लेकिन उनकी रिसर्च रिपोर्ट टेक्निकल और डेटाबेस पर आधारित कम, ओपिनियन-बेस्ड क्रिटिकल एस्से ज्यादा है। एक विद्यार्थी होने के नाते हमें अपने सारे सवालों के जवाब नहीं मिल पाए। इसलिए हम समझते हैं कि, इस विषय पर अभी और अधिक अध्ययन की आवश्यकता है। उसके बाद ही कोई निष्कर्ष और परामर्श की स्थिति बननी चाहिए।
.webp)

.webp)
.webp)