आईआईटी: संस्कृत टेक्स्ट के लिए भाव विश्लेषण पद्धति, शोध के लिए डेटा वाल्मीकि रामायण से

नई दिल्ली, 22 सितम्बर (आईएएनएस)। आईआईटी रुड़की के शोधकतार्ओं ने संस्कृत टेक्स्ट के भाव विश्लेषण की एक कारगर विधि विकसित की है। आईआईटी द्वारा किए गए इस शोध के लिए डेटा वाल्मीकि रामायण वेबसाइट से लिए गए। गौरतलब है कि संस्कृत दुनिया की सबसे प्राचीन भाषाओं में एक है लेकिन इसमें अब तक मशीनी अनुवाद और भाव विश्लेषण जैसे सहज भाषा प्रसंस्करण की खास कोशिश नहीं की गई है। ऐसे में आईआईटी रुड़की की तकनीक से 87.50 प्रतिशत सटीक मशीनी अनुवाद और 92.83 प्रतिशत सटीक भाव वर्गीकरण कर लेना बड़ी उपलब्धि मानी जा रही है।
 | 
आईआईटी: संस्कृत टेक्स्ट के लिए भाव विश्लेषण पद्धति, शोध के लिए डेटा वाल्मीकि रामायण से नई दिल्ली, 22 सितम्बर (आईएएनएस)। आईआईटी रुड़की के शोधकतार्ओं ने संस्कृत टेक्स्ट के भाव विश्लेषण की एक कारगर विधि विकसित की है। आईआईटी द्वारा किए गए इस शोध के लिए डेटा वाल्मीकि रामायण वेबसाइट से लिए गए। गौरतलब है कि संस्कृत दुनिया की सबसे प्राचीन भाषाओं में एक है लेकिन इसमें अब तक मशीनी अनुवाद और भाव विश्लेषण जैसे सहज भाषा प्रसंस्करण की खास कोशिश नहीं की गई है। ऐसे में आईआईटी रुड़की की तकनीक से 87.50 प्रतिशत सटीक मशीनी अनुवाद और 92.83 प्रतिशत सटीक भाव वर्गीकरण कर लेना बड़ी उपलब्धि मानी जा रही है।

शिक्षाविदों एवं भाषा विशेषज्ञों का मानना है कि संस्कृत दुनिया की सबसे प्राचीन भाषाओं में एक है। हालांकि प्राचीन भाषा होने के बावजूद प्रचूर मात्रा में इसका लेबल डेटा नहीं मिलने की वजह से मशीनी अनुवाद और भाव विश्लेषण जैसे सहज भाषा प्रसंस्करण कार्य बहुत कम हुआ है।

इस शोध में मशीनी अनुवाद, अनुवाद मूल्यांकन और भाव विश्लेषण मॉडल उपयोग करने का प्रस्ताव है। शोध करने वाली टीम में प्रो. बालसुब्रमण्यम रमन, कम्प्युटर विज्ञान और इंजीनियरिंग विभाग और उनके पीएच.डी. छात्र श्री पुनीत कुमार और गणित विभाग में एम.एससी. के छात्र श्री क्षितिज पठानिया शामिल हैं।

मशीनी अनुवाद की मदद से मूल स्रोत और लक्षित भाषा की परस्पर भाषाई मैपिंग की गई है। इस तरह प्राप्त अंग्रेजी अनुवाद काफी परिपक्व और सहज हैं और अंग्रेजी के मौलिक वाक्यों की तरह हैं। यह मॉडल एक प्रतिष्ठित पीयर-रिव्यू जर्नल एप्लाइड इंटेलिजेंस में एक शोध पत्र के रूप में प्रकाशित किया गया है।

भाव विश्लेषण मॉडल के बारे में जानकारी देते हुए आईआईटी रुड़की में कम्प्युटर विज्ञान विभाग के प्रोफेसर बालासुब्रमण्यम रमन ने कहा, हम ने अपने मॉडल को इस तरह ट्रेन किया है कि पॉजिटिव न्यूट्रल या फिर निगेटिव रेंज में सेंटीमेंट स्कोर बताए। हमारा मॉडल 175 स्टैटिसटिक्स, सहज भाषा प्रसंस्करण, और मशीन लनिर्ंग की मदद से 90 प्रतिशत से अधिक सटीक भाव निर्धारण करने में सक्षम है।

प्रोफेसर बालासुब्रमण्यम रमन ने बताया कि शोध के लिए डेटा वाल्मीकि रामायण वेबसाइट से लिए गए। जिसके विकास और मेंटेन करने का काम आईआईटी कानपुर के शोधकर्ताओं ने किया है। शोधकतार्ओं की आगामी योजना बेहतर वर्गीकरण के लिए संस्कृत के मॉफरेलॉजिकल गुणों का लाभ लेना है जिसके लिए केवल मूल शब्द संबंधित प्रत्यय और उपसर्ग के साथ उपयोग किए जाएंगे। यह आकलन करने की योजना भी है कि क्या अंग्रेजी में अनुवाद करते हुए संस्कृत के मॉफॉलॉजिकल गुण सुरक्षित रखे जा सकते हैं। इसके अलावा शोधकर्ताओं की योजना ऐसा मॉडल बनाने की है जो शब्दों के संदर्भ कई भाषाओं में समझे और छोटे आयामों में शब्दों का समावेश करे।

--आईएएनएस

जीसीबी/एएनएम