आईआईटी: संस्कृत टेक्स्ट के लिए भाव विश्लेषण पद्धति, शोध के लिए डेटा वाल्मीकि रामायण से


शिक्षाविदों एवं भाषा विशेषज्ञों का मानना है कि संस्कृत दुनिया की सबसे प्राचीन भाषाओं में एक है। हालांकि प्राचीन भाषा होने के बावजूद प्रचूर मात्रा में इसका लेबल डेटा नहीं मिलने की वजह से मशीनी अनुवाद और भाव विश्लेषण जैसे सहज भाषा प्रसंस्करण कार्य बहुत कम हुआ है।

इस शोध में मशीनी अनुवाद, अनुवाद मूल्यांकन और भाव विश्लेषण मॉडल उपयोग करने का प्रस्ताव है। शोध करने वाली टीम में प्रो. बालसुब्रमण्यम रमन, कम्प्युटर विज्ञान और इंजीनियरिंग विभाग और उनके पीएच.डी. छात्र श्री पुनीत कुमार और गणित विभाग में एम.एससी. के छात्र श्री क्षितिज पठानिया शामिल हैं।
मशीनी अनुवाद की मदद से मूल स्रोत और लक्षित भाषा की परस्पर भाषाई मैपिंग की गई है। इस तरह प्राप्त अंग्रेजी अनुवाद काफी परिपक्व और सहज हैं और अंग्रेजी के मौलिक वाक्यों की तरह हैं। यह मॉडल एक प्रतिष्ठित पीयर-रिव्यू जर्नल एप्लाइड इंटेलिजेंस में एक शोध पत्र के रूप में प्रकाशित किया गया है।
भाव विश्लेषण मॉडल के बारे में जानकारी देते हुए आईआईटी रुड़की में कम्प्युटर विज्ञान विभाग के प्रोफेसर बालासुब्रमण्यम रमन ने कहा, हम ने अपने मॉडल को इस तरह ट्रेन किया है कि पॉजिटिव न्यूट्रल या फिर निगेटिव रेंज में सेंटीमेंट स्कोर बताए। हमारा मॉडल 175 स्टैटिसटिक्स, सहज भाषा प्रसंस्करण, और मशीन लनिर्ंग की मदद से 90 प्रतिशत से अधिक सटीक भाव निर्धारण करने में सक्षम है।
प्रोफेसर बालासुब्रमण्यम रमन ने बताया कि शोध के लिए डेटा वाल्मीकि रामायण वेबसाइट से लिए गए। जिसके विकास और मेंटेन करने का काम आईआईटी कानपुर के शोधकर्ताओं ने किया है। शोधकतार्ओं की आगामी योजना बेहतर वर्गीकरण के लिए संस्कृत के मॉफरेलॉजिकल गुणों का लाभ लेना है जिसके लिए केवल मूल शब्द संबंधित प्रत्यय और उपसर्ग के साथ उपयोग किए जाएंगे। यह आकलन करने की योजना भी है कि क्या अंग्रेजी में अनुवाद करते हुए संस्कृत के मॉफॉलॉजिकल गुण सुरक्षित रखे जा सकते हैं। इसके अलावा शोधकर्ताओं की योजना ऐसा मॉडल बनाने की है जो शब्दों के संदर्भ कई भाषाओं में समझे और छोटे आयामों में शब्दों का समावेश करे।
--आईएएनएस
जीसीबी/एएनएम