OCR तंत्राच्या प्रतीक्षेत मराठी

ओसीआर अर्थात ‘ऑप्टिकल कॅरॅक्टर रेकग्नीशन’ हे संगणकीय तंत्रज्ञान. भाषेतले अक्षर डोळ्याला दिसणे (वा भासणे) याच्याशी Optical Character हे दोन शब्द थेट संबंधित आहेत. त्याच्या पुढे ‘रेकग्नीशन’ हा शब्द आहे. अक्षर डोळ्याला भासणं आणि त्याचे रेकग्नीशन म्हणजे ओळखणं हे सारं इथे संगणकीय तंत्राच्या संदर्भात आलं आहे. आजकाल स्कॅनर्स घरोघर येऊ लागलेत. स्कॅनरमध्ये पुस्तकाचे एखादे पान घातले की स्कॅनरचे डोळे ते पान पाहतात व त्याची प्रतिमा आपल्या संगणकाच्या पडद्यावर आणून ठेवतात. एक प्रकारे स्कॅनर त्या पुस्तकाच्या पानाचे छायाचित्रच घेत असतो. हे छायाचित्र घेताना त्या पुस्तकाच्या पानावरील मजकूर कोणत्या भाषेत आहे याच्याशी स्कॅनरला देणे-घेणे नसते. स्कॅनरच्या दृष्टीने मजकूर किंवा त्यातले प्रत्येक अक्षर हा चित्राचा एक भाग असतो. स्कॅनरने पुस्तकाच्या पानाची व त्यावरच्या मजकुराची जी प्रतिमा घेतली की त्यातला एखादा शब्द वेगळा काढण्याची वा बदलण्याची सोय नसते. कारण सारा मजकूर मिळून एक संपूर्ण चित्र आपल्या स्क्रीनवर आलेले असते. ओसीआर तंत्रज्ञानाची एन्ट्री या टप्प्यावर होते. स्कॅन केलेल्या पानावर केवळ चित्र म्हणून दिसणारा जो मजकूर असतो त्यातले प्रत्येक अक्षर ओळखून त्याचे रूपांतर अक्षरात (टायपात किंवा फाँटमध्ये) करण्याचे काम ओसीआर तंत्रज्ञान करते. म्हणूनच त्याला ऑप्टिकल कॅरॅक्टर रेकग्नीशन असे म्हटले जाते. समजा राम गणेश गडकरी यांच्या ‘एकच प्याला’ या नाटकाचे एक पान आहे. त्यावर सिंधू आणि सुधाकर यांचे मराठी लिपीतील संवाद छापलेले आहेत. नाटकाच्या पुस्तकाची छपाई तीस वर्षांपूर्वी झाल्याने संगणकाच्या फाँटमध्ये ते संवाद उपलब्ध नाहीत. मराठी भाषेत जर ओसीआर तंत्राची सोय असती तर ‘एकच प्याला’चे ते पान प्रथम स्कॅन करण्यात आले असते. स्कॅनिंग केल्यानंतर जी प्रतिमा मिळाली असती त्या प्रतिमेतील शब्द व अक्षरांचे रूपांतर मराठी टायपात (फाँटमध्ये) केले गेले असते. तीस वर्षांपूर्वी राहून गेलेली एखादी प्रूफरिडींगची चूक दुरूस्त करून त्या पानावरचा तो शब्द पुन्हा बिनचूक टाइप करता आला असता. त्या पानावरचा एखादा परिच्छेद वेगळा काढणं शक्य झालं असतं. पानावरील मांडणी बदलता आली असती. मूळ पानावरचा टाइप वाचायला लहान आहे असं वाटल्यानंतर तो मोठा करता आला असता. त्याहीपेक्षा नाटकातला एखादा संदर्भ शोधण्यासाठी अभ्यासकांना आणि विद्यार्थ्यांना ‘सर्च’ची सुविधा उपलब्ध झाली असती. इंग्रजीसाठीचं प्रगत ओसीआर तंत्र इंग्रजीसाठी उपलब्ध असलेलं ओसीआर तंत्र आज अतिशय प्रगत आहे. स्कॅन करून ओसीआर केलेल्या इंग्रजी मजकुरातील अचूकता आज ९५ टक्क्यांहून अधिक असते. संगणक जेव्हा मजकूर ओसीआर करतो आणि अक्षर ओळखतो तेव्हा इंग्रजीत अनेक ठिकाणी संगणकाची कसोटी लागते. इंग्रजीतला लोअर केसमधलं एल (l) हे अक्षर आकडय़ातल्या एक (1) सारखं आहे. शब्दातलं अक्षर हे एल आहे की एक आकडा आहे हे ओळखण्याइतका आजचा संगणक बुध्दिमान आहे. अगदी बारीक अक्षर ओसीआर करताना इंग्रजी h च्या जागी n येण्याने चूक होऊ शकते. ओसीआर मधील अशा चुकांचे प्रमाण आज १ किंवा २ टक्के इतकेच उरले आहे. इंग्रजी ओसीआर मध्ये इतकी प्रगती झाल्याने जुने इंग्रजी ग्रंथ अतिशय झपाटय़ाने ओसीआर होत आहेत व इंटरनेटवरही सर्च सुविधेसह येत आहेत. ज्या १ किंवा २ टक्के चुका इंग्रजी ओसीआरमधून सुटतात त्या सुधारण्यासाठी इंग्रजीचे प्रगत शब्दकोश व दुरूस्त्या कोश उपलब्ध असल्याने इंग्रजीत गेली काही वर्षे ओसीआर तंत्र चांगले स्थिरावले आहे. आपल्या मराठीच्या नशिबात मात्र आज २०१० मध्येही अजून ते स्थिरावणं आलेलं नाही. मराठी ओसीआरची स्थिती संस्कृत, मराठी आणि हिंदी या भाषांतील सर्व अक्षरे (काही अपवाद वगळता) बहुतांशी सारखी आहेत. एखादं ‘ळ’ अक्षर वेगळं काढून तिन्ही भाषांसाठी देवनागरी ही एकच लिपी सामायिक ठेवणं तांत्रिकदृष्टय़ा सामान्यत: सोयीचं जातं. मराठीतला ओसीआर अडकून पडला आणि हिंदीसाठी किंवा देवनागरीसाठी मात्र तो तयार झाला तरी तांत्रिक उसनवारी करून मराठीतलं ओसीआरचं काम होणं शक्य आहे. मात्र मराठी आणि हिंदी दोन्हींसाठी किंवा एकूण देवनागरीसाठी वापरण्यास सोयीचे व स्वीकारार्ह असे ओसीआर सॉफ्टवेअर आज तरी शोधूनही सापडत नाही. जगात आणि भारतातल्या विविध विद्यापीठांमध्ये अनेक संशोधक आणि तंत्रज्ञ त्यासाठी सातत्याने प्रयत्न करीत आहेत. भारत सरकारच्या अधिपत्याखालील सीडॅकनेही त्यासाठी महत्त्वपूर्ण काम केले आहे. मराठीसाठी सीडॅकने ‘चित्रांकन’ नावाचे एक ओसीआर सॉफ्टवेअर आणले आहे. मात्र आजही त्यातल्या बिनचूकपणाच्या मर्यादांमुळे त्याचा वापर वाढलेला दिसत नाही. मराठीतली जोडाक्षरे, काना-मात्रा, रफार-वेलांटय़ा, पाय मोडणे, अनुस्वार-चंद्र, ऱ्हस्व-दीर्घ वगैरे ओसीआर तंत्रज्ञानापुढील अवघड आव्हाने आहेत. मूळात आत्ता आत्ता कुठे आपण फाँटच्या गोंधळाचा दोन दशकांचा प्रवास करून युनिकोडच्या स्थानकात उतरत आहोत. युनिकोडच्या नव्या गावाचं पाणी आपल्या दैनिक वृत्तपत्रांना अगदी अलिकडे पचू लागलंय. काही जण तर अजून त्यासाठी धडपडताहेत. अशा स्थितीत, ओसीआर आणि युनिकोड यांचा मेळ बसून ते इंग्रजीप्रमाणे ९५ टक्क्यांपर्यंत प्रगत होण्यासाठी कदाचित आणखी काही महिने वाट पहावी लागण्याची शक्यता आहे. मराठी ओसीआरच्या मार्गातील संभाव्य अडचणी ओसीआरचे तंत्र मुख्यत्वे जुने मराठी ग्रंथ व कागदपत्रांच्या डिजिटायझेशनसाठी वापरले जाणार आहे. असं समजूया की येत्या काही महिन्यांत मराठी ओसीआरचे एक उत्तम सॉफ्टवेअर आपल्या हाती आले व त्यातील बिनचूकपणा हा ९० टक्क्यांच्या आसपास साध्य झाला आहे. तरीही इतर काही अडचणी मराठी ओसीआरच्या मार्गात येण्याची शक्यता आहे. त्यातली एक महत्त्वाची अडचण म्हणजे पूर्वी मुद्रणासाठी विशेषत: हँड कंपोजिंगमध्ये वापरला गेलेला टाइप. मराठी मुद्रणात पूर्वी वापरून वापरून झिजलेला टाइप पुन्हा पुन्हा वापरणे हे नेहमीचे होते. वाचकांनाही तेव्हा तसा झिजलेला टाइप वाचताना अडचण येत नसे. पण तशा टाइपात छापली गेलेली पुस्तके वा कागदपत्रे ही ओसीआर तंत्रासमोर एक मोठे आव्हान ठरणार आहेत. इंग्रजीत जोडाक्षरे नाहीत. प्रत्येक अक्षर हे स्वतंत्र आहे. त्यामुळे ओसीआरसाठी ते खूपच सुकर ठरले. एच (h) ) आणि एन (n) किंवा e, o, Q, c सारखी इंग्रजी अक्षरे आकारांनी एकमेकांशी साधम्र्य राखणारी असली तरी ती एकमेकांत जोडलेली वा अर्धी नाहीत. तसेच इंग्रजीत अक्षराच्या वर रेघ नाही. मराठीत ही गुंतागुंत एकीकडे आहे, तर दुसरीकडे झिजलेला टाइप. यामुळे मराठीत ओसीआरमध्ये अनेक प्रमाद दिसून येतील व बिनचूकपणाचे प्रमाण खाली येईल. ‘र’सारख्या अक्षराची खाली येणारी शेपटी झिजलेली असेल तर तो अर्धा ‘ग’ होईल. किंवा ध, भ किंवा थ मधील वरचे गोळे झिजले असतील तर अनुक्रमे ते घ, म आणि य होतील. स अक्षराच्या पोटातील आडवी रेघ झिजली असेल तर स चा रा होईल. झिजलेल्या टाइपात छापला गेलेला मजकूर हा ओसीआरसाठी एक आव्हान ठरेल यात शंका नाही. मराठी ओसीआर आणि राज्य सरकार मराठी ओसीआरसाठी चांगले सॉफ्टवेअर उपलब्ध होणे ही राज्य सरकारचीही गरज असणार यात शंका नाही. कारण १९६० किंवा तत्पूर्वीपासूनची गॅझेटस्ची पाने जर सर्चेबल करावयाची असतील तर ओसीआरला पर्याय नाही. ओसीआर उपलब्ध झाल्यास कितीतरी कागदपत्रे पुन्हा टाइप करावी न लागता केवळ स्कॅन करून उपलब्ध होऊ शकतील. ओसीआरसाठीचे संशोधन आय.आय.टी. तसेच केंद्र सरकारच्या सीडॅक व तत्सम संस्थांमध्ये चाललेले असले तरी तेथे सर्व भारतीय भाषांचा विचार केला जात असतो. मराठी ही त्यातील एक भाषा असते. राज्य सरकारने मराठी ओसीआरसाठी तातडीने एक अभ्यास गट नेमणे व त्या अभ्यास गटाला संशोधनासाठी व ओसीआर विकासासाठी साधनसामुग्री उपलब्ध करून देणे अत्यावश्यक आहे. महाराष्ट्रात आज अनेक ठिकाणी संगणकविषयक उच्च शिक्षण देणाऱ्या संस्था आहेत. त्यांनीही मराठी युनिकोड व ओसीआरचा अभ्यास करणारे सेल स्थापन करावयास हवेत. मराठी हस्ताक्षराचे ओसीआर करण्याच्या विषयात मराठी कॅलिग्राफीसाठी प्रसिद्ध असलेले कै. र. कृ. जोशी यांचेही महत्त्वाचे योगदान आहे. आजच्या घडीला अमेरिकेत न्युयॉर्कच्या बफेलो विद्यापीठात देवनागरी ओसीआरसाठी सातत्याने संशोधन करणारे एक स्वतंत्र केंद्र (Center of Excellence for Document Analysis and Recognition (CEDAR) आहे. त्याची माहिती जिज्ञासूंना http://www.cedar.buffalo.edu/script/Doverview.html या संकेतस्थळावरून घेता येईल. भारताबाहेर देवनागरी ओसीआरसाठी काम करणाऱ्या बफेलो विद्यापीठासारख्या इतरही काही संस्था व व्यक्ती आहेत. महाराष्ट्र सरकारने व मराठीशी संबंधित महामंडळांनी या सर्वाशी सतत संपर्कात असायला हवे. जगात ३० कोटी लोकांना ओसीआरची प्रतिक्षा आजमितीस हिंदी, मराठी, संस्कृत या तीन मुख्य भाषांशी संबंधित जगातले ३० कोटी लोक देवनागरी ओसीआरची प्रतिक्षा करीत आहेत. हिंदी हा त्यातला सर्वात मोठा घटक असला तरी मराठी ही जगातील १५ व्या क्रमांकाची भाषा आहे. महाराष्ट्र हा जगातल्या कितीतरी देशांच्या तोडीचा आहे. सुवर्ण महोत्सवी वर्षांत पदार्पण करणाऱ्या महाराष्ट्राकडूनही जगातले हे ३० कोटी लोक अपेक्षा ठेवून आहेत. मराठी व देवनागरी ओसीआरसाठी आपले योगदान देणे हे महाराष्ट्रानेही आपले एक कर्तव्य मानायला हवे-माधव शिरवळकर.

Search This Blog

Pratisaad

OCR तंत्राच्या प्रतीक्षेत मराठी

Comments

Post a Comment

Popular posts from this blog

आठवण आईची-पाचवे पुण्यस्मरण

आई -तृतीय पुण्यस्मरण

आई-चतुर्थ पुण्यस्मरण