ओसीआर
हस्तलिखित, टाइप किए हुए या प्रिन्ट किए हुए पाठ्यांश (टेक्स्ट) की छवि का कम्प्यूटर द्वारा पढ़े जाने योग्य पाठ्यांश रूप में परिवर्तन प्रकाशिक सम्प्रतीक अभिज्ञान (प्रकाश द्वारा सम्प्रतीकों की पहचान/Optical Character Recognition/ओसीआर) कहलाती है। आजकल यह छवि-प्रसंस्करण पर आधारित कम्प्यूटर क्रमादेशों / प्रोग्रामों द्वारा आसानी से सम्भव हो गया है किन्तु इसे यांत्रिक तरीकों से भी करना सम्भव है।
वस्तुत: यह प्रतिरूप की पहचान, कृत्रिम बुद्धि और मशीनी-दृष्टि (machine vision) के क्षेत्र में अनुसंधान का एक क्षेत्र है। पहले ओसीआर क्रमादेशों / प्रोग्रामों को प्रशिक्षित करना पड़ता था किन्तु अब बहुत से 'बुद्धिमान' प्रोग्राम भी बना दिए गए हैं जो अधिकांश फांटों को बहुत अधिक शुद्धता के साथ पहचान लेते हैं।
उपयोग
[संपादित करें]ओसीआर का मुख्य उपयोग प्रिन्ट की गई पुस्तकों के पृष्ठों के क्रमवीक्षण छवियों को लेकर उससे 'पाठ्यांश' में बदलना है। पाठ्यांश में बदलने से कई लाभ हैं—
- पाठ्यांश संचिका (फाइल) का आकार प्रतिबिंब संचिका से बहुत कम होता है।
- पाठ्यांश में खोजना एवं अन्य प्रसंस्करण बहुत आसान हैं, जैसे उसका अनुवाद करना, उस पाठ्यांश की लिपि बदलना, उस पाठ्यांश को ध्वनि में बदलना, तथा उस पाठ्यांश से अन्य सूचनाएँ निकाल पाना आदि।
- गाड़ियों के नम्बर प्लेट की स्वचालित पहचान
- प्रिन्ट रूप में मौजूद इलेक्ट्रॉनिक दस्तावेजों की छवियों को खोजने लायक बनाना (जैसे गूगल पुस्तकें)
प्रमुख ओसीआर प्रोग्राम
[संपादित करें]निःशुल्क ओसीआर
[संपादित करें]गूगल ओसीआर, GOCR, SimpleOCR, TopOCR, FreeOCR आदि।
देवनागरी ओसीआर
[संपादित करें]- गूगल ओसीआर - यह सभी भारतीय भाषाओं के विकिस्रोतों पर सुविधाजनक रूप में उपलब्ध कराया गया है।
- टेसरैक्ट-ओसीआर (निःशुल्क, मुक्तस्रोत)
- संस्कृत ओसीआर
इन्हें भी देखें
[संपादित करें]बाहरी कड़ियाँ
[संपादित करें]- टेसरैक्ट ओसीआर - मुक्तस्रोत ओसीआर जिसमें देवनागरी सहित अन्य लिपियों की पहचान की सुविधा है।
- 14 Free OCR – Convert JPG / PDF To Editable Texts
- ई-अक्षरायन - देवनागरी, तमिल, मलयालम, कन्नड आदि लिपियों के लिए ओसीआर
- How to OCR Documents for Free in Google Drive
- Convert PDF and photo files to text (in Google Drive using Google OCR)
- परिचित (ओसीआर) - भारतीय भाषाओं के लिए मुक्तस्रोत ओसीआर निर्माण की परियोजना
- Indian Language Technologies - Devanagari OCR Resources
- Deep Learning based Text Recognition (OCR) using Tesseract and OpenCV (2018)
- TDIL का वेब आधारित ओसीआर
- Recognition of Printed Devnagari. Characters With Regular Expression
- White Paper: OCR Softwares for Indian languages
- Indian script character recognition: a survey[मृत कड़ियाँ]
- Integrating Knowledge Sources in Devanagari Text Recognition System Veena Bansal and R. M. K. Sinha
- A Survey of Indian Script OCR Systems
- Text - Image Separation in Devanagari Documents
- कम्प्यूटर विज्ञान शब्दावली (अंग्रेजी-हिंदी)