ABBYY FineReader का उपयोग करके टेक्स्ट को कैसे पहचानें: चरण-दर-चरण निर्देश। फाइनरीडर का उपयोग करके छवि पहचान की मूल बातें एबी फाइनरीडर प्रोग्राम का उपयोग कैसे करें

नमस्ते। आज मैं इस बारे में बात करूंगा कि किसी छवि से टेक्स्ट को पहचानने के लिए एबी फाइनरीडर प्रोग्राम का उपयोग कैसे करें जो आपको स्कैनिंग के परिणामस्वरूप प्राप्त हुआ हो। आपका स्कैन किया गया टेक्स्ट पूरी तरह से Microsoft Word दस्तावेज़ में होगा और इस मान्यता प्राप्त टेक्स्ट को संपादित किया जा सकता है! एबी फाइनरीडर का उपयोग करके पाठ को पहचानना उन लोगों के लिए उपयोगी हो सकता है जो अध्ययन करते हैं, पाठ और अनुवाद के साथ काम करते हैं। दुर्भाग्यवश, कार्यक्रम का भुगतान किया जाता है। मुझे एक बार इसी तरह के कार्यक्रमों के मुफ्त संस्करणों में से एक को आज़माने का मौका मिला था, लेकिन बहुत अच्छी तरह से स्कैन किए गए पाठ को बहुत ही आसानी से पहचाना जा सका... और एबी फाइनरीडर में पाठ की पहचान बहुत उच्च गुणवत्ता वाली हो गई! अब मैं आपको दिखाऊंगा कि किसी छवि से टेक्स्ट को तुरंत पहचानने के लिए एबी फाइनरीडर प्रोग्राम का उपयोग कैसे करें।

ABBYY FineReader के पास 30 दिनों के लिए एक परीक्षण संस्करण है जिसमें 100 पृष्ठों तक को पहचानने और किसी दस्तावेज़ से 3 से अधिक पृष्ठों को सहेजने की क्षमता है। वे। इस समय के दौरान, आप कार्यक्रम की क्षमताओं को देख सकते हैं और एक सूचित निर्णय ले सकते हैं - क्या आपको इसकी आवश्यकता है, क्या यह खरीदने लायक है या नहीं।

एबी फाइनरीडर कैसे स्थापित करें!

एबी फाइनरीडर का उपयोग करने से पहले आपको इसे इंस्टॉल करना होगा। आइए इस प्रोग्राम की स्थापना प्रक्रिया पर नजर डालें...

सबसे पहले प्रोग्राम भाषा का चयन करें। ओके पर क्लिक करें"।

हम लाइसेंस समझौते की शर्तों को स्वीकार करते हैं (यदि आप चाहें, तो आप लाइसेंस समझौते को पढ़ सकते हैं यदि आप इसमें रुचि रखते हैं कि यह किस बारे में है)। अगला पर क्लिक करें"।

इसके बाद, आपको इंस्टॉलेशन मोड का चयन करना होगा। सामान्य मोड में, प्रोग्राम आपसे नहीं पूछेगा और डिफ़ॉल्ट रूप से प्रोग्राम में जो निर्दिष्ट है उसे इंस्टॉल करेगा, अर्थात् सभी घटक: एबीबी फाइनरीडर टेक्स्ट रिकग्निशन प्रोग्राम स्वयं, माइक्रोसॉफ्ट ऑफिस प्रोग्राम के लिए एक घटक और विंडोज एक्सप्लोरर के लिए एक घटक (जो आपको अनुमति देता है) अलग से प्रोग्राम खोले बिना छवियों को तुरंत पहचानने के लिए)। मैं आपको सलाह देता हूं कि इसे अपनी आवश्यकतानुसार कॉन्फ़िगर करने के लिए कस्टम इंस्टॉलेशन की जांच करें। इसके अलावा, इसमें 15 मिनट भी नहीं लगेंगे :) नीचे वह फ़ोल्डर है जहां प्रोग्राम इंस्टॉल किया जाएगा। यह सलाह दी जाती है कि डिफ़ॉल्ट चयन को छोड़ दिया जाए ताकि प्रोग्राम का उपयोग करते समय बाद में कोई समस्या न हो। अगला पर क्लिक करें"।

कार्यक्रम के घटक. यदि आप "कस्टम" इंस्टॉलेशन प्रकार का चयन करते हैं तो यह विंडो दिखाई देगी। घटक किसी प्रोग्राम के लिए सहायक अनुप्रयोग की तरह होते हैं। पहला घटक है "माइक्रोसॉफ्ट ऑफिस प्रोग्राम और विंडोज एक्सप्लोरर के साथ एकीकरण।" यह घटक Microsoft Office मेनू में प्रदर्शित किया जाएगा और यदि आप अपने कंप्यूटर पर छवि पर राइट-क्लिक करते हैं, तो इस प्रोग्राम के साथ एक आइटम होगा। इस घटक को जोड़ने के बाद Microsoft Office में आपका मेनू इस तरह दिखेगा।

यदि आप छवि पर राइट-क्लिक करते हैं तो यहां क्या होता है:

वे। एक मेनू दिखाई देगा जिसमें आप त्वरित टेक्स्ट पहचान कर सकते हैं और परिणाम वर्ड, एक्सेल या पीडीएफ पर भेज सकते हैं।

दूसरा घटक आपको अपने कंप्यूटर स्क्रीन से टेक्स्ट को पहचानने की अनुमति देगा। इसका मतलब है कि आप स्क्रीनशॉट ले सकते हैं और टेक्स्ट को पहचान भी सकते हैं। यदि आप इनमें से किसी एक घटक को स्थापित नहीं करना चाहते हैं, या दोनों को स्थापित नहीं करना चाहते हैं, तो आपको नीचे तीर पर क्लिक करना होगा और "यह घटक उपलब्ध नहीं होगा" का चयन करना होगा। तब घटक स्थापित नहीं किया जाएगा. मैंने दोनों को छोड़ दिया.

अगले 4 अंक. पहले का मतलब है कि आप एबी फाइनरीडर प्रोग्राम का उपयोग कैसे करते हैं, इसकी जानकारी डेवलपर को स्थानांतरित कर दी जाएगी। मैं आपको सलाह देता हूं कि आप इस आइटम की जांच न करें ताकि प्रोग्राम इसके साथ काम करने के बारे में जानकारी भेजने के लिए एक बार फिर ऑनलाइन न हो जाए। इसके अलावा, आप कभी नहीं जानते कि अन्य जानकारी क्या भेजी जाएगी :) दूसरा बिंदु डेस्कटॉप पर प्रोग्राम के लिए एक शॉर्टकट बनाता है। तीसरे का मतलब है कि कंप्यूटर चालू होने पर प्रोग्राम शुरू हो जाएगा, और चौथा प्रोग्राम अपडेट की जांच करेगा। मैं केवल दूसरा छोड़ता हूं और उसके आगे एक टिक छोड़ता हूं। हम सभी Microsoft Office एप्लिकेशन बंद कर देते हैं, क्योंकि इंस्टॉलर को इसकी आवश्यकता होती है, और "इंस्टॉल करें" पर क्लिक करें।

आपको प्रोग्राम लोड होने के लिए कुछ मिनट इंतजार करना होगा और "अगला" पर क्लिक करना होगा।

बस, इंस्टॉलेशन पूरा हो गया! "समाप्त करें" पर क्लिक करें।

मैं स्कैन की गई या किसी अन्य छवि से टेक्स्ट को पहचानने के लिए एबी फाइनरीडर का उपयोग कैसे कर सकता हूं?

आइए देखें कि प्रोग्राम का उपयोग कैसे करें। उदाहरण के लिए, आपने टेक्स्ट स्कैन किया है. अब, एबी फाइनरीडर में टेक्स्ट को पहचानने के लिए प्रोग्राम खोलें। "खोलें" पर क्लिक करें।

हमें जिस छवि की आवश्यकता है उसे चुनें और ओपन पर क्लिक करें।

जब आप वांछित दस्तावेज़ खोलते हैं, तो एबी फाइनरीडर पाठ को पहचानना शुरू कर देगा। दस्तावेज़ जितना बड़ा होगा, पहचान में उतना ही अधिक समय लगेगा। एक पृष्ठ की पहचान में कई सेकंड लग सकते हैं।

पाठ की पहचान हो जाने के बाद, आपको बस परिणाम को Microsoft Word दस्तावेज़ में सहेजना है, ताकि आप उसमें कुछ भी संपादित कर सकें। ऐसा करने के लिए, शीर्ष टूलबार पर "सहेजें" बटन पर क्लिक करें, फिर चुनें कि वर्ड दस्तावेज़ किस फ़ोल्डर में और किस नाम से सहेजा जाएगा।

यदि आपके पास अपने कंप्यूटर से जुड़ा स्कैनर है, तो आप सीधे प्रोग्राम से स्कैनिंग शुरू कर सकते हैं, और जिसके बाद स्कैन किए गए दस्तावेज़ को तुरंत पहचाना जाएगा। ऐसा करने के लिए, शीर्ष टूलबार पर "स्कैन" बटन पर क्लिक करें। अगले चरण आपके प्रिंटर के ड्राइवर प्रोग्राम पर निर्भर करेंगे। आपको केवल स्कैनिंग विज़ार्ड के निर्देशों का पालन करना होगा।

जैसा कि आप देख सकते हैं, सब कुछ बहुत सरल और तेज़ है। अब आप जानते हैं कि छवियों से पाठ को पहचानने के लिए एबी फाइनरीडर का उपयोग कैसे करें! मुझे आशा है कि यह जानकारी बहुत से लोगों की मदद करेगी :) शुभकामनाएँ!

एबी फाइनरीडर छवियों के साथ पाठ को पहचानने का एक कार्यक्रम है। छवियों का स्रोत आमतौर पर स्कैनर या एमएफपी होता है। आप सीधे एप्लिकेशन विंडो से स्कैन कर सकते हैं और फिर स्वचालित रूप से छवि को टेक्स्ट में परिवर्तित कर सकते हैं। इसके अलावा, फाइन रीडर स्कैनर से प्राप्त छवियों को पीडीएफ और एफबी2 प्रारूप में परिवर्तित कर सकता है, जो बाद की छपाई के लिए इलेक्ट्रॉनिक किताबें और दस्तावेज बनाते समय उपयोगी होता है।

समस्या को कैसे ठीक करें: ABBYY Finereader को स्कैनर दिखाई नहीं देता है।

एबी फाइनरीडर 14 (नवीनतम संस्करण) के सही ढंग से काम करने के लिए, आपके कंप्यूटर पर निम्नलिखित आवश्यकताओं को पूरा किया जाना चाहिए:

  • 1 गीगाहर्ट्ज और उससे अधिक की आवृत्ति वाला प्रोसेसर और एसएसई2 निर्देश सेट का समर्थन करता है;
  • ओएस विंडोज़ 10, 8.1, 8, 7;
  • 1 जीबी से रैम, अनुशंसित - 4 जीबी;
  • TWAIN- या WIA-संगत छवि इनपुट डिवाइस;
  • सक्रियण के लिए इंटरनेट का उपयोग.

यदि आपका हार्डवेयर इन आवश्यकताओं को पूरा नहीं करता है, तो प्रोग्राम सही ढंग से काम नहीं कर सकता है। लेकिन भले ही सभी शर्तें पूरी हो जाएं, एबी फाइनरीडर अक्सर विभिन्न स्कैनिंग त्रुटियां उत्पन्न करता है, जैसे:

  • TWAIN स्रोत खोला नहीं जा सकता;
  • पैरामीटर गलत तरीके से निर्दिष्ट किया गया है;
  • आंतरिक सॉफ़्टवेयर त्रुटि;
  • स्रोत आरंभीकरण त्रुटि.

अधिकांश मामलों में, समस्या स्वयं एप्लिकेशन और उसकी सेटिंग्स से संबंधित होती है। लेकिन कभी-कभी सिस्टम अपडेट के बाद या नए उपकरण कनेक्ट करने के बाद त्रुटियां होती हैं। आइए सबसे सामान्य सिफ़ारिशों पर नज़र डालें कि यदि ABBYY FineReader स्कैनर नहीं देखता है और त्रुटि संदेश प्रदर्शित करता है तो क्या करना चाहिए।

त्रुटि सुधार

गलत संचालन को ठीक करने के लिए कई सामान्य युक्तियाँ हैं:

  1. अपने हार्डवेयर ड्राइवरों को निर्माता की आधिकारिक वेबसाइट से नवीनतम संस्करण में अपडेट करें।
  2. सिस्टम में वर्तमान उपयोगकर्ता के अधिकारों की जाँच करें, यदि आवश्यक हो तो पहुंच स्तर बढ़ाएँ।
  3. कभी-कभी एप्लिकेशन का पुराना संस्करण इंस्टॉल करने से मदद मिलती है, खासकर यदि आप पुराने हार्डवेयर पर काम कर रहे हैं।
  4. जांचें कि क्या सिस्टम स्वयं स्कैनर को देखता है। यदि यह डिवाइस मैनेजर में दिखाई नहीं देता है या पीले विस्मयादिबोधक चिह्न के साथ दिखाया जाता है, तो समस्या हार्डवेयर में है, सॉफ़्टवेयर में नहीं। कृपया निर्माता के निर्देश या तकनीकी सहायता देखें।
  5. आधिकारिक ABBYY वेबसाइट का अच्छा तकनीकी समर्थन https://www.abbyy.com/ru-ru/support है। आप अपनी विशिष्ट समस्या का विस्तार से वर्णन करते हुए एक प्रश्न पूछ सकते हैं, और बिल्कुल निःशुल्क पेशेवर समाधान प्राप्त कर सकते हैं।

त्रुटि को दूर करना "पैरामीटर गलत तरीके से निर्दिष्ट है"

ABBYY FineReader के नवीनतम संस्करण में, इसे "स्रोत आरंभीकरण त्रुटि" भी कहा जा सकता है। इनिशियलाइज़ेशन सिस्टम द्वारा उपकरणों को जोड़ने और पहचानने की प्रक्रिया है।

यदि फाइन रीडर स्कैनिंग डायलॉग बॉक्स लॉन्च करते समय स्कैनर नहीं देखता है और निम्नलिखित त्रुटियाँ उत्पन्न करता है, तो निम्नलिखित क्रियाओं से मदद मिलनी चाहिए:

  1. फाइनरीडर को पुनरारंभ करें।
  2. "टूल्स" मेनू पर जाएं, "ओसीआर एडिटर" चुनें।
  3. "टूल्स" पर क्लिक करें, फिर "सेटिंग्स" पर क्लिक करें।
  4. "बेसिक" अनुभाग चालू करें.
  5. "एक इमेजिंग डिवाइस चुनें" पर जाएँ, फिर "एक डिवाइस चुनें" पर जाएँ।
  6. उपलब्ध ड्राइवरों की ड्रॉप-डाउन सूची पर क्लिक करें। सूची में से प्रत्येक के साथ एक-एक करके स्कैनिंग की कार्यक्षमता की जाँच करें। यदि आप इनमें से किसी के साथ सफल होते हैं, तो भविष्य में इसका उपयोग करें।

ध्यान। यह भी संभव है कि स्कैन किसी भी उपलब्ध ड्राइवर के साथ नहीं किया जा सका। फिर "स्कैनर इंटरफ़ेस का उपयोग करें" पर क्लिक करें।

यदि इससे मदद नहीं मिलती है, तो आपको TWAIN_32 Twacker उपयोगिता की आवश्यकता होगी। इसे ABBYY की आधिकारिक वेबसाइट ftp://ftp.abbyy.com/TechSupport/twack_32.zip से डाउनलोड किया जा सकता है।

इसके बाद, निर्देशों का पालन करें:

  1. फाइन रीडर से बाहर निकलें।
  2. twack_32.zip संग्रह को किसी भी फ़ोल्डर में अनपैक करें।
  3. Twack_32.exe पर डबल क्लिक करें।
  4. प्रोग्राम शुरू करने के बाद, "फ़ाइल" मेनू पर जाएं, फिर "अधिग्रहण करें"।
  5. खुलने वाले संवाद में "स्कैन" पर क्लिक करें।
  6. यदि दस्तावेज़ सफलतापूर्वक स्कैन किया गया था, तो फ़ाइल मेनू खोलें और स्रोत चुनें पर क्लिक करें।
  7. वह ड्राइवर जिसके माध्यम से उपयोगिता सफलतापूर्वक स्कैन की गई, नीले रंग में प्रदर्शित किया जाएगा।
  8. फ़ाइल रीडर में उसी ड्राइवर फ़ाइल का चयन करें।

यदि एबी फाइनरीडर में लॉन्च होने पर यह फिर से विफल हो जाता है, तो प्रोग्राम में कोई समस्या है। एबीबीवाईवाई तकनीकी सहायता को एक अनुरोध भेजें। यदि 32 ट्वैकर "स्कैन" कमांड को निष्पादित करने में असमर्थ था, तो डिवाइस या उसका ड्राइवर संभवतः सही ढंग से काम नहीं कर रहा है। स्कैनर निर्माता के तकनीकी समर्थन से संपर्क करें।

आंतरिक सॉफ़्टवेयर त्रुटि

ऐसा होता है कि स्कैन शुरू करते समय, एप्लिकेशन "आंतरिक सॉफ़्टवेयर त्रुटि, कोड 142" रिपोर्ट करता है। यह आमतौर पर प्रोग्राम सिस्टम फ़ाइलों के विलोपन या भ्रष्टाचार से जुड़ा होता है। पुनरावृत्ति को ठीक करने और रोकने के लिए, निम्नलिखित कार्य करें:


कभी-कभी एक्सेस प्रतिबंधों के कारण फिनरीडर स्कैनर को नहीं देख पाता है। प्रोग्राम को व्यवस्थापक के रूप में चलाएँ या वर्तमान उपयोगकर्ता के अधिकारों को बढ़ाएँ।

इससे फाइन रीडर प्रोग्राम को स्कैनर से जोड़ने की समस्या हल हो जाती है। कभी-कभी इसका कारण ड्राइवर विरोध या हार्डवेयर असंगति होता है। और कभी-कभी आंतरिक सॉफ़्टवेयर त्रुटियों के कारण स्कैनिंग विफल हो जाती है। यदि आपको किसी अच्छे पाठक में इसी तरह की समस्याओं का सामना करना पड़ा है, तो टिप्पणियों में सुझाव और समाधान छोड़ें।

हालाँकि पिछले 50 वर्षों में कृत्रिम बुद्धिमत्ता (एआई) में हुई प्रगति ने स्मार्ट मशीनों को मानव संज्ञानात्मक क्षमताओं के रत्ती भर भी करीब नहीं लाया है, लेकिन इस दिशा में प्रगति को पूरी तरह से नकारना अनुचित होगा। सबसे स्पष्ट और आकर्षक उदाहरण शतरंज है (सरल खेलों का तो जिक्र ही नहीं)। एक कंप्यूटर अभी तक हमारी सोच की नकल नहीं कर सकता है, लेकिन यह बड़ी मात्रा में विशिष्ट मेमोरी और खोज गति के साथ इस अंतर की भरपाई करने में काफी सक्षम है। व्लादिमीर क्रैमनिक ने 2006 में उन्हें हराने वाले डीप फ्रिट्ज़ कार्यक्रम के खेल को इस अर्थ में "अमानवीय" बताया कि यह अक्सर रणनीति और रणनीति के स्थापित (मानवीय) नियमों का खंडन करता था।

और ठीक एक साल पहले, आईबीएम के एक और दिमाग की उपज, जिसने एक समय में कंप्यूटर (प्रसिद्ध डीप ब्लू) की विजयी शतरंज जीत की नींव रखी थी, जिसे वॉटसन कहा जाता था, ने लोकप्रिय अमेरिकी क्विज़ जोपार्डी के दो चैंपियनों को हराकर एक नई सफलता हासिल की। बड़े अंतर से. हालाँकि, यह महत्वपूर्ण है कि यद्यपि वॉटसन ने स्वतंत्र रूप से उत्तर दिए, फिर भी प्रश्न उन्हें पाठ्य रूप में प्रेषित किए गए। इससे पता चलता है कि एआई अनुप्रयोग के कई क्षेत्रों - भाषण और छवि पहचान, मशीन अनुवाद - में सफलताएं काफी मामूली हैं, हालांकि यह हमें आज उन्हें अभ्यास में उपयोग करने से नहीं रोकती है। सबसे बड़ी सफलताएं, शायद, ऑप्टिकल कैरेक्टर रिकग्निशन सिस्टम (ओसीआर, ऑप्टिकल कैरेक्टर रिकग्निशन) द्वारा प्रदर्शित की जाती हैं, जिससे लगभग सभी पीसी उपयोगकर्ता शायद किसी न किसी तरह से परिचित हैं। इसके अलावा, इस क्षेत्र में रूसी विकास दुनिया में एक योग्य स्थान रखता है - मेरा मतलब है एबीबीवाई फाइनरीडर।

थोड़ा इतिहास

ABBYY FineReader का वर्तमान संस्करण 11वें नंबर पर है, यानी एप्लिकेशन काफी लंबे विकास पथ से गुजरा है, और यहां तक ​​कि इस प्रक्रिया का इतिहास भी कुछ दिलचस्प है। एक विस्तृत इतिहास होने का दिखावा किए बिना, मैं पिछले दशक के केवल मुख्य मील के पत्थर बताऊंगा, जिसके दौरान मैंने कमोबेश फाइनरीडर का अनुसरण किया:

वर्षसंस्करणमुख्य विशेषताएं
2003 7.0 पहचान सटीकता में 25% तक की वृद्धि। यह सबसे अधिक तालिकाओं में परिलक्षित होता था, विशेष रूप से जटिल तालिकाओं में, जिनमें रंगीन कोशिकाएँ, छिपे हुए डिवाइडर आदि होते थे।
2005 8.0 मान्यता एल्गोरिदम का और अनुकूलन, मुख्य रूप से स्कैन किए गए दस्तावेज़ों के साथ नहीं, बल्कि डिजिटल तस्वीरों के साथ काम करना है। इस प्रयोजन के लिए, मूल तैयार करने के लिए अतिरिक्त कार्य सामने आए हैं (विकृतियों को दूर करना, रेखाओं को संरेखित करना, आदि)।
2007 9.0 एडीआरटी तकनीक का उद्भव, जो संपूर्ण संसाधित (बहु-पृष्ठ) दस्तावेज़ की तार्किक संरचना को ध्यान में रखता है और दोहराए जाने वाले तत्वों (शीर्षलेख और पादलेख) को उजागर करने, "प्रवाहित" वस्तुओं (तालिकाओं) को जोड़ने आदि में सक्षम है।
2009 10.0 एडीआरटी और मान्यता एल्गोरिदम में और सुधार, कम-रिज़ॉल्यूशन मूल की प्रसंस्करण सटीकता में 30% तक की वृद्धि।
2011 11.0 कार्यक्रम की गति पर मुख्य ध्यान दिया जाता है। ब्लैक एंड व्हाइट मोड का "दूसरा आगमन", जो अच्छी गुणवत्ता वाले मूल पर 30% तक अतिरिक्त त्वरण देता है।

स्वाभाविक रूप से, उसी समय के दौरान, फाइनरीडर ने दस्तावेज़ प्रारूपों के लिए समर्थन का विस्तार किया, अंतर्निहित टूल और इंटरफ़ेस में सुधार किया, मूल की संरचना के पुनर्निर्माण में सुधार किया, आदि। हालांकि, हाइलाइट किए गए बिंदु सीधे ओसीआर प्रौद्योगिकियों से संबंधित हैं और स्पस्मोडिक विकास प्रक्रिया को अच्छी तरह से प्रदर्शित करते हैं। जटिल ज्ञान-गहन प्रणालियों की विशेषता, जब अगली "सफलता" के बाद "शांत" की एक निश्चित अवधि आती है, जो नए एल्गोरिदम में सुधार के लिए आवश्यक है। वे किसी भी ओसीआर प्रोग्राम के मुख्य मूल्य का प्रतिनिधित्व करते हैं, और इसलिए उनके बारे में कोई भी विस्तृत जानकारी शायद ही कभी उपयोगकर्ताओं तक पहुंचती है। हालाँकि, एबीबीवाई गोपनीयता का पर्दा उठाने के लिए सहमत हो गया, और आज हमारे पास फाइनरीडर के पवित्र स्थान को देखने का अवसर है।

मूलरूप आदर्श

इसलिए, चूंकि ओसीआर एआई के क्षेत्र से संबंधित है, इसलिए यह तर्कसंगत है कि डेवलपर्स कम से कम कुछ हद तक हमारे मस्तिष्क की गतिविधि की नकल करने का प्रयास करें। बेशक, हमारी दृश्य प्रणाली की संरचना अविश्वसनीय रूप से जटिल है, लेकिन इसके कामकाज के बुनियादी "बड़े-ब्लॉक" सिद्धांतों का पर्याप्त अध्ययन किया गया है; आमतौर पर उनमें से तीन हैं:

  1. अखंडता- किसी वस्तु को उसके हिस्सों और (दृश्य छवियों के लिए) उनके बीच के स्थानिक संबंधों के संग्रह के रूप में माना जाता है। बदले में, भागों को संपूर्ण वस्तु के हिस्से के रूप में ही व्याख्या प्राप्त होती है। यह सिद्धांत परिकल्पनाओं को बनाने और स्पष्ट करने में मदद करता है, असंभावित परिकल्पनाओं को शीघ्रता से समाप्त कर देता है।
  2. निरुउद्देश्यता- चूंकि डेटा की कोई भी व्याख्या एक विशिष्ट लक्ष्य का पीछा करती है, मान्यता किसी वस्तु के बारे में परिकल्पनाओं को आगे बढ़ाने और उद्देश्यपूर्ण ढंग से उनका परीक्षण करने की एक प्रक्रिया है। इस सिद्धांत के अनुसार काम करने वाली प्रणाली न केवल कंप्यूटिंग शक्ति का अधिक किफायती उपयोग करेगी, बल्कि गलतियाँ भी कम करेगी।
  3. अनुकूलन क्षमता- सिस्टम ऑपरेशन के दौरान जमा हुई जानकारी को सहेजता है और उसका पुन: उपयोग करता है, यानी वह स्वयं सीखता है। यह सिद्धांत आपको नया ज्ञान बनाने और संचय करने और एक ही समस्या को बार-बार हल करने से बचने की अनुमति देता है।

फाइनरीडर दुनिया का एकमात्र ओसीआर सिस्टम है जो दस्तावेज़ प्रसंस्करण के सभी चरणों में ऊपर वर्णित सिद्धांतों के अनुसार काम करता है। संबंधित तकनीक को कहा जाता है आईपीए- अंग्रेजी शब्दों के पहले अक्षर के अनुसार. उदाहरण के लिए, अखंडता के सिद्धांत के अनुसार, एक छवि के टुकड़े को एक प्रतीक के रूप में तभी व्याख्या किया जाएगा जब इसमें समान वस्तुओं के सभी संरचनात्मक भाग शामिल हों, और वे जो कुछ रिश्तों में हों। यह बड़ी संख्या में मानकों की खोज (अधिक या कम उपयुक्त की खोज में) को उचित संख्या में परिकल्पनाओं के लक्षित परीक्षण के साथ बदलने में मदद करता है, जो किसी मान्यता प्राप्त दस्तावेज़ में किसी चरित्र की संभावित रूपरेखा के बारे में पहले से संचित जानकारी पर निर्भर करता है। .

हालाँकि, आईपीए सिद्धांत तब लागू होते हैं जब न केवल (संभवतः) व्यक्तिगत पात्रों से संबंधित अंशों का विश्लेषण किया जाता है, बल्कि पृष्ठ की संपूर्ण स्रोत छवि का भी विश्लेषण किया जाता है। अधिकांश OCR प्रणालियाँ किसी दस्तावेज़ की पदानुक्रमित संरचना को पहचानने पर आधारित होती हैं, अर्थात पृष्ठ को बुनियादी संरचनात्मक तत्वों जैसे तालिकाओं, छवियों, पाठ के ब्लॉकों में विभाजित किया जाता है, जो बदले में, अन्य विशिष्ट वस्तुओं - कोशिकाओं, पैराग्राफ - और में विभाजित होते हैं। इसी तरह, व्यक्तिगत पात्रों तक।

इस तरह का विश्लेषण दो मुख्य तरीकों से किया जा सकता है: ऊपर से नीचे, यानी, घटक तत्वों से व्यक्तिगत पात्रों तक, या, इसके विपरीत, नीचे से ऊपर तक। उनमें से एक का सबसे अधिक उपयोग किया जाता है, लेकिन ABBYY ने एक विशेष एल्गोरिदम विकसित किया है म्दा(बहुस्तरीय दस्तावेज़ विश्लेषण), जो दोनों को जोड़ता है। संक्षेप में, यह इस तरह दिखता है: पृष्ठ की संरचना का विश्लेषण ऊपर से नीचे की विधि का उपयोग करके किया जाता है, और पहचान पूरी होने के बाद इलेक्ट्रॉनिक दस्तावेज़ का पुनर्निर्माण नीचे से ऊपर की ओर होता है, लेकिन सभी स्तरों पर एक अतिरिक्त प्रतिक्रिया तंत्र होता है। परिणामस्वरूप, उच्च-स्तरीय वस्तुओं की गलत पहचान से जुड़ी सकल त्रुटियों की संभावना तेजी से कम हो जाती है।

एडीआरटी

ऐतिहासिक रूप से, ओसीआर सिस्टम व्यक्तिगत पात्रों को पहचानने से विकसित हुए हैं। यह कार्य अभी भी सबसे महत्वपूर्ण और सबसे कठिन है, सबसे जटिल एल्गोरिदम इसके साथ जुड़े हुए हैं। हालाँकि, यह जल्द ही स्पष्ट हो गया कि उच्च-स्तरीय जानकारी (उदाहरण के लिए, दस्तावेज़ की भाषा और मान्यता प्राप्त शब्दों की सही वर्तनी के बारे में) इस समस्या को हल करने में मदद कर सकती है - इस तरह प्रासंगिक और शब्दकोश जाँच सामने आई। फिर, किसी दस्तावेज़ की स्वरूपण को संरक्षित करने और भौतिक संरचना (यानी, विभिन्न वस्तुओं की सापेक्ष स्थिति) को फिर से बनाने की इच्छा के कारण पूरे पृष्ठ के विस्तृत विश्लेषण की आवश्यकता हुई। यह स्पष्ट है कि यह पहचान की समग्र गुणवत्ता को भी महत्वपूर्ण रूप से प्रभावित करता है, क्योंकि यह मल्टी-कॉलम लेआउट, तालिकाओं और "गैर-रेखीय" पाठ व्यवस्था के अन्य तरीकों को सही ढंग से संसाधित करने में मदद करता है।

अधिकांश आधुनिक OCR सटीक रूप से इन तीन स्तरों पर काम करता है - अक्षर, शब्द, पृष्ठ - अभ्यास, जैसा कि पहले ही उल्लेख किया गया है, ऊपर से नीचे या नीचे से ऊपर दृष्टिकोण। हालाँकि, ABBYY ने, IPA के सिद्धांतों के अनुसार, FineReader में एक और स्तर पेश किया - संपूर्ण बहु-पृष्ठ दस्तावेज़। सबसे पहले, तार्किक संरचना को सही ढंग से पुन: पेश करने के लिए इसकी आवश्यकता थी, जो आधुनिक दस्तावेजों में अधिक से अधिक जटिल होती जा रही है। लेकिन अतिरिक्त बोनस भी हैं: दोहराई जाने वाली वस्तुओं की बढ़ी हुई सटीकता और तेज़ प्रसंस्करण, पृष्ठ से पृष्ठ पर "प्रवाहित" होने वाली वस्तुओं की अधिक सही पहचान (और इसलिए पहचान)।

ठीक इसी कारण से इसे विकसित किया गया था एडीआरटी(अनुकूली दस्तावेज़ पहचान प्रौद्योगिकी) - तार्किक स्तर पर दस्तावेज़ विश्लेषण और संश्लेषण के लिए प्रौद्योगिकी। अंततः, यह फ़ाइनरीडर के परिणाम को यथासंभव मूल के समान बनाने में मदद करता है। ऐसा करने के लिए, पूरे दस्तावेज़ की छवि का विश्लेषण किया जाता है, और पहचाने गए शब्दों को पृष्ठ पर शैली, वातावरण और स्थान के आधार पर समूहों (क्लस्टरों) में संयोजित किया जाता है। इस तरह, प्रोग्राम दस्तावेज़ मार्कअप के "तर्क" को देखता है और बाद में परिणाम के डिज़ाइन को एकीकृत कर सकता है।

ADRT के लिए धन्यवाद, FineReader ने, संस्करण 9.0 से शुरू करके, निम्नलिखित संरचनात्मक भागों और दस्तावेज़ स्वरूपण तत्वों का पता लगाना, पहचानना और पुन: पेश करना सीख लिया है:

  • मुख्य पाठ;
  • शीर्षलेख और पादलेख;
  • पृष्ठ संख्या;
  • समान स्तर के शीर्षलेख;
  • विषयसूची;
  • पाठ आवेषण;
  • चित्रों के लिए कैप्शन;
  • टेबल;
  • फ़ुटनोट;
  • हस्ताक्षर/मुहर क्षेत्र;
  • फ़ॉन्ट और शैलियाँ।

मान्यता प्रक्रिया

एमडीए एल्गोरिदम के अनुसार, वास्तविक पहचान पृष्ठ स्तर से ऊपर से नीचे तक शुरू होती है। यह स्पष्ट है कि इस प्रक्रिया के शुरुआती चरणों में जितने अधिक गलत निर्णय लिए जाएंगे, बाद में उतने ही अधिक गलत निर्णय होंगे। यही कारण है कि पहचान की सटीकता मूल की गुणवत्ता पर बहुत अधिक निर्भर करती है, लेकिन उनके पूर्व-प्रसंस्करण एल्गोरिदम का भी महत्वपूर्ण प्रभाव हो सकता है। इस प्रकार, जैसे-जैसे फ़ाइनरीडर में रंगीन दस्तावेज़ों की लोकप्रियता बढ़ी, एक अनुकूली बाइनराइज़ेशन प्रक्रिया सामने आई। अब). यदि आप किसी दस्तावेज़ को तुरंत काले और सफेद मोड में स्कैन करते हैं, जहां वॉटरमार्क हैं या पाठ बनावट या रंगीन सब्सट्रेट पर स्थित है, तो "कचरा" हमेशा छवि पर दिखाई देगा, जिसे तब "से अलग करना काफी मुश्किल होगा" उपयोगी” छवि (चूंकि उसके बारे में मूल जानकारी पहले ही खो चुकी है)। यही कारण है कि फाइनरीडर रंगीन या ग्रेस्केल छवियों के साथ काम करना पसंद करता है, स्वतंत्र रूप से उन्हें काले और सफेद में परिवर्तित करता है (इस प्रक्रिया को बिनराइजेशन कहा जाता है)। लेकिन वह सब नहीं है। चूंकि पाठ और पृष्ठभूमि के रंग पृष्ठ के भीतर और यहां तक ​​कि अलग-अलग पंक्तियों के भीतर भी भिन्न हो सकते हैं, एबी कमोबेश समान विशेषताओं वाले शब्दों की पहचान करता है और पहचान गुणवत्ता के दृष्टिकोण से प्रत्येक के लिए इष्टतम बाइनराइजेशन पैरामीटर का चयन करता है। यह बिल्कुल एल्गोरिदम की अनुकूलता है, जो एमडीए में फीडबैक के उपयोग का एक उदाहरण है। यह स्पष्ट है कि एबी की प्रभावशीलता स्रोत दस्तावेजों के डिजाइन पर दृढ़ता से निर्भर करती है - एबीबीवाईवाई परीक्षण आधार पर, इस एल्गोरिदम ने पहचान सटीकता में 14.5% की वृद्धि प्रदान की।

लेकिन निःसंदेह, सबसे दिलचस्प बात तब शुरू होती है जब पहचान की प्रक्रिया निम्नतम स्तर पर आ जाती है। तथाकथित रैखिक विभाजन प्रक्रिया पंक्तियों को शब्दों में और शब्दों को अलग-अलग अक्षरों में विभाजित करती है; फिर, आईपीए सिद्धांत के अनुसार, यह परिकल्पनाओं का एक सेट उत्पन्न करता है (यानी, यह किस प्रकार का प्रतीक है, शब्द को किन प्रतीकों में विभाजित किया गया है, आदि के लिए संभावित विकल्प) और, प्रत्येक को एक संभाव्यता अनुमान प्रदान करते हुए, इसे पारित करता है चरित्र पहचान तंत्र के इनपुट के लिए। उत्तरार्द्ध में कई तथाकथित शामिल हैं वर्गीकारक, जिनमें से प्रत्येक संभाव्यता की अपेक्षित डिग्री के आधार पर क्रमबद्ध कई परिकल्पनाएँ भी उत्पन्न करता है। किसी भी वर्गीकरणकर्ता की सबसे महत्वपूर्ण विशेषता सही परिकल्पना की औसत स्थिति है। यह स्पष्ट है कि यह जितना अधिक होगा, बाद के एल्गोरिदम के लिए काम उतना ही कम होगा - उदाहरण के लिए, शब्दकोश जाँच। लेकिन पर्याप्त रूप से अच्छी तरह से स्थापित क्लासिफायर के लिए, पहले तीन परिकल्पनाओं या केवल पहले एक पर आधारित पहचान सटीकता जैसी विशेषताओं का सबसे अधिक मूल्यांकन किया जाता है - यानी, मोटे तौर पर कहें तो, तीन या एक प्रयास में सही उत्तर का अनुमान लगाने की क्षमता। ABBYY अपने सिस्टम में निम्नलिखित प्रकार के क्लासिफायर का उपयोग करता है: रैस्टर, फीचर, फीचर डिफरेंशियल, कंटूर, स्ट्रक्चरल और स्ट्रक्चरल डिफरेंशियल - जिन्हें दो तार्किक स्तरों पर समूहीकृत किया जाता है।

परिचालन सिद्धांत आरके, या रैस्टर क्लासिफायर, मानकों के साथ एक वर्ण छवि की पिक्सेल-दर-पिक्सेल तुलना पर आधारित है। उत्तरार्द्ध प्रशिक्षण सेट से छवियों के औसत के परिणामस्वरूप बनते हैं और एक निश्चित मानक रूप में कम हो जाते हैं; तदनुसार, मान्यता प्राप्त छवि के लिए तत्वों का आकार, मोटाई और ढलान भी पूर्व-सामान्यीकृत हैं। इस क्लासिफायर को कार्यान्वयन में आसानी, संचालन की गति और छवि दोषों के प्रतिरोध की विशेषता है, लेकिन यह अपेक्षाकृत कम सटीकता प्रदान करता है और इसीलिए इसका उपयोग पहले चरण में किया जाता है - जल्दी से परिकल्पनाओं की एक सूची तैयार करने के लिए।

फ़ीचर क्लासिफायर ( पीसी), जैसा कि इसके नाम से पता चलता है, छवि में किसी विशेष प्रतीक के संकेतों की उपस्थिति पर आधारित है। यदि कुल मिलाकर एन ऐसी विशेषताएं हैं, तो प्रत्येक परिकल्पना को एन-आयामी अंतरिक्ष में एक बिंदु द्वारा दर्शाया जा सकता है; तदनुसार, परिकल्पना की सटीकता का आकलन उससे मानक के अनुरूप बिंदु तक की दूरी से किया जाएगा (जिसे प्रशिक्षण सेट पर भी विकसित किया गया है)। यह स्पष्ट है कि सुविधाओं के प्रकार और संख्या काफी हद तक पहचान की गुणवत्ता निर्धारित करते हैं, इसलिए आमतौर पर उनकी संख्या काफी अधिक होती है। यह क्लासिफायर अपेक्षाकृत तेज़ और सरल है, लेकिन विभिन्न छवि दोषों के लिए बहुत मजबूत नहीं है। इसके अलावा, पीसी मूल छवि के साथ काम नहीं करता है, लेकिन एक निश्चित मॉडल, एक अमूर्तता के साथ, यानी, यह कुछ जानकारी को ध्यान में नहीं रखता है: कहें, कुछ महत्वपूर्ण तत्वों की उपस्थिति का तथ्य नहीं कहता है उनकी सापेक्ष स्थिति के बारे में कुछ भी। इस कारण से, पीसी का उपयोग इसके स्थान पर नहीं, बल्कि आरके के साथ किया जाता है।

कंटूर क्लासिफायर ( क्यूसी) पीसी का एक विशेष मामला है और इसमें भिन्नता है कि यह मूल छवि से निकाले गए इच्छित चरित्र की रूपरेखा का विश्लेषण करता है। सामान्य तौर पर, इसकी सटीकता एक पूर्ण पीसी की तुलना में कम होती है।

फ़ीचर डिफरेंशियल क्लासिफायर ( एमपीसी) भी पीसी के समान है, लेकिन इसका उपयोग केवल "एम" और "आरएन" जैसी समान वस्तुओं के बीच अंतर करने के लिए किया जाता है। तदनुसार, यह केवल उन क्षेत्रों का विश्लेषण करता है जहां मतभेद छिपे हुए हैं, और यह इनपुट के रूप में न केवल मूल छवियां प्राप्त करता है, बल्कि पहचान के प्रारंभिक चरणों में बनाई गई परिकल्पनाएं भी प्राप्त करता है। हालाँकि, इसके संचालन का सिद्धांत पीसी से कुछ अलग है। प्रशिक्षण चरण में, एन-आयामी अंतरिक्ष में दो विकल्पों में से प्रत्येक के लिए संभावित मूल्यों के दो "क्लाउड" (बिंदुओं के समूह) बनाए जाते हैं, फिर एक हाइपरप्लेन का निर्माण किया जाता है जो "क्लाउड" को एक दूसरे से अलग करता है और लगभग होता है उनसे समान दूरी पर. पहचान का परिणाम इस बात पर निर्भर करता है कि मूल छवि के अनुरूप बिंदु किस आधे स्थान में आता है।

एमपीसी स्वयं परिकल्पनाओं को सामने नहीं रखता है, बल्कि केवल मौजूदा परिकल्पनाओं को परिष्कृत करता है (जिनकी सूची आम तौर पर बबल विधि का उपयोग करके क्रमबद्ध की जाती है), ताकि इसकी प्रभावशीलता का प्रत्यक्ष मूल्यांकन नहीं किया जा सके, लेकिन अप्रत्यक्ष रूप से इसे की विशेषताओं के बराबर किया जा सके। ओसीआर मान्यता का संपूर्ण प्रथम स्तर। हालाँकि, यह स्पष्ट है कि यह चयनित विशेषताओं की शुद्धता और मानकों के नमूने की प्रतिनिधित्वशीलता पर निर्भर करता है, जिसे सुनिश्चित करना एक श्रम-केंद्रित कार्य है।

संरचनात्मक विभेदक वर्गीकारक ( के.एफ.ओ.आर) मूल रूप से हस्तलिखित ग्रंथों को संसाधित करने के लिए उपयोग किया गया था। इसका कार्य समान वस्तुओं जैसे "सी" और "जी" के बीच अंतर करना है। इस प्रकार, एसडीके प्रत्येक जोड़ी के पात्रों की विशेषताओं पर आधारित है, इसकी सीखने की प्रक्रिया एमडीसी की तुलना में और भी अधिक जटिल है, और इसकी संचालन गति पिछले सभी क्लासिफायर की तुलना में कम है।

संरचनात्मक वर्गीकरणकर्ता ( एसके) एबीबीवाई के लिए गर्व का स्रोत है; इसे मूल रूप से तथाकथित हस्तलिखित पाठ को पहचानने के लिए विकसित किया गया था, यानी जब कोई व्यक्ति "मुद्रित" अक्षरों में लिखता है, लेकिन बाद में इसका उपयोग मुद्रण के लिए किया गया था। इसका उपयोग मान्यता के अंतिम चरण में किया जाता है और यह बहुत ही कम प्रभाव में आता है, अर्थात् केवल तभी जब पर्याप्त उच्च संभावनाओं वाली कम से कम दो परिकल्पनाएँ इस तक पहुँचती हैं।

सभी क्लासिफायरों की गुणात्मक विशेषताएँ निम्नलिखित तालिका में एकत्र की गई हैं। हालाँकि, वे केवल एक-दूसरे के सापेक्ष एल्गोरिदम की प्रभावशीलता का मूल्यांकन करने की अनुमति देते हैं, क्योंकि वे पूर्ण नहीं हैं, बल्कि एक विशिष्ट परीक्षण नमूने के प्रसंस्करण के आधार पर प्राप्त किए जाते हैं। ऐसा प्रतीत हो सकता है कि मान्यता के अंतिम चरण में संघर्ष वस्तुतः एक प्रतिशत के एक अंश के लिए है, लेकिन वास्तव में, प्रत्येक वर्गीकरणकर्ता मान्यता सटीकता को बढ़ाने में महत्वपूर्ण योगदान देता है - उदाहरण के लिए, एससी त्रुटियों की संख्या को उल्लेखनीय रूप से कम कर देता है 20%.

आरकेपीसीक्यूसीएमपीसी*केफॉर**एसके**
पहले तीन विकल्पों के लिए सटीकता, %99,29 99,81 99,30 99,87 99,88 -
पहले विकल्प के अनुसार सटीकता, %97,57 99,13 95,10 99,26 99,69 99,73

* ABBYY OCR एल्गोरिथम के संपूर्ण प्रथम स्तर का मूल्यांकन
** उपयुक्त क्लासिफायरियर जोड़ने के बाद संपूर्ण एल्गोरिदम का मूल्यांकन

हालाँकि, यह दिलचस्प है कि, काफी उच्च सटीकता के बावजूद, पहचान एल्गोरिथ्म स्वयं अंतिम निर्णय नहीं लेता है। एमडीए सिद्धांत के अनुसार, प्रत्येक तार्किक स्तर पर परिकल्पनाएं सामने रखी जाती हैं, और उनकी संख्या तेजी से बढ़ सकती है। तदनुसार, सभी परिकल्पनाओं का अनुक्रमिक परीक्षण प्रभावी होने की संभावना नहीं है, और इसलिए एबीबीवाई ओसीआर सिस्टम परिकल्पनाओं को संरचित करने की विधि का उपयोग करते हैं, यानी, उन्हें एक या दूसरे मॉडल को निर्दिष्ट करते हैं। उत्तरार्द्ध के कुछ दर्जन हैं, यहां उनके कुछ प्रकार हैं: शब्दकोश शब्द, गैर-शब्दकोश शब्द, अरबी अंक, रोमन अंक, यूआरएल, नियमित अभिव्यक्ति - और प्रत्येक में कई विशिष्ट मॉडल शामिल हो सकते हैं (उदाहरण के लिए, ए) ज्ञात भाषाओं में से एक में शब्द, लैटिन, सिरिलिक आदि)।

सभी अंतिम क्रियाएं मॉडलों का उपयोग करके निर्मित परिकल्पनाओं के साथ की जाती हैं। उदाहरण के लिए, प्रासंगिक जाँच दस्तावेज़ की भाषा निर्धारित करेगी और गलत वर्णमाला का उपयोग करने वाले मॉडलों की संभावना को तुरंत कम कर देगी, और शब्दकोश जाँच कुछ वर्णों की अनिश्चित पहचान में त्रुटियों की भरपाई करेगी: उदाहरण के लिए, शब्द "टर्न" मौजूद है अंग्रेजी शब्दकोश - "तुम" के विपरीत (किसी भी मामले में, यह लोकप्रिय लोगों में से नहीं है)। यद्यपि शब्दकोश की प्राथमिकता किसी भी वर्गीकरणकर्ता की तुलना में अधिक है, यह आवश्यक रूप से अंतिम उपाय नहीं है, और सामान्य तौर पर आगे की जाँच को नहीं रोकता है: सबसे पहले, जैसा कि ऊपर उल्लेख किया गया है, एक गैर-शब्दकोश शब्द का एक मॉडल है, और दूसरा शब्दकोशों का विशेष संगठन उच्च प्रतिशत संभावनाओं के साथ यह अनुमान लगाने की अनुमति देता है कि क्या कोई अज्ञात शब्द किसी विशेष भाषा से संबंधित हो सकता है। हालाँकि, शब्दकोश जाँच (और शब्दकोशों की पूर्णता) का मान्यता परिणाम पर महत्वपूर्ण प्रभाव पड़ता है, और ABBYY के स्वयं के परीक्षणों में यह त्रुटियों की संख्या को लगभग आधा कर देता है।

ओसीआर ही नहीं

मुद्रित दस्तावेज़ उनके डिजिटलीकरण और स्वचालित प्रसंस्करण के दृष्टिकोण से केवल रुचि के नहीं हैं। अक्सर आपको प्रपत्रों के साथ काम करना पड़ता है, यानी पूर्वनिर्धारित और निश्चित फ़ील्ड वाले दस्तावेज़ जो मैन्युअल रूप से भरे जाते हैं, लेकिन अपेक्षाकृत सटीक रूप से (तथाकथित हाथ से मुद्रित अक्षर) - विभिन्न प्रश्नावली एक उदाहरण के रूप में काम कर सकते हैं। इनके प्रसंस्करण की तकनीक का एक अलग नाम है - आईसीआर(बुद्धिमान चरित्र पहचान) - और ओसीआर से काफी अलग है। इसलिए, चूँकि इस मामले में कार्य पूरे दस्तावेज़ को फिर से बनाना नहीं है, बल्कि उसमें से विशिष्ट डेटा निकालना है, यह दो मुख्य उप-कार्यों में टूट जाता है: आवश्यक फ़ील्ड ढूंढना और वास्तव में उनकी सामग्री को पहचानना।

यह एक काफी विशिष्ट क्षेत्र है, और ABBYY इसके लिए एक पूरी तरह से अलग सॉफ्टवेयर उत्पाद, ABBYY FlexiCapture प्रदान करता है। इसका उद्देश्य स्वचालित और अर्ध-स्वचालित सिस्टम बनाना है, इसमें विशिष्ट प्रकार के दस्तावेज़ों के लिए अनुकूलन शामिल है जिसके लिए विशेष टेम्पलेट बनाए जाते हैं, पृष्ठों पर विभिन्न फ़ील्ड को बुद्धिमानी से ढूंढ सकते हैं और उनमें डेटा सत्यापित कर सकते हैं, आदि। हालांकि, इसके मूल में चरित्र पहचान है एल्गोरिदम उन लोगों के समान हैं, जिनका उपयोग फाइनरीडर में किया जाता है, और सामान्य योजना बहुत समान है:

हालाँकि, अभी भी एक महत्वपूर्ण अंतर है: संरचनात्मक वर्गीकरण प्रक्रिया में एक अनिवार्य भागीदार है - यह हाथ से मुद्रित प्रतीकों की बारीकियों के कारण है। इसके अलावा, आईसीआर में बड़ी संख्या में विशिष्ट अतिरिक्त जांचें शामिल होती हैं: उदाहरण के लिए, क्या किसी वर्ण को काट दिया गया है, या क्या मान्यता प्राप्त वर्ण वास्तव में एक तारीख बनाते हैं।

दस्तावेज़ों के साथ काम करने वालों के लिए टेक्स्ट को डिजिटल प्रारूप में परिवर्तित करना एक काफी सामान्य कार्य है। एबी फाइनरीडर प्रोग्राम रास्टर छवियों या "पाठकों" से शिलालेखों को संपादन योग्य पाठ में स्वचालित रूप से अनुवाद करके आपका बहुत समय बचाने में मदद करेगा।

इस लेख में हम देखेंगे कि टेक्स्ट पहचान के लिए एबी फाइनरीडर का उपयोग कैसे करें।

एबी फाइनरीडर का उपयोग करके किसी चित्र से टेक्स्ट को कैसे पहचानें

रैस्टर छवि पर टेक्स्ट को पहचानने के लिए, बस इसे प्रोग्राम में लोड करें, और एबी फाइनरीडर स्वचालित रूप से टेक्स्ट को पहचान लेगा। आपको बस इसे संपादित करना है, आपको जो चाहिए उसे हाइलाइट करना है और इसे आवश्यक प्रारूप में सहेजना है या इसे टेक्स्ट एडिटर में कॉपी करना है।

आप कनेक्टेड स्कैनर से सीधे टेक्स्ट को पहचान सकते हैं।

हमारी वेबसाइट पर और पढ़ें.

एबी फाइनरीडर का उपयोग करके पीडीएफ और एफबी2 दस्तावेज़ कैसे बनाएं

एबी फाइनरीडर प्रोग्राम आपको ई-रीडर्स और टैबलेट पर पढ़ने के लिए छवियों को सार्वभौमिक पीडीएफ प्रारूप और एफबी 2 प्रारूप में परिवर्तित करने की अनुमति देता है।

ऐसे दस्तावेज़ बनाने की प्रक्रिया समान है।

1. प्रोग्राम के मुख्य मेनू में, ई-बुक अनुभाग का चयन करें और FB2 दबाएँ। स्रोत दस्तावेज़ प्रकार का चयन करें—स्कैन, दस्तावेज़, या फ़ोटो।

2. आवश्यक दस्तावेज़ ढूंढें और खोलें। यह प्रोग्राम पेज दर पेज लोड होगा (इसमें कुछ समय लग सकता है)।

3. जब पहचान प्रक्रिया पूरी हो जाएगी, तो प्रोग्राम आपको सहेजने के लिए एक प्रारूप चुनने के लिए संकेत देगा। FB2 चुनें. यदि आवश्यक हो, तो "विकल्प" पर जाएं और अतिरिक्त जानकारी (लेखक, शीर्षक, कीवर्ड, विवरण) दर्ज करें।

सेव करने के बाद आप टेक्स्ट एडिटिंग मोड में रह सकते हैं और इसे वर्ड या पीडीएफ फॉर्मेट में बदल सकते हैं।

एबी फाइनरीडर में पाठ संपादन की विशेषताएं

टेक्स्ट के लिए कई विकल्प हैं जिन्हें एबी फाइनरीडर पहचानता है।

मूल दस्तावेज़ में, चित्र और पाद लेख सहेजें ताकि वे नए दस्तावेज़ में स्थानांतरित हो जाएँ।

रूपांतरण प्रक्रिया के दौरान क्या त्रुटियाँ और समस्याएँ उत्पन्न हो सकती हैं, यह जानने के लिए दस्तावेज़ का विश्लेषण करें।

पृष्ठ छवि संपादित करें. क्रॉप करने, फोटो सुधार और रिज़ॉल्यूशन बदलने के विकल्प उपलब्ध हैं।

तो हमने आपको बताया कि एबी फाइनरीडर का उपयोग कैसे करें। इसमें टेक्स्ट को संपादित करने और परिवर्तित करने की काफी व्यापक क्षमताएं हैं। इस प्रोग्राम को आपको कोई भी आवश्यक दस्तावेज़ बनाने में मदद करने दें।

विभिन्न प्रकार की फ़ाइलों को स्कैन करने और संसाधित करने के लिए सबसे लोकप्रिय कार्यक्षमताओं में से एक फाइन रीडर है। सॉफ़्टवेयर उत्पाद की कार्यक्षमता रूसी कंपनी ABBYY द्वारा विकसित की गई थी; यह न केवल पहचानने की अनुमति देता है, बल्कि दस्तावेज़ों को संसाधित करने (अनुवाद, प्रारूप बदलने आदि) की भी अनुमति देता है। कई उपयोगकर्ता इसे केवल इंस्टॉल कर सकते हैं, लेकिन तुरंत यह नहीं समझ सकते कि ABBYY FineReader का उपयोग कैसे करें। इस लेख में आपको कई सवालों के जवाब मिल सकते हैं.

प्रोग्राम आपको टेक्स्ट को स्कैन करने और पहचानने की अनुमति देता है - और भी बहुत कुछ

विस्तार से समझने के लिए कि ABBYY FineReader 12 किस प्रकार का कार्यक्रम है, आपको इसकी सभी क्षमताओं पर विस्तार से विचार करने की आवश्यकता है। सबसे पहला और सरल कार्य किसी दस्तावेज़ को स्कैन करना है। स्कैनिंग के दो विकल्प हैं: पहचान के साथ और बिना पहचान के। यदि आप किसी मुद्रित शीट को सामान्य रूप से स्कैन करते हैं, तो आपको स्कैन की गई छवि आपके कंप्यूटिंग डिवाइस पर निर्दिष्ट फ़ोल्डर में प्राप्त होगी।

ध्यान। शीट को प्रिंटर के स्कैनिंग भाग पर प्रिंटर पर दर्शाए गए आकृति के अनुसार समान रूप से रखा जाना चाहिए। स्रोत फ़ाइल को टेढ़ा न होने दें, क्योंकि इससे अंतिम स्कैन की गुणवत्ता ख़राब हो सकती है।

आपको स्वयं निर्णय लेना होगा कि आपको फ़ाइनरीडर की आवश्यकता क्यों है, क्योंकि उपयोगिता में महत्वपूर्ण कार्यक्षमता है, उदाहरण के लिए, आप स्वतंत्र रूप से चुन सकते हैं कि आप छवि को किस रंग में रखना चाहते हैं, सभी फ़ोटो को काले और सफेद में परिवर्तित करना संभव है। काले और सफेद रंग में पहचान तेज होती है और प्रसंस्करण की गुणवत्ता बढ़ जाती है।

यदि आप ABBYY FineReader के टेक्स्ट पहचान फ़ंक्शन में रुचि रखते हैं, तो आपको स्कैन करने से पहले एक विशेष बटन दबाना होगा। इस मामले में, जानकारी प्राप्त करने के लिए कई विकल्प हैं। मानक के रूप में, शीट का एक मान्यता प्राप्त टुकड़ा आपकी स्क्रीन पर प्रदर्शित होगा, जिसे आप मैन्युअल रूप से कॉपी या संपादित कर सकते हैं।

यदि आप अन्य फ़ंक्शन का चयन करते हैं, तो आप तुरंत फ़ाइल को वर्ड दस्तावेज़ या एक्सेल तालिका के रूप में प्राप्त कर सकते हैं। फ़ंक्शंस का चयन करना बहुत सरल है, मेनू सहज है और इस तथ्य के कारण अनुकूलित करना आसान है कि आपके लिए आवश्यक सभी बटन आपकी आंखों के सामने हैं।

महत्वपूर्ण। इससे पहले कि ABBYY FineReader टेक्स्ट को पहचान सके, आपको प्रोसेसिंग भाषा का सटीक चयन करना होगा। इस तथ्य के बावजूद कि उपयोगिता पूरी तरह से स्वचालित रूप से काम करती है, ऐसा होता है कि स्रोत की निम्न गुणवत्ता हमें यह समझने की अनुमति नहीं देती है कि स्रोत में किस प्रकार की भाषा थी। इससे एप्लिकेशन के अंतिम परिणामों की गुणवत्ता बहुत कम हो जाती है।

एकाधिक ऑपरेटिंग मोड

ABBYY FineReader 12 का उपयोग कैसे करें, इसे पूरी तरह से समझने के लिए, आपको ऑपरेशन के दो तरीके आज़माने होंगे: "सावधान" और "त्वरित पहचान"। दूसरा मोड उच्च-गुणवत्ता वाली छवियों के लिए उपयुक्त है, और पहला निम्न-गुणवत्ता वाली फ़ाइलों के लिए उपयुक्त है। थोरो मोड फ़ाइलों को संसाधित करने में 3-5 गुना अधिक समय लेता है।

चित्रण कार्यक्रम का परिणाम दिखाता है - एक छवि से पाठ पहचान

वहां अन्य कौन से कार्य हैं?

ABBYY FineReader में पाठ पहचान ही एकमात्र उपयोगी कार्य नहीं है। उपयोगकर्ता की अधिक सुविधा के लिए, दस्तावेज़ को उपयोगकर्ता द्वारा आवश्यक प्रारूपों (पीडीएफ, डॉक, एक्सएलएस, आदि) में अनुवाद करना संभव है।

पाठ बदलना

फाइन रीडर में टेक्स्ट को बदलने का तरीका समझने के लिए, उपयोगकर्ता को "टूल्स" - "सत्यापन" टैब खोलना होगा। इसके बाद, एक विंडो खुलेगी जो आपको फ़ॉन्ट संपादित करने, प्रतीकों, रंगों आदि को बदलने की अनुमति देगी। यदि आप एक छवि संपादित कर रहे हैं, तो आपको "छवि संपादक" खोलना चाहिए, यह लगभग पूरी तरह से सरल पेंट प्रोग्राम से मेल खाता है, लेकिन यह आपको न्यूनतम संपादन करने की अनुमति देगा।

ध्यान। यदि आप अभी भी यह नहीं समझ पाए हैं कि ABBYY FineReader का उत्पादक रूप से उपयोग कैसे करें, तो आप "सहायता" अनुभाग पढ़ सकते हैं, जो एप्लिकेशन विंडो में "अबाउट" टैब में पाया जा सकता है।

अब आप जानते हैं कि फ़ाइनरीडर प्रोग्राम किस उद्देश्य से कार्य करता है, और आप इसे घर या कार्यालय में सही ढंग से उपयोग कर सकते हैं। एप्लिकेशन की कार्यक्षमता बहुत अधिक है, इसका उपयोग करें और आप कार्यालय कार्य के दौरान दस्तावेज़ों और फ़ाइलों को संसाधित करते समय इस सॉफ़्टवेयर उत्पाद की अपरिहार्यता के बारे में आश्वस्त होंगे।

mob_info