-
Notifications
You must be signed in to change notification settings - Fork 17
/
Copy pathreadme_hi.html
73 lines (73 loc) · 16.3 KB
/
readme_hi.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<title>विएतओसीआर - टेसेरक्ट ओसीआर का जावा जीयूआई फ्रंटएण्ड</title>
</head>
<body>
<div class="Section1">
<h2 align="center">विएतओसीआर</h2>
<h3>विवरण</h3>
<p> 98% match
<a href="http://vietocr.sourceforge.net">विएतओसीआर</a> <a href="http://code.google.com/p/tesseract-ocr/">टेसेरक्ट ओसीआर इंजन</a> ke liye जावा में बना ek जीयूआई फ्रंटएण्ड है , जो सामान्य फॉर्मेट की छवियों और कई-पेज वाली छवियों के अक्षर पहचानने में मदद करता है . इस प्रोग्राम में पोस्टप्रोसेसिंग है जिससे ओसीआर प्रक्रिया से होने वाले कई सामान्य गलतियाँ सुधारी जा सकती है, जिससे सफलता की दर बढ़ जाती है . प्रोग्राम को कॉन्सोल एप्लीकेशन के रूप में कमांड लाइन से भी चलाया जा सकता है .</p>
<p>अब बैच प्रोसेसिंग भी सपोर्टेड है . प्रोग्राम एक वाच फोल्डर को नयी छवि फाइलों के लिए चेक करता है औए उन्हें स्वतः ओसीआर करके रिकग्निशन की आउटपुट को आउटपुट फोल्डर में सहेजता है .</p>
<h3>सिस्टम की ज़रूरतें</h3>
<p><a href="https://www.oracle.com/java/technologies/downloads/">जावा रनटाइम
एनवायरनमेंट 8 </a> या उसके बादका. On Windows, <a href="https://docs.microsoft.com/en-US/cpp/windows/latest-supported-vc-redist">Microsoft Visual C++ 2022 Redistributable Package</a> is also required.</p>
<h3>इंस्टालेशन</h3>
<p>टेसेरक्ट विंडोज एक्सीक्यूटेबल इस प्रोग्राम के साथ दिया गया है . टेसेरक्ट के अन्य <a href="https://github.com/tesseract-ocr/tessdata"> लैंग्वेज डेटा पैक </a> जिनके नाम ISO639-3 कोड से शुरू होते हैं, <code>tessdata</code> सबडिरेक्टरी में रखे जाने चाहिए .</p>
<p>लिनक्स के लिए, टेसेरक्ट और इसके लैंग्वेज डेटा पैकेज Graphics (universe) रिपोसिटरी में हैं. इनको सेनेप्टिक या निम्न कमांड से इनस्टॉल किया जा सकता है .</p>
<blockquote>
<p><code>sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-vie</code></p>
</blockquote>
<p>The files will be placed in <code>/usr/bin</code> and <code>/usr/share/tesseract-ocr/tessdata</code>,
respectively. On the other hand, if Tesseract is built and installed from the <a href="https://github.com/tesseract-ocr/tesseract/wiki">source</a>,
they will be placed in <code>/usr/local/bin</code> and <code>/usr/local/share/tessdata</code>.
You can also let VietOCR know the location
of <code>tessdata</code> via the environment variable <code>TESSDATA_PREFIX</code>:</p>
<blockquote>
<p><code>export TESSDATA_PREFIX=/usr/local/share/</code></p>
</blockquote>
<p>अन्य प्लेटफार्म के लिए, कृपया <a href="https://github.com/tesseract-ocr/tesseract/wiki">
टेसेरक्ट विकी</a> पेज देखें ..</p>
<p>विएतओसीआर चुने हुए लैंग्वेज पैक को डाउनलोड और इनस्टॉल करने की सुविधा <em>Download Language Data</em> मेनू आइटम द्वारा प्रदान करता है . <code>tessdata</code> फोल्डर की लोकेशन के अनुसार, अगर डाउनलोड किया हुआ डेटा सिस्टम फोल्डर जैसे कि, लिनक्स में <code>/usr</code> या विंडोज में <code>C:\Program Files</code> में है, तो डाउनलोड किये डेटा को इंस्टाल करने के लिए आप को रूट या एडमिन के रूप में प्रोग्राम चलाना पडेगा .</p>
<p>विंडोज पर स्कैनिंग समर्थन विंडोज इमेज एक्वीजीशन लाइब्रेरी v2.0 के माध्यम से प्रदान किया गया है।</p>
<p>लिनक्स में, स्कैनिंग के लिए SANE पैकेज इंस्टाल करना आवश्यक है .</p>
<blockquote>
<p><code>sudo apt-get install libsane sane sane-utils libsane-extras xsane</code></p>
</blockquote>
<p>पीडीऍफ़ सपोर्ट PDFBox द्वारा उपलब्ध है.</p>
<p>स्पेलचेक सुविधा हन्स्पेल्ल द्वारा उपलब्ध है , जिसके <a href="http://wiki.services.openoffice.org/wiki/Dictionaries">
शब्दकोश </a> की (<code>.aff</code>, <code>.dic</code>) फाइलें विएतओसीआर के <code>dict</code> फोल्डर में डालनी चाहियें. <code>user.dic</code> एक UTF-8-एन्कोडिंग वाली फाइल है जिसमे कस्टम शब्दों की सूची डाली जा सकती है, हर लाइन में एक शब्द .</p>
<p>लिनक्स में, हनस्पेल और इसके शब्दकोशों को सिनेप्टिक या <code>apt</code> द्वारा निम्न तरीके से इंस्टाल किया जा सकता है :</p>
<blockquote><code>sudo apt-get install hunspell hunspell-hi-in</code></blockquote>
<h3>अनुदेश</h3>
<p>प्रोग्राम चलाने के लिए :</p>
<blockquote>
<p><code>java -jar VietOCR.jar</code></p>
</blockquote>
<p><b><u>नोट</u></b>: अगर आपको आउट-ऑफ़-मेमोरी एक्सेप्शन मिले तो जार के बजाय <code>ocr</code> स्क्रिप्ट फाइल चलायें ..</p>
<p>वियतनामी लैंग्वेज डेटा टाइम्स न्यू रोमन, एरियल, वेर्दाना और कुरियर न्यू फ़ॉन्ट्स से बनाया गया है . जिन छवियों के फॉन्ट ग्लिफ इनसे मिलते जुलते हैं उनके रिकग्निशन का अच्छा चांस रहेगा . उन छवियों को ओसीआर करने के लिए जिनके फॉन्ट ग्लिफ इनसे अलग हैं, टेसेरक्ट को उन टाइपफेसेस का लैंग्वेज डेटा बनाने के लिए <a href="https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract">ट्रेनिंग</a> की ज़रूरत पड़ेगी. लेटेस्ट वर्शन के साथ कुछ VNI और TCVN3 (ABC) फ़ॉन्ट्स का लैंग्वेज डेटा भी दिया गया है .</p>
<p>ओसीआर की जाने वाली छवियों को कम से कम 200 डीपीआई (डॉट पर इंच) से 400 डीपीआई रिसोल्यूशन तक मोनोक्रोम (ब्लैक एंड वाइट) या ग्रेस्केल में स्कैन करना चाहिए . ज्यादा ऊंचे रिसोल्यूशन पर स्कैन करने से पहचान में बेहतर सफलता मिलेगी ऐसा ज़रूरी नही है . अभी वियतनामी के लिए एक्यूरेसी 97% तक हो सकती है और हो सकता है की टेसेरक्ट की अगली रिलीस में ये और बढ़ जाए . फिर भी वास्तविक दर स्कैन् की हुई छवि की गुणवत्ता पर काफी निर्भर करती है . स्कैनिंग के लिए टिपिकल सेटिंग है 300 डीपीआई और ब्लैकएंडवाइट के लिए 1 बीपीपी (बिट पर पिक्स़ल) या ग्रेस्केल के लिए 8 बीपीपी अनकंप्रेस्ड टिफ या पीएनजी फॉर्मेट .</p>
<p><em>स्क्रीनशॉट मोड</em> कम रिसोल्युशन की छवियो, जैसे कि स्क्रीन प्रिंट, को 300 डीपीआई तक रिस्केल करके ज्यादा बेहतर रिकग्निशन देता है .</p>
<p>बिल्ट-इन टेक्स्ट पोस्टप्रोसेसिंग अल्गोरिथम के साथ साथ आप UTF-8 एन्कोडिंग की टैब डिलिमिटेड टेक्स्ट फाइल <code>x.DangAmbigs.txt</code> द्वारा अपनी कस्टम टेक्स्ट रिप्लेसमेंट स्कीम भी बना सकते हैं, जिसमें x का अर्थ ISO639-3 भाषा कोड है . प्लेन और रेगऍक्स टेक्स्ट दोनों तरह के बदलाव किये जा सकते हैं .</p>
<p>आप टेसेरक्ट का व्यवहार बदलने के लिए, इनिट-ओन्ली और नॉन-इनिट कंट्रोल पैरामीटर्स को क्रमशः <code>tessdata/configs/tess_configs</code>
और <code>tess_configvars</code> फाइलों में डाल सकते हैं.</p>
<p>कुछ बिल्ट-इन औजार भी उपलब्ध हैं जिनसे सुविधाजनक ओसीआर करने के लिए अलग छवियों या पीडीऍफ़ फाइलों को जोड़ कर एक बनाया जा सकता है या बहुत से पेजों वाली छवियों या पीडीऍफ़ फाइलों को, जिनसे आउट-ऑफ़-मेमोरी एक्सेप्शन हो सकता है, विभाजित कर छोटा बनाया जा सकता है .</p>
<h3>पोस्ट प्रोसेसिंग</h3>
<p>पहचानने में गलतियों को तीन श्रेणियों में विभाजित किया जा सकता है . कई गलतियाँ लैटर केस से सम्बंधित हैं, उदाहरण के लिए hOa, nhắC — इनको पॉपुलर यूनिकोड टेक्स्ट एडिटरों द्वारा आसानी से ठीक किया जा सकता है . अन्य कई गलतियाँ ओसीआर प्रक्रिया के फलस्वरूप हैं जैसे कि गलत मात्राएँ, या मिलतेजुलते रूप वाला दूसरा कोई लैटर — huu – hưu, mang – marg, h0a – hoa, la – 1a, uhìu - nhìn. ये सब भी स्पेल चेकर प्रोग्रामों द्वारा आसानी से ठीक किये जा सकते हैं . बिल्ट-इन पोस्टप्रोसेसिंग फंक्शन से उपरलिखित कई गलतियाँ ठीक की जा सकती हैं .</p>
<p>आखिरी तरह की गलतियाँ पहचानने में सबसे मुश्किल है क्योंकि ये सेमांटिक हैं, मतलब की ये शब्द शब्दकोष में पाए जायेंगे पर इस कॉन्टेक्स्ट में उनका प्रयोग गलत है जैसे कि tinh – tình, vân – vấn.ऎसी गलतियों को एडिटर द्वारा पढ़ कर ओरिजिनल छवि के अनुरूप सही करने की आवश्यकता होगी .</p>
<p>निम्न तरीका बताता है कि बिल्ट-इन फंक्शनलिटी से पहेल दो तरह की ओसीआर त्रुटियों को किस तरह सुधारा जाय .</p>
<ol style="margin-top: 0in" start="1" type="1">
<li>लाइने ग्रुप करें . लाइनों को पैराग्राफ के अनुसार एक साथ ग्रुप करना पड़ेगा, क्योकि ओसीआर होने पर हर लाइन एक लाइन का पैराग्राफ बन जाती है . <i>Format</i> मेनू के <i>Remove Line Breaks</i> फंक्शन का प्रयोग करें . नोट करें की कविताओं के लिए इसकी आवश्यकता नहीं होगी .</li>
<li> (अधिकतर लैटर केस की त्रुटियाँ सुधारने के लिए <i>फॉर्मेट </i> मेनू के अन्दर <i>केस बदलें</i> को चुनें और फिर <i>वाक्य केस</i> को चुनें, फिर बाक़ी लैटर केस की त्रुटियाँ को खोजें और सुधारें.)</li>
<li>एकीकृत <i>वर्तनी जांचक</i> से वर्तनी की गलतियाँ सुधारें </li>
</ol>
<p>ऊपर लिखी प्रक्रिया से अधिकतर सामान्य त्रुटियाँ हटाई जा सकती हैं,
बाकी सेमंटिक त्रुटियाँ थोड़ी हैं, पर उन्हें दूर कर डॉक्यूमेंट को ओरिजिनल स्कैन्ड डॉक्यूमेंट जैसा बनाने के लिए, ह्यूमन एडिटर को पढ़ कर गलतियाँ सुधारनी होंगी,
अगर चाहिए तो.</p>
<p>अगर कोई प्रश्न हैं तो <a href="http://sourceforge.net/projects/vietocr/forums">
विएतओसीआर फोरम</a>. में पोस्ट करें .</p>
<hr>
</div>
</body>
</html>