-
Notifications
You must be signed in to change notification settings - Fork 59
Home
این پروژه در ادامه پروژهٔ tesseract-ocr و در تلاش برای افزودن قابلیت تشخیص کامپیوتری متنهای نوشته شده به زبان فارسی است.
برای همکاری در این پروژه مباحث زیر را مطالعه نمائید.
- مراحل ساخت فایل آموزشیافته
- نکات مهم برای ساخت باکس و فایل آموزشیافته
- دستورات
- بهبود کیفیت
- با توجه به ساخت ابزار جعبهساز نیازی به مطالعهٔ آموزش ساخت فایل باکس نیست و فقط به عنوان منبع در اینجا نگهداری میشود.
- سوالهای متداول
- نوشتن آموزش کامل برای ساخت فایل traienddata فایلهای تست هستند
- ساخت فایل convertor.py که کار اصلاح unicharset را سرعت میبخشد.
- ساخت فایل run.bat که کلیه عملیاتهای آموزش دادن را پشت سر هم انجام میدهد
- ساخت ابزار جعبهساز و نسخهٔ سرور محلی که سرعت بیشتری دارد. (آموزش روش کار درون فایل readme.txt)
- ایجاد صفحهٔ نکات مهم و تجربیات کسب شده، بعد از حدود ۱۰۰ سعی و خطا!
- ساخت اولین فایل آموزش یافته که در بعضی از متنها تا ۷۰٪ کیفیت خروجی دارد و برای فونت arail ساده فقط کارایی دارد.(فقط با نسخهٔ tesseract-ocr-3.02 اجرا میشود که آخرین نسخه است.)
- ساخت فایلهای آموزش یافته برای فونتهای بیشتر مانند (BNazanin-Bzar-Bkoodak-Byaghut-Blotus-Bhoma-Btitr)
برای تست در اینجا تعدادی تصویر برای آزمایش موجود است
-
برای دانلود نسخهٔ ویندوز tesseract-ocr فایل tesseract-ocr-setup-3.02-2.exe را از وبگاه رسمیشان دانلود نمائید (در بخش دانلود این پروژه نیز موجود است) این نرمافزار فقط در cmd کار میکند و برای ساخت فایل آموزشیافته که در مراحل ساخت فایل آموزشیافته شرح داده شدهاست، کاربرد دارد.
-
برای استفاده از اوسیآر و تست کردن نتایج در محیط گرافیکی از نسخههای گرافیکی مشابه GUI vietocr استفاده نمائید. http://vietocr.sourceforge.net/ یکی از بهترین نرمافزارهای نمایش گرافیکی برای این اوسیآر که در اصل برای زبان ویتنامی توسعه یافته است ولی با افزودن گلاسری قابل استفاده برای دیگر زبانها میباشد.
- http://hacking-tesseract.blogspot.it/ برای زبان هندی (در این پروژه کارهای خوبی برای حروف و اعرابگذاری انجام شدهاست)
- http://farsiocr.ir/ پروژه فارسی برای دستخط
- http://code.google.com/p/tesseractindic/ زبان هندی
- https://github.com/debayan/Tesseract-Indic-OCR/ زبان هندی
- http://www.ocr-extract.com/ اوسیآر برخط (آنلاین)
- در http://code.google.com/p/tesseract-ocr/wiki/AddOns فهرستی از ابزارهای مرتبط با این نرمافزار موجود است.