Home

**به ویکی OCR فارسی خوش‌آمدید!**

این پروژه در ادامه پروژهٔ tesseract-ocr و در تلاش برای افزودن قابلیت تشخیص کامپیوتری متن‌های نوشته شده به زبان فارسی است.

آموزش

برای همکاری در این پروژه مباحث زیر را مطالعه نمائید.

مراحل ساخت فایل آموزش‌یافته
نکات مهم برای ساخت باکس و فایل آموزش‌یافته
دستورات
بهبود کیفیت
با توجه به ساخت ابزار جعبه‌ساز نیازی به مطالعهٔ آموزش ساخت فایل باکس نیست و فقط به عنوان منبع در اینجا نگهداری می‌شود.
سوال‌های متداول

نوشتن آموزش کامل برای ساخت فایل traienddata فایل‌های تست هستند
ساخت فایل convertor.py که کار اصلاح unicharset را سرعت می‌بخشد.
ساخت فایل run.bat که کلیه عملیات‌های آموزش دادن را پشت سر هم انجام می‌دهد
ساخت ابزار جعبه‌ساز و نسخهٔ سرور محلی که سرعت بیشتری دارد. (آموزش روش کار درون فایل readme.txt)
ایجاد صفحهٔ نکات مهم و تجربیات کسب شده، بعد از حدود ۱۰۰ سعی و خطا!
ساخت اولین فایل آموزش یافته که در بعضی از متن‌ها تا ۷۰٪ کیفیت خروجی دارد و برای فونت arail ساده فقط کارایی دارد.(فقط با نسخهٔ tesseract-ocr-3.02 اجرا می‌شود که آخرین نسخه است.)

ساخت فایل‌های آموزش یافته برای فونت‌های بیشتر مانند (BNazanin-Bzar-Bkoodak-Byaghut-Blotus-Bhoma-Btitr)

برای تست در اینجا تعدادی تصویر برای آزمایش موجود است

برای دانلود نسخهٔ ویندوز tesseract-ocr فایل tesseract-ocr-setup-3.02-2.exe را از وبگاه رسمی‌شان دانلود نمائید (در بخش دانلود این پروژه نیز موجود است) این نرم‌افزار فقط در cmd کار می‌کند و برای ساخت فایل آموزش‌یافته که در مراحل ساخت فایل آموزش‌یافته شرح داده شده‌است، کاربرد دارد.
برای استفاده از او‌سی‌آر و تست کردن نتایج در محیط گرافیکی از نسخه‌های گرافیکی مشابه GUI vietocr استفاده نمائید. http://vietocr.sourceforge.net/ یکی از بهترین نرم‌افزارهای نمایش گرافیکی برای این اوسی‌آر که در اصل برای زبان ویتنامی توسعه یافته است ولی با افزودن گلاسری قابل استفاده برای دیگر زبان‌ها می‌باشد.

http://hacking-tesseract.blogspot.it/ برای زبان هندی (در این پروژه کارهای خوبی برای حروف و اعراب‌گذاری انجام شده‌است)
http://farsiocr.ir/ پروژه فارسی برای دستخط
http://code.google.com/p/tesseractindic/ زبان هندی
https://github.com/debayan/Tesseract-Indic-OCR/ زبان هندی

http://www.ocr-extract.com/ اوسی‌آر برخط (آنلاین)
در http://code.google.com/p/tesseract-ocr/wiki/AddOns فهرستی از ابزارهای مرتبط با این نرم‌افزار موجود است.