Новость из категории: Информация, Linux

Qt Box Editor - обучение Tesseract

Qt Box Editor - обучение Tesseract

Tesseract — отличный пример технологии распознавания оптических символов (OCR). Вы можете подумать, что Tesseract по идее принадлежит к семейству OpenCV, но на самом деле он появился раньше OpenCV. Tesseract — бесплатная альтернатива ABBYY Finereader, коммерческому продукту, который обеспечивает современное качество оптического распознавания. В Linux есть много способов достичь с Tesseract опыта, подобного Finereader, и, возможно, лучшим будет употребить интерфейс gImageReader. Вы заметите, что хотя у Tesseract практически нет проблем с качественными изображениями, такими как захват экрана или сканы распечаток с лазерного принтера с высоким разрешением, на менее читаемых изображениях он спотыкается.

Qt Box Editor - обучение Tesseract
При некотором усилии Tesseract может «научиться» читать размытые буквы

Различные учебники по обучению Tesseract описывают, как решить эту проблему. Основная идея состоит в том, чтобы взять образец изображения, извлечь оттуда символы как они есть и сформировать файл Box, а затем вручную отредактировать его и исправить все ошибочные символы. Затем Tesseract может сопоставить вид буквы на изображении с правильным символом Unicode. Чем больше Tesseract выучит правильных пар, тем точнее будут попытки распознавания в будущем.

Qt Box Editor - обучение Tesseract

Редактирование файла Box — чрезвычайно трудоемкая операция, требующая немалого терпения и трудолюбия. Qt Box Editor — это инструмент, который помогает процессу, предоставляя интеллектуальный графический интерфейс. Он показывает исходное изображение справа и узкую область, наподобие электронной таблицы, слева. Навигация между ячейками очень быстрая и может управляться клавишами со стрелками.

Qt Box Editor - обучение Tesseract

По сравнению с удобным текстовым редактором, Qt Box Editor позволяет завершить среднюю страницу почти вдвое быстрее. Когда вы переходите к следующей строке в области «электронной таблицы», приложение выделяет соответствующую букву на изображении. Работая со сканами бумаг, напечатанных на старой пишущей машинке, или другими плохо дешифруемыми изображениями Tesseract иногда ошибается в обнаружении буквенных полей. К счастью, Qt Box Editor имеет инструмент выбора и упрощает исправление поля.

Qt Box Editor - обучение Tesseract


Обязательно досконально изучите все возможности Qt Box Editor, но только после того, как утолите свою жажду азарта? В этом случае, настоятельно рекомендую вам изучить рейтинг лучших казино. Только в этом случае вы можете рассчитывать на честную игру и получите реальный шанс выиграть колоссальный по своему размеру джекпот!

Рейтинг статьи

Оценка
0/5
голосов: 0
Ваша оценка статье по пятибальной шкале:
 
 
   

Поделиться

Похожие новости

Комментарии

^ Наверх