Распознавание текстов

Пост-обработка сканированных страниц — Scan Tailor

Домашняя страница:
scantailor.sourceforge.net

Лицензия: GNU GPL

Назначение: пост-обработка сканов

Scan Tailor — интерактивный инструмент предназначенный для обработки сканированных страниц, позволяющий привести в пристойный вид отсканированные или переснятые страницы. Программа имеет простой и понятный графический интерфейс, повзоляющий произвести разрезание страниц, компенсацироват/изменить наклон, , чтобы строки были горизонтальными, добавить/удалить поля, разбить попарно отсканированные страницы на отдельные файлы, удалить пятна, выровнить яркость, превратить снимок в цвете или градациях серого — в черно-белое изображение с увеличением разрешения, а также различить иллюстрации и сохранить их в градациях серого или цвете.
При открытии программа запрашивает каталог в котором находятся необработанные сканы, и результирующий каталог в которую будет скопирован результат в виде готовых для печати или сборки в PDF или DJVU файл. Получившийся сценарий можно подкорректировать.

Сканирование, оптическое распознавание символов, а также сборка многостраничных документов не входят в задачи проекта.
Проект предлагает видеоурок, подробно описывающий работу с программой.

Tags:

Распознавание текстов в Linux — Cuneiform

Домашняя страница: https://code.launchpad.net/cuneiform-linux/+download

Назначение: Распознавание текстов

Cuneiform для Linux – консольное приложение, предназначенное для распознавания текста. Поддерживается распознавание тексты на русском, украинском, английском и некоторых других языках.
В общем виде вызов программы выглядит так:

$ cuneiform -l <language> -o <output_file> [-f <output_format>] <input_file>

где  <language> –  язык распознавания,  на  при  мер:  rus –  русский, ng –  английский, ruseng (rus_eng) –  русско-английкий. Ключ -o предназначен для указания выходного файла. По  умолчанию данные сохраняются в простом текстовом формате в кодирове UTF-8, но с помощью ключа -f можно выбрать другой — HTML (-f  html), RTF (-f  rtf) или формат Cuneiform (-f  cf).  На конец, <input_file> – имя графического файла, из которого программа читает исходные данные. Cuneiform  плохо справляется с распознаванием таблиц, понимает текст, разбитый на несколько колонок (их  расположение в результирующем тексте не сохраняется , располагаются как абзацы), плохо понимает числа. Лучше работает на больших фрагментах  текста, на маленьких не успевает обучиться.

Tags:

Follow tux_in on Twitter