Распознавание текстов в Linux — Cuneiform

Домашняя страница: https://code.launchpad.net/cuneiform-linux/+download

Назначение: Распознавание текстов

Cuneiform для Linux – консольное приложение, предназначенное для распознавания текста. Поддерживается распознавание тексты на русском, украинском, английском и некоторых других языках.
В общем виде вызов программы выглядит так:

$ cuneiform -l <language> -o <output_file> [-f <output_format>] <input_file>

где  <language> –  язык распознавания,  на  при  мер:  rus –  русский, ng –  английский, ruseng (rus_eng) –  русско-английкий. Ключ -o предназначен для указания выходного файла. По  умолчанию данные сохраняются в простом текстовом формате в кодирове UTF-8, но с помощью ключа -f можно выбрать другой — HTML (-f  html), RTF (-f  rtf) или формат Cuneiform (-f  cf).  На конец, <input_file> – имя графического файла, из которого программа читает исходные данные. Cuneiform  плохо справляется с распознаванием таблиц, понимает текст, разбитый на несколько колонок (их  расположение в результирующем тексте не сохраняется , располагаются как абзацы), плохо понимает числа. Лучше работает на больших фрагментах  текста, на маленьких не успевает обучиться.

Метки:

Leave a Reply

Follow tux_in on Twitter