Intereting Posts
Java.lang.IllegalStateException: нет активности Android: dither = "true" не смущает, что не так? Отключение кнопки меню Android в PhoneGap Build Google Maps Android API v2 обнаруживает длинный клик на карте и добавляет маркер, не работающий Как изменить размер текста заголовка в панели действий? Построение управления конфигурацией в Android / Intellij / Jenkins Adb может отображать устройства, но adb shell / logcat не работает Android – Webview, окна ввода удвоены? Как получить текущее местоположение в google map android Как захватить кадры предварительного просмотра из приложения Camera в Android Programming? XMPP aSmack – Как я могу получить текущее состояние пользователя (offline / online / away / etc.)? Каллиграфическая библиотека от chrisjenx не работает Что такое файл Android.mk Как подавить ведение журнала с помощью Google Analytics 7.3? АБР не отвечает. Вы можете подождать больше или уничтожить процесс «adb.exe» вручную и нажать «Перезагрузить»,

Пользовательский словарь для Tesseract

В настоящее время я работаю над проектом для Android с использованием Tesseract OCR. Я надеялся точно настроить результаты, предоставленные пользователю, добавив словарь. Согласно http://code.google.com/p/tesseractocr/wiki/FAQ , лучший способ сделать это будет

Замените слова tessdata / eng.user своим списком слов в том же формате – текст UTF8, по одному слову в строке.

Однако в папке tessdata нет файла eng.user-words, я предполагаю, что если я просто сделаю текстовый файл с моим словарем в нем, он никогда не будет использоваться ..

Кто-нибудь имел подобный опыт и знает, что делать? Любой совет будет большой помощью.

Solutions Collecting From Web of "Пользовательский словарь для Tesseract"

Если вы используете tesseract 3 (который, как я полагаю, вы есть). Вам нужно будет перестроить файл eng.trainddata, который я намерен полностью заменить файл word-dawg, чтобы попытаться получить лучшие результаты (т. Е. Слова, которые я обнаруживаю, всегда одинаковы).

Вам понадобятся файлы comb_tessdata и wordlist2dawg в каталоге обучения при компиляции tesseract.

  1. Распакуйте все (я сделал это, чтобы создать резервную копию моего eng.word-dawg, вам также понадобится unicharset позже)

    ./combine_tessdata -u eng.traineddata

  2. Создайте текстовый файл вашего списка слов (wordlistfile)

  3. Создать eng.word-dawg

    ./wordlist2dawg wordlistfile eng.word-dawg trainingdat_backup / .unicharset

  4. Замените файл word-dawg

    ./combine_tessdata -o eng.traineddata eng.word-dawg

Это должно быть так.