tesseract-box/README.md
2020-02-13 20:25:35 +03:00

2.3 KiB
Raw Blame History

Tesseract OCR Vagrant Box

Машина с настроенным Tesseract OCR и всеми необходимыми либами для обучения/тюнинга моделей

First UP

cp Vagrantfile.dist Vagrantfile
vagrant plugin install vagrant-vbguest
vagrant vbguest
vagrant up

Create BOX

Для использования готовой коробки (в которой все установлено и собрано для обучения):

vagrant package
vagrant destroy -f
rm Vagrantfile
cp Vagrantfile.feat Vagrantfile

Example

Создайте подпапку в ~/training/ и перейдите в нее. Далее:

PAGES=100
FONT="GOST Type A"
BASE=$TESSDATA_PREFIX/rus.traineddata
MODELNAME=result
LANGDATA=/tesseract-4.1.1/langdata

mkdir -p model_existed model_training model_result

tesstrain.sh --fonts_dir $FONTS_DIR --fontlist "$FONT" --lang rus \
  --linedata_only --noextract_font_properties --langdata_dir $LANGDATA \
  --tessdata_dir $TESSDATA_PREFIX --maxpages $PAGES --output_dir ./

combine_tessdata -e $BASE ./model_existed/model.lstm

lstmtraining --model_output ./model_training/our \
  --continue_from model_existed/model.lstm \
  --traineddata $TESSDATA_PREFIX/rus.traineddata \
  --train_listfile rus.training_files.txt

lstmtraining --stop_training \
  --continue_from ./model_training/our_checkpoint \
  --traineddata $TESSDATA_PREFIX/rus.traineddata \
  --model_output ./model_result/$MODELNAME.traineddata

Notes

tesstrain_utils.sh.fixed - исправленная версия оф. хелпера.

-l ${LANG_CODE} добавлено в tesstrain_utils.sh.fixed:467 иначе будет проблема - язык не указан. Официальный файл заменен исправленным при провижине машины (см. install.sh)

Возможно потребуется настроить локаль для редактирования rus/rus.training_text. Интерактивная установка, выбрать ru_RU.UTF-8:

sudo dpkg-reconfigure locales