2.3 KiB
2.3 KiB
Tesseract OCR Vagrant Box
Машина с настроенным Tesseract OCR и всеми необходимыми либами для обучения/тюнинга моделей
First UP
cp Vagrantfile.dist Vagrantfile
vagrant plugin install vagrant-vbguest
vagrant vbguest
vagrant up
Create BOX
Для использования готовой коробки (в которой все установлено и собрано для обучения):
vagrant package
vagrant destroy -f
rm Vagrantfile
cp Vagrantfile.feat Vagrantfile
Links
Example
Создайте подпапку в ~/training/ и перейдите в нее. Далее:
PAGES=100
FONT="GOST Type A"
BASE=$TESSDATA_PREFIX/rus.traineddata
MODELNAME=result
LANGDATA=/tesseract-4.1.1/langdata
mkdir -p model_existed model_training model_result
tesstrain.sh --fonts_dir $FONTS_DIR --fontlist "$FONT" --lang rus \
--linedata_only --noextract_font_properties --langdata_dir $LANGDATA \
--tessdata_dir $TESSDATA_PREFIX --maxpages $PAGES --output_dir ./
combine_tessdata -e $BASE ./model_existed/model.lstm
lstmtraining --model_output ./model_training/our \
--continue_from model_existed/model.lstm \
--traineddata $TESSDATA_PREFIX/rus.traineddata \
--train_listfile rus.training_files.txt
lstmtraining --stop_training \
--continue_from ./model_training/our_checkpoint \
--traineddata $TESSDATA_PREFIX/rus.traineddata \
--model_output ./model_result/$MODELNAME.traineddata
Notes
tesstrain_utils.sh.fixed
- исправленная версия оф. хелпера.
-l ${LANG_CODE}
добавлено в tesstrain_utils.sh.fixed:467
иначе будет проблема - язык не указан. Официальный файл заменен исправленным при провижине машины
(см. install.sh)
Возможно потребуется настроить локаль для редактирования rus/rus.training_text.
Интерактивная установка, выбрать ru_RU.UTF-8
:
sudo dpkg-reconfigure locales