# Tesseract OCR Vagrant Box Машина с настроенным Tesseract OCR и всеми необходимыми либами для обучения/тюнинга моделей ## First UP ```shell script cp Vagrantfile.dist Vagrantfile vagrant plugin install vagrant-vbguest vagrant vbguest vagrant up ``` ## Create BOX Для использования готовой коробки (в которой все установлено и собрано для обучения): ```shell script vagrant package vagrant destroy -f rm Vagrantfile cp Vagrantfile.feat Vagrantfile ``` ## Links * [How to use the tools provided to train Tesseract 4.00](https://tesseract-ocr.github.io/tessdoc/TrainingTesseract-4.00.html#additional-libraries-required) ## Example Создайте подпапку в ~/training/ и перейдите в нее. Далее: ```shell script PAGES=100 FONT="GOST Type A" BASE=$TESSDATA_PREFIX/rus.traineddata MODELNAME=result LANGDATA=/tesseract-4.1.1/langdata mkdir -p model_existed model_training model_result tesstrain.sh --fonts_dir $FONTS_DIR --fontlist "$FONT" --lang rus \ --linedata_only --noextract_font_properties --langdata_dir $LANGDATA \ --tessdata_dir $TESSDATA_PREFIX --maxpages $PAGES --output_dir ./ combine_tessdata -e $BASE ./model_existed/model.lstm lstmtraining --model_output ./model_training/our \ --continue_from model_existed/model.lstm \ --traineddata $TESSDATA_PREFIX/rus.traineddata \ --train_listfile rus.training_files.txt lstmtraining --stop_training \ --continue_from ./model_training/our_checkpoint \ --traineddata $TESSDATA_PREFIX/rus.traineddata \ --model_output ./model_result/$MODELNAME.traineddata ``` ## Notes `tesstrain_utils.sh.fixed` - исправленная версия оф. хелпера. ```-l ${LANG_CODE} ``` добавлено в `tesstrain_utils.sh.fixed:467` иначе будет проблема - язык не указан. Официальный файл заменен исправленным при провижине машины (см. install.sh) Возможно потребуется настроить локаль для редактирования rus/rus.training_text. Интерактивная установка, выбрать `ru_RU.UTF-8`: ```shell script sudo dpkg-reconfigure locales ```