tesseract-box/README.md
2020-02-13 20:25:35 +03:00

64 lines
2.3 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Tesseract OCR Vagrant Box
Машина с настроенным Tesseract OCR и всеми необходимыми либами для обучения/тюнинга моделей
## First UP
```shell script
cp Vagrantfile.dist Vagrantfile
vagrant plugin install vagrant-vbguest
vagrant vbguest
vagrant up
```
## Create BOX
Для использования готовой коробки (в которой все установлено и собрано для обучения):
```shell script
vagrant package
vagrant destroy -f
rm Vagrantfile
cp Vagrantfile.feat Vagrantfile
```
## Links
* [How to use the tools provided to train Tesseract 4.00](https://tesseract-ocr.github.io/tessdoc/TrainingTesseract-4.00.html#additional-libraries-required)
## Example
Создайте подпапку в ~/training/ и перейдите в нее. Далее:
```shell script
PAGES=100
FONT="GOST Type A"
BASE=$TESSDATA_PREFIX/rus.traineddata
MODELNAME=result
LANGDATA=/tesseract-4.1.1/langdata
mkdir -p model_existed model_training model_result
tesstrain.sh --fonts_dir $FONTS_DIR --fontlist "$FONT" --lang rus \
--linedata_only --noextract_font_properties --langdata_dir $LANGDATA \
--tessdata_dir $TESSDATA_PREFIX --maxpages $PAGES --output_dir ./
combine_tessdata -e $BASE ./model_existed/model.lstm
lstmtraining --model_output ./model_training/our \
--continue_from model_existed/model.lstm \
--traineddata $TESSDATA_PREFIX/rus.traineddata \
--train_listfile rus.training_files.txt
lstmtraining --stop_training \
--continue_from ./model_training/our_checkpoint \
--traineddata $TESSDATA_PREFIX/rus.traineddata \
--model_output ./model_result/$MODELNAME.traineddata
```
## Notes
`tesstrain_utils.sh.fixed` - исправленная версия оф. хелпера.
```-l ${LANG_CODE} ``` добавлено в `tesstrain_utils.sh.fixed:467`
иначе будет проблема - язык не указан. Официальный файл заменен исправленным при провижине машины
(см. install.sh)
Возможно потребуется настроить локаль для редактирования rus/rus.training_text.
Интерактивная установка, выбрать `ru_RU.UTF-8`:
```shell script
sudo dpkg-reconfigure locales
```