64 lines
2.3 KiB
Markdown
64 lines
2.3 KiB
Markdown
# Tesseract OCR Vagrant Box
|
||
Машина с настроенным Tesseract OCR и всеми необходимыми либами для обучения/тюнинга моделей
|
||
|
||
## First UP
|
||
```shell script
|
||
cp Vagrantfile.dist Vagrantfile
|
||
vagrant plugin install vagrant-vbguest
|
||
vagrant vbguest
|
||
vagrant up
|
||
```
|
||
|
||
## Create BOX
|
||
Для использования готовой коробки (в которой все установлено и собрано для обучения):
|
||
```shell script
|
||
vagrant package
|
||
vagrant destroy -f
|
||
rm Vagrantfile
|
||
cp Vagrantfile.feat Vagrantfile
|
||
```
|
||
|
||
## Links
|
||
* [How to use the tools provided to train Tesseract 4.00](https://tesseract-ocr.github.io/tessdoc/TrainingTesseract-4.00.html#additional-libraries-required)
|
||
|
||
|
||
## Example
|
||
Создайте подпапку в ~/training/ и перейдите в нее. Далее:
|
||
```shell script
|
||
PAGES=100
|
||
FONT="GOST Type A"
|
||
BASE=$TESSDATA_PREFIX/rus.traineddata
|
||
MODELNAME=result
|
||
LANGDATA=/tesseract-4.1.1/langdata
|
||
|
||
mkdir -p model_existed model_training model_result
|
||
|
||
tesstrain.sh --fonts_dir $FONTS_DIR --fontlist "$FONT" --lang rus \
|
||
--linedata_only --noextract_font_properties --langdata_dir $LANGDATA \
|
||
--tessdata_dir $TESSDATA_PREFIX --maxpages $PAGES --output_dir ./
|
||
|
||
combine_tessdata -e $BASE ./model_existed/model.lstm
|
||
|
||
lstmtraining --model_output ./model_training/our \
|
||
--continue_from model_existed/model.lstm \
|
||
--traineddata $TESSDATA_PREFIX/rus.traineddata \
|
||
--train_listfile rus.training_files.txt
|
||
|
||
lstmtraining --stop_training \
|
||
--continue_from ./model_training/our_checkpoint \
|
||
--traineddata $TESSDATA_PREFIX/rus.traineddata \
|
||
--model_output ./model_result/$MODELNAME.traineddata
|
||
```
|
||
|
||
## Notes
|
||
`tesstrain_utils.sh.fixed` - исправленная версия оф. хелпера.
|
||
|
||
```-l ${LANG_CODE} ``` добавлено в `tesstrain_utils.sh.fixed:467`
|
||
иначе будет проблема - язык не указан. Официальный файл заменен исправленным при провижине машины
|
||
(см. install.sh)
|
||
|
||
Возможно потребуется настроить локаль для редактирования rus/rus.training_text.
|
||
Интерактивная установка, выбрать `ru_RU.UTF-8`:
|
||
```shell script
|
||
sudo dpkg-reconfigure locales
|
||
``` |