From 7bdf2d492b28fe332b2d7704df092641d55774f7 Mon Sep 17 00:00:00 2001 From: Nikita Orlov Date: Thu, 13 Feb 2020 20:25:35 +0300 Subject: [PATCH] =?UTF-8?q?=D0=BF=D0=BE=D0=BF=D1=80=D0=B0=D0=B2=D0=B8?= =?UTF-8?q?=D0=BB=20=D0=BF=D1=80=D0=B8=D0=BC=D0=B5=D1=80=20=D0=B2=20=D1=80?= =?UTF-8?q?=D0=B8=D0=B4=D0=BC=D0=B8?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- README.md | 13 ++++++++++--- 1 file changed, 10 insertions(+), 3 deletions(-) diff --git a/README.md b/README.md index 398af87..e3c7e65 100644 --- a/README.md +++ b/README.md @@ -29,11 +29,12 @@ PAGES=100 FONT="GOST Type A" BASE=$TESSDATA_PREFIX/rus.traineddata MODELNAME=result +LANGDATA=/tesseract-4.1.1/langdata mkdir -p model_existed model_training model_result -tesstrain.sh --fonts_dir $FONTS_DIR --fontlist $FONT --lang rus \ - --linedata_only --noextract_font_properties --langdata_dir /tesseract-4.1.1/langdata \ +tesstrain.sh --fonts_dir $FONTS_DIR --fontlist "$FONT" --lang rus \ + --linedata_only --noextract_font_properties --langdata_dir $LANGDATA \ --tessdata_dir $TESSDATA_PREFIX --maxpages $PAGES --output_dir ./ combine_tessdata -e $BASE ./model_existed/model.lstm @@ -54,4 +55,10 @@ lstmtraining --stop_training \ ```-l ${LANG_CODE} ``` добавлено в `tesstrain_utils.sh.fixed:467` иначе будет проблема - язык не указан. Официальный файл заменен исправленным при провижине машины -(см. install.sh) \ No newline at end of file +(см. install.sh) + +Возможно потребуется настроить локаль для редактирования rus/rus.training_text. +Интерактивная установка, выбрать `ru_RU.UTF-8`: +```shell script +sudo dpkg-reconfigure locales +``` \ No newline at end of file