ブロッコリーを克服するまでプログラミング

プログラミングとか趣味とかを報告します。

文字認識:tesseract-ocrをインストールしてみた

livedoorブログからの移転記事です。

 

 時代の波には乗れていないのかもしれないが、いまさらtesseract-ocrを使ってみました。本当はいろいろなものを試してみたい感はあるのですが、google先生以上のものはないと信じて、tesseract-ocrでいってみます。

 

 とりあえず、tesseract-ocrをダウンロード。

github.com

 

 Makeとかそういうのは、ちょっとぼくにははやすぎるんで、以下の方法でWindows環境の実行ファイルを取得しました。

tessera-ocrのダウンロード
  1. 上記リンク先から、Installing Tesseract項 「Install Tesseract via pre-built binary package」 をクリック
  2. Windows項 「Tesseract at UB Mannheim」 をクリック
  3. Tesseract at UB Mannheim項 「tesseract-ocr-setup-4.00.00dev.exe」をクリック
 
 その他ホームページを参考にしたら、日本語学習データを取得しよう!と記述されていたのですが、インストーラなら学習データも一緒に取得できるみたいです。一応、日本語の学習データは下記にありました。
 
日本語学習データのダウンロード
  1. (上記手順2から)Windows項 「download the appropriate training data」をクリック
  2. Data Files for Version 4.00項 「jpn.traineddata」をダウンロード

 日本語版ならjpn, 英語版ならeng,はっきりわかんだね。engはオプション設定しなくてもプリインストールされていました。

 

 折角、ブログというものに書いているので、ブログの練習がてら、手順を画像で添付してみます!

 

Ver.4.00のインストール方法

1, NEXT!

f:id:atwtama:20170719002532p:plain

 

2, 「I accept the terms of the License Agreement」をチェックして、やはりNEXT!

f:id:atwtama:20170719002552p:plain

 

3, NEXT!!!

f:id:atwtama:20170719002609p:plain

 

4, 「Additional language data」チェックボックスで「japanese」を選びNEXT!

f:id:atwtama:20170719002628p:plain

 

5, インストールしたい場所を選ぶとよいよ。NEXT!

f:id:atwtama:20170719002644p:plain

 

6, Install!

f:id:atwtama:20170719002746p:plain

 

 長くなりすぎるのもあれなんで、次の記事で簡単に認識してみます。