デジタル@備忘録


フリーのOCRならGoogle Docsが便利。日本語の縦書きも認識 本当はEvernoteが良いんだけど。

お願い!Google DocsがGoogle Driveに名称が変更されOCR化の方法が変更されました。新しい使い方は以下の新しい記事でご確認下さい。
2019年にリライトし現在の使い方を解説した記事になります↓


続・フリーのOCRならGoogleドライブからグーグルドキュメントへの連携がダントツ便利。【驚きの簡単さと高い認識率】

【最終更新日 2019/3/20】このエントリーを最初に投稿したのは2012年。あれから7年も経過しますが今でも素晴らしい精度と便利さで突き進むグーグルドライブ。昔はGoogle Docsと呼ばれていましたが、今はグーグルドライブと呼ばれています。クラウド上で行われるOCRですのでソフトの更新を使用者が意識することなくGoogleが日々精度を向上してくれています。使い方が少し変化することはありますが7年前か...



------
ここ最近は新聞のスクラップにコピー機を使わずにコンパクトデジカメを使って複写しています。
わざわざコピーをするよりもデジカメで撮影したほうが楽ですし速いです。

そして撮影した画像はEvernoteに放り込んでいます。
エバーノートでは日本語のOCRも対応しているとのことですが、文字認識したテキストを書き出すことは現在のところ出来ないですよね。。
なので画像データから検索のためだけにOCR機能を搭載しているのだと思います。

なので現在のところ純粋にテキスト書き出し用としてEvernoteを頼るのはまだ無理かなぁ~と。今後は変化するかも知れませんが・・・。

何か無料で良さげなOCRは無いものかと探していたら、グーグル先生が写真データからのOCRもしてくれていました。


Googleサービスの一つ「Google Docs」というGoogleドキュメントにOCR機能が付いていることを発見。
どの程度使えるのか実際の新聞記事を使って試してみました。

今回使ったのは下の画像。
朝日新聞の「天声人語」です。
ちょっと天地左右に余計な部分を残しつつ意地悪にトリミングした画像データをワザと使います。
そして縦書きというOCRとしては苦手な分野です。




Googleドキュメントに取り込むには以下の作業手順で出来ますが2点ほど注意点があります。
まず、

「Google Docs」を開き、アップロードを選んでファイルもしくはフォルダを選んでアップロードします。


アップロードをするときに以下のアップロード設定が自動で開くので
「PDFや画像ファイルからテキストをGoogleドキュメントのドキュメントに変換する」
にチェックを入れてアップロードを開始します。



アップロード開始ボタンをクリックすると順番にアップロードされていきます。



しかし、2MBを超えるサイズのデータはエラーになります。
「このファイルは大きすぎます。」との表示が出て最大サイズが2MBだと注意されてしまいます。



なので、画像データが2MB以下になるようにあらかじめカメラの設定を調整しておくか、もしくは撮影した画像データを圧縮やリサイズして2MB以下にしておく必要があります。
2MB以下に圧縮してから再度アップロードしたら正常に変換されました。


変換されたドキュメントをクリックすると元データである写真と共に変換されたテキストが表示されます。
それが以下の画面。
かなり意地悪な元データなのですが、それなりにOCRされていることに驚きます。





例えば下の部分などは、何となく意味は分かります。
縦書きの文字で、特に範囲指定などの設定も何もしていなくても、ここまで読み込んでくれることは驚きです。
そして何よりも無料だということ。




丁寧にトリミングさえしてあげれば、かなり良い感じで使えるのでは・・・。
Evernoteで日本語OCRが書き出せたりしたらありがたいのですが、今はGoogleドキュメントとEvernoteとを使い分けながらスクラップしていこうと思います。


なお、Evernoteでは日本語の手書き文字を正確に認識するために協力者を募集しています。
多くの方の手書き文字を集めることによって、認識率を上げるのが目的だと思います。

以前、こんなツイートをエバーノートが発信しました。

【お願い】Evernote日本語手書き文字認識精度の向上のためお力を貸して下さい!若干面倒なのは承知ですが、ページ内からダウンロードできる用紙を印刷して手書きで記入し、スキャンして送って下さい。皆さんの力で是非より良いEvernoteを!
https://bit.ly/hwrenjp


具体的には
「Evernoteの日本語文字認識精度向上のためのご協力のお願い」
と題するページでご確認頂ければと思うのですが、エバーノートが用意した日本語認識用テストペーパーがあるんですが、そのペーパー内に書かれた約50個の文字を自分の手書きで書いてそのペーパーをエバーノートに送り返すんです。




この精度向上のための作業に参加すると、当然ながら自分の手書き文字も認識率が上がる???
それならば今後もEvernoteを使い続ける人は参加したほうが得なのかも知れませんね。

新聞のスクラップがEvernoteに全部集約されて、なおかつ自分の手書きメモの走り書き文字も認識してくれるなんてEvernoteって凄いですね。
以前にアップした画像データに関しては文字列検索に引っかからないのが残念です。

以前にアップロードした画像内の文字列ってどうしたらEvernoteに認識してもらえるようになるんでしょう・・・。

今後の発展に期待度大です。


関連記事
Orca
Posted byOrca

Comments 1

There are no comments yet.

-  

承認待ちコメント

このコメントは管理者の承認待ちです

2012/02/14 (Tue) 14:52

Leave a reply