TOPパソコン全般

フリーのOCRならGoogle Docsが便利。日本語の縦書きも認識 本当はEvernoteが良いんだけど。

Google DocsがGoogle Driveに名称が変更されOCR化の方法が変更されました。新しい使い方は以下の新しい記事でご確認下さい。

新エントリー  「無料のOCR「Google Drive」が定評のある980円の文字認識アプリに勝利!」

------追記ここまで------


※続編も書いています。

続・フリーのOCRならGoogle Docs(グーグルドキュメント)が便利。 【驚きの簡単さと高い認識率】



ここ最近は新聞のスクラップにコピー機を使わずにコンパクトデジカメを使って複写しています。
わざわざコピーをするよりもデジカメで撮影したほうが楽ですし速いです。

そして撮影した画像はEvernoteに放り込んでいます。
エバーノートでは日本語のOCRも対応しているとのことですが、文字認識したテキストを書き出すことは現在のところ出来ないですよね。。
なので画像データから検索のためだけにOCR機能を搭載しているのだと思います。

なので現在のところ純粋にテキスト書き出し用としてEvernoteを頼るのはまだ無理かなぁ~と。今後は変化するかも知れませんが・・・。

何か無料で良さげなOCRは無いものかと探していたら、グーグル先生が写真データからのOCRもしてくれていました。


Googleサービスの一つ「Google Docs」というGoogleドキュメントにOCR機能が付いていることを発見。
どの程度使えるのか実際の新聞記事を使って試してみました。

今回使ったのは下の画像。
朝日新聞の「天声人語」です。
ちょっと天地左右に余計な部分を残しつつ意地悪にトリミングした画像データをワザと使います。
そして縦書きというOCRとしては苦手な分野です。




Googleドキュメントに取り込むには以下の作業手順で出来ますが2点ほど注意点があります。
まず、

「Google Docs」を開き、アップロードを選んでファイルもしくはフォルダを選んでアップロードします。


アップロードをするときに以下のアップロード設定が自動で開くので
「PDFや画像ファイルからテキストをGoogleドキュメントのドキュメントに変換する」
にチェックを入れてアップロードを開始します。



アップロード開始ボタンをクリックすると順番にアップロードされていきます。



しかし、2MBを超えるサイズのデータはエラーになります。
「このファイルは大きすぎます。」との表示が出て最大サイズが2MBだと注意されてしまいます。



なので、画像データが2MB以下になるようにあらかじめカメラの設定を調整しておくか、もしくは撮影した画像データを圧縮やリサイズして2MB以下にしておく必要があります。
2MB以下に圧縮してから再度アップロードしたら正常に変換されました。


変換されたドキュメントをクリックすると元データである写真と共に変換されたテキストが表示されます。
それが以下の画面。
かなり意地悪な元データなのですが、それなりにOCRされていることに驚きます。





例えば下の部分などは、何となく意味は分かります。
縦書きの文字で、特に範囲指定などの設定も何もしていなくても、ここまで読み込んでくれることは驚きです。
そして何よりも無料だということ。




丁寧にトリミングさえしてあげれば、かなり良い感じで使えるのでは・・・。
Evernoteで日本語OCRが書き出せたりしたらありがたいのですが、今はGoogleドキュメントとEvernoteとを使い分けながらスクラップしていこうと思います。


なお、Evernoteでは日本語の手書き文字を正確に認識するために協力者を募集しています。
多くの方の手書き文字を集めることによって、認識率を上げるのが目的だと思います。

以前、こんなツイートをエバーノートが発信しました。

【お願い】Evernote日本語手書き文字認識精度の向上のためお力を貸して下さい!若干面倒なのは承知ですが、ページ内からダウンロードできる用紙を印刷して手書きで記入し、スキャンして送って下さい。皆さんの力で是非より良いEvernoteを!
http://bit.ly/hwrenjp


具体的には
「Evernoteの日本語文字認識精度向上のためのご協力のお願い」
と題するページでご確認頂ければと思うのですが、エバーノートが用意した日本語認識用テストペーパーがあるんですが、そのペーパー内に書かれた約50個の文字を自分の手書きで書いてそのペーパーをエバーノートに送り返すんです。




この精度向上のための作業に参加すると、当然ながら自分の手書き文字も認識率が上がる???
それならば今後もEvernoteを使い続ける人は参加したほうが得なのかも知れませんね。

新聞のスクラップがEvernoteに全部集約されて、なおかつ自分の手書きメモの走り書き文字も認識してくれるなんてEvernoteって凄いですね。
以前にアップした画像データに関しては文字列検索に引っかからないのが残念です。

以前にアップロードした画像内の文字列ってどうしたらEvernoteに認識してもらえるようになるんでしょう・・・。

今後の発展に期待度大です。

続・フリーのOCRならGoogle Docs(グーグルドキュメント)が便利。 【驚きの簡単さと高い認識率】|未分類/写真・カメラ関係含む デジタル@備忘録
OCR記事の続編です。






パソコン全般 | 2012.01.25 [EDIT]

【関連するタグ】

【最新記事一覧】

12/02   チェキフィルムが堂々の1位 スマホ用レンズが114 円!など。 Amazonのランキング大賞2016が発表
11/28   ライティング大全とも言える100種類以上の照明機材比較資料が無料公開
11/17   NikonのD5600は何がD5500と変わったのか。Snap Bridgeやフレームアドバンスバーが追加!
11/16   BBC製作「Planet Earth II」の鳥肌動画の撮影風景が360度全天周動画で公開中!
10/31   自作の錯覚画像 作成するのも楽しいですね。え?同じ色?まさかソッチに?
10/24   今回の撮影は何mmレンズを持っていけば良い? こんな疑問を簡単に解決できる計算サイト
10/15   無料のOCR「Google Drive」が定評のある980円の文字認識アプリに勝利!
10/13   え?暗室を新たに建設した大学があるらしい。デジタル時代だからこそ生徒には大人気!
10/12   ラジオの時代再到来!無料で過去の番組が聴けちゃうRadikoのタイムフリー聴取がついに開始!
10/05   Adobe公式のPhotoshop&Illustratorショートカット早見表
09/28   Photoshopを使って簡単に"より自然な"ナチュラルHDR画像を作成できるダブルマスキング法 
09/24   洗濯機が臭い!最後の最終兵器はミョウバン水洗浄!酸素系漂白剤や塩素系クリーナーよりも強力消臭してくれます。

【ポストカード写真】 Photo by 管理人(Orca)

<<シャクヤク(芍薬)の花言葉は「優しい心・恥じらい・壮麗」 | ホームへ | 融雪剤(凍結防止剤)には塩化ナトリウム(塩)と塩化カルシウムがあります。>>
このコメントは管理者の承認待ちです
2012/02/14 14:52 | # | [edit]
  • 【】
【// :】
| ホームへ |