TOPパソコン全般

続・フリーのOCRならGoogle Docs(グーグルドキュメント)が便利。 【驚きの簡単さと高い認識率】

Google DocsがGoogle Driveに名称が変更されOCR化の方法が変更されました。新しい使い方は以下の新しい記事でご確認下さい。

新エントリー  「無料のOCR「Google Drive」が定評のある980円の文字認識アプリに勝利!」

-------------追記ここまで----------



以前フリーで使えるOCRソフトとしてGoogle Docsをご紹介しました。
フリーのOCRならGoogle Docsが便利。日本語の縦書きも認識

その時には新聞記事の認識をテストしました。この時に使用したのは縦書き文字。少し分かりにくいテスト素材でしたので、今回は通常のA4用紙にプリントした文字を認識させて見ました。
驚くべきテスト結果が出ましたのでここで公開します。

使ってみての感想はあまりの便利さ簡単さに驚き。文字の認識に関しても十分実用に耐えうる高さです。

今回テスト素材として使用したのは『吾輩は猫である』の冒頭部分をワードに貼りつけてA4に印刷したもの。
プリントアウトしたA4用紙はカメラで撮影してJpgの画像データにしました。
さて、このJpg画像をどの程度正確に認識してくれるでしょうか。


OCRするには画像をGoogle Docsにアクセスしてアップロード!
アップロードするには2つの方法があります。

・グーグルドキュメント上でファイルもしくはフォルダを選んでクリックする方法。
・もう一つはファイルをドラッグアンドドロップでアップロードする方法もあります。





重要なのはここから
アップロードする時に注意しなければいけない2点


1つ目はアップロードをするときに以下のアップロード設定が自動で開くので
PDFや画像ファイルからテキストをGoogleドキュメントのドキュメントに変換するにチェックを入れること。




もう1つはファイルは2MB以下にしておくこと。
2MBを超えるサイズのデータはエラーになります。「このファイルは大きすぎます。」との表示が出て最大サイズが2MBだと注意されてしまいます。




この2点を守って以下のファイルをアップロードしてみました。


アップロードした直後にはOCRされていてテキスト化されます。
この速さとアップロードするだけで何もしなくてもテキスト化してくれる簡単さには驚きです。

アップロードしたファイルを開くと以下のように表示されます。テキストは下の方に表示されています。




では、どの程度正確にOCRされているのか比べてみようと思います。
元になったテキストデータと、OCRされた後のデータを上下に並べてみました。
(ルビの関係で漢字とひらがなが重複している部分がありますがそれは気にしないで下さい)


比較してみました!

元のテキストデータ

吾輩は猫である。名前はまだ無い。

 どこで生れたかとんと見当けんとうがつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪どうあくな種族であったそうだ。この書生というのは時々我々を捕つかまえて煮にて食うという話である。しかしその当時は何という考もなかったから別段恐しいとも思わなかった。ただ彼の掌てのひらに載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。

OCRデータ ※誤認識された場所は赤字で表示

吾輩は猫である。 名前はまだ無いどこで生れたかとんと見当けんとうがつかぬ。何でも薄暗いじめじめした所でニャーニャ-泣

いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞く

とそれは書生という人間中でー番悪どうあくな種族であったそうだ この書生というのは時々 我々を捕つかまえて煮にて食うという話である。 しかしその当時は何という考もなかったから別段恐しいとも思わなかった。 ただ彼の掌てのひらに載せられてスーと持ち上げられた時何だか フワフワした感じがあったばかりである。


OCRされたテキストデータの冒頭部分だけを比べてみましたが、これだけの文章で間違いが3点だけ。「。」が「”」に変換された箇所が2ヶ所と「」が「澤」と認識されたヶ所の3ヶ所。

ほとんど完璧なほどの出来栄えです。
改行に関しては若干の問題はありますが・・・。それは重要な問題とは思えないですよね。

是非、この素晴らしい無料で使えるOCRソフトとしてGoogle Docsを使ってみて下さいね。






パソコン全般 | 2012.04.20 [EDIT]

【関連するタグ】

【最新記事一覧】

12/02   チェキフィルムが堂々の1位 スマホ用レンズが114 円!など。 Amazonのランキング大賞2016が発表
11/28   ライティング大全とも言える100種類以上の照明機材比較資料が無料公開
11/17   NikonのD5600は何がD5500と変わったのか。Snap Bridgeやフレームアドバンスバーが追加!
11/16   BBC製作「Planet Earth II」の鳥肌動画の撮影風景が360度全天周動画で公開中!
10/31   自作の錯覚画像 作成するのも楽しいですね。え?同じ色?まさかソッチに?
10/24   今回の撮影は何mmレンズを持っていけば良い? こんな疑問を簡単に解決できる計算サイト
10/15   無料のOCR「Google Drive」が定評のある980円の文字認識アプリに勝利!
10/13   え?暗室を新たに建設した大学があるらしい。デジタル時代だからこそ生徒には大人気!
10/12   ラジオの時代再到来!無料で過去の番組が聴けちゃうRadikoのタイムフリー聴取がついに開始!
10/05   Adobe公式のPhotoshop&Illustratorショートカット早見表
09/28   Photoshopを使って簡単に"より自然な"ナチュラルHDR画像を作成できるダブルマスキング法 
09/24   洗濯機が臭い!最後の最終兵器はミョウバン水洗浄!酸素系漂白剤や塩素系クリーナーよりも強力消臭してくれます。

【ポストカード写真】 Photo by 管理人(Orca)

<<【気になるLink】金環日食の撮影方法を富士フィルムが解説 | ホームへ | これからはカメラの写真データを無線で取り込むのが基本になりそうですね>>
よろしくお願いします。
「間もなくサポートが停止される古いバージョンの Internet Explorer を使用しています。 一部の機能が正しく動作しない場合があります。Google Chrome のような最新のブラウザにアップグレードすることをおすすめします。」
こういうメッセージがでればこのOCR機能は使えないのでしょうか。
また、この機能を使うようにするにはなにかソフトをDLしなければならないのですか。
2013/01/09 09:54 | ちゃんぺ #- | [edit]
ちゃんぺ様

コメントの返信が大変遅くなり申し訳ありませんm(__)m
コメントが滅多に付かないブログなものですから確認作業をたまにしかしておらず・・・。反省。

さて、古いIEの場合はどうなるか?という点ですが私の環境で試すことが出来ないので分からないのですが、アップロードさえ出来ればOCRは可能だと思うのですが・・・。

アップロードは出来ましたでしょうか?もしも出来ているのにOCR化されていないとなればクロームにする必要はありそうですね。

Google ChromeはGoogleが出しているブラウザソフトですが、そちらの存在は御存知ですか?Google Chrome ダウンロードで検索すればすぐにDLサイトへたどり着くと思いますので、ダウンロードしてお使いいただければと思います。

もしも、まだご不明な点がありましたら、いつでもコメントして下さいね。
2013/01/23 22:03 | Orca #- | [edit]
いつも楽しく拝見しています。上記の記事で質問なのですが
Chromeから、jpgを変換するのチェックボックスをチェックしてアップロードしたのですが、画像がはられたドキュメントが表示されるだけで、2ページ目以降は白紙となってしまいます。
ためしにこのサイトででアップされている文章をアップロードしてみたのですがダメでした。
1週間ほど試しているのですが、サーバー??が落ちてるんでしょうか?
それともこちら側の問題ですか?
試して頂けませんか?
2013/03/05 16:58 | なむし #LkZag.iM | [edit]
  • 【】
【// :】
| ホームへ |