TOPパソコン全般

続・フリーのOCRならGoogleドライブからグーグルドキュメントへの連携がダントツ便利。【驚きの簡単さと高い認識率】

【投稿日時 2012/4/20】

【最終更新日 2019/3/20】

このエントリーを最初に投稿したのは2012年。あれから7年も経過しますが今でも素晴らしい精度と便利さで突き進むグーグルドライブ。昔はGoogle Docsと呼ばれていましたが、今はグーグルドライブと呼ばれています。

クラウド上で行われるOCRですのでソフトの更新を使用者が意識することなくGoogleが日々精度を向上してくれています。使い方が少し変化することはありますが7年前から今でもOCRソフトの精度ではぶっちぎりトップを走り続けているのではないでしょうか。

ふりがなが付いていようと文字の背景に色がついていようと問題なく認識してくれます。


基本はGoogleドキュメントへ画像をアップロードし、アップロードした画像をグーグルドキュメントで開くだけ。たったこれだけで高精度OCR化が完了します。



使ってみての感想はあまりの便利さ簡単さに驚き。文字認識は十分実用に耐えうる高さです。



日々進化しているGoogle DriveのOCRが有料アプリOCRに勝利

GoogleドキュメントのOCRが以前よりも精度が上がっていたので再度ご紹介します。
精度の上がり方は想像していたよりも上で、以前スマフォのアプリとして最高精度だとしてご紹介した980円の有料アプリ「e.Typist」よりも高かったです。



スマフォで手軽にOCR化したい方は以下のエントリーをご参考にどうぞ!
有料/無料のスマートフォン用OCRアプリ比較


恐るべしGoogle。日々精度を向上させてきているだけあります。
以前ご紹介した時とOCRの方法が若干変化しているので改めて説明します。

まず今回テストで使用したのは青空文庫からお借りした随筆銭形平次の一部分。
テキストをWordに貼り付け印刷したものをiPhone6で撮影しGoogleドキュメントにて文字認識させました。

以下の写真データを有料アプリ「e.Typist」と文字認識の精度を比較してみます。





ふりがなは見事にスルー。惑わされること無く認識した!

使い方の前にとりあえずGoogleドキュメントのOCR精度を御覧ください。
通常のテキスト羅列と違うのはふりがながある点。このふりがなが以前のGoogleドキュメントのOCRは苦手でしたが見事に誤認識を回避しています。

※赤文字は誤り部分
-----------------------GoogleドキュメントOCR-----------------------------

隨筆形平次 

捕物小説は楽し 野村胡堂 +目次

捕物小説というものを、私は四百二三十篇は書いているだろう。その上、近ごろは毎月五六篇は書いているから、幸いに私の健康が続く限り、まだまだこの多量生産は止みそうもない。
私が「銭形平次捕物控」という捕物小説を書いたのは、昭和六年ごろで、「オール読物」の創刊と同時であった。最初は勾論六回と十二回でよす積もりであったが、調子に乗って十何年か書き続け(その間半歳だけ休んだが)戦争末期のオールの廃刊まで に、実に百五十五回と書き続けた。
その後オールの復活とともにまた書き続けているし「新報知」その他の新聞雑誌に書 いたのを加えると、銭形だけで、 さっと三百
三読源くらいにはなってリろう。
ほかに「池田大助捕物日記」が約八十篇、韓信丹次、平柄銀次、隼の吉三などの 捕物帳がそれぞれ五六篇ずつ、 総計四百
ニ手士の捕物小説を書いているだろうと思 う。 我ながらいささかれ返っているが、 先日大次郎氏に逢ってその話が出ると、大氏は「人間業じゃないね」と酢っばい顔をしていた。化物扱いされるようになれば、作 者もまことに本懐の至りだ。
将棋の木村名人は、十数年間、
を並べていた友人の一人だが、 あの人は第 級の探偵小説ファンで、「あんな計をどうして考えるのだ」と幾度も私に訳いた。 「詰将棋の題を考えるようなものさ」といつでも私の答はきまっていた。ある科学者が、 同じ問いを私に出したとき、私はこう答えた。「数学の問題を考えるようなものですよ。
エックスイコールゼロ
X = 0から逆に考えていくのだ」と。

私の先生は、生前一度もお目 に掛かったことのない岡本堂先生であったといって 宜い。私の「銭形平次捕物控」は、 「半七捕物リ S刺載されて書いたもので、 私は筆 が行き詰まると、今でも「半七捕物帳」を出して何処ともなく読んでいる。「半七捕物帳」 は探偵小説としては淡いものだが、江戸時代の情緒を描いていったあの背景は素晴らしく、芸術品としても、かなり高いものだと信じている。
-------ここまで--------


精度100%では無いものの有料アプリと比較しても精度は高い!

誤認識を回避とは言っても完璧では無いですね。
でもこの精度凄いんです。だって私が試した数種類のOCRアプリの中で最も優秀だった980円の有料アプリよりも精度が高かったんです。

有料アプリの結果は以下。


-------------------有料OCRアプリ 「e.Typist」-----------------------

随筆銭形平次

捕物小説は楽し

野村胡堂

+目次

捕物小説というものを、私は四百二三十篇は書いているだろう。その上、近ごろは毎月五六篇は書いているから、幸いに私の健康が続く限り、まだまだこの多量生産は止みそうもない。私が「銭形平次捕物控」という捕物小説を書いたのは、昭和六年ごろで、「オール読物」の創刊と同時であった。最初は勿論六回と十二回でよす積もりであったが、調子に乗って十何年か書き続け(その間半歳だけ休んだが)戦争末期のオールの廃刊までに、実に百五十五回と書き続けた。その後オールの復活とともにまた書き続けているし「新報知」その他の新聞雑誌に書いたのを加えると、銭形だけで、ざっと三百二十篇くらいにはなっているだろう。ほかに「池田大助捕記」が約ノ、備鴬勧次、平柄銀次響も吉三などの捕物帳がそれぞれ五六篇ずつ・総計四百二慕或9捕物小説を書いているだろうと思う我ながらし'ささか呆れ返つ事いるカミ・知大佛次郎氏に逢ってその言舌力・出ると、大佛氏は「人間業じゃないね」と酢っぽい顔をしていた。化物扱いされるようになれば、作者もまことに本懐の至りだ。将棋の木村名人は・+数年間・鴨弊並べていた友人の一人だがあの人は第一級の探偵小説ファンで、「あんな計をどうして考えるのだ」と幾度も私に訊いた。「詰将棋の題を考えるようなものさ」といつでも私の答はきまっていた。ある科学者が、曼顎駆9藷に出したとき・私はこう答えた。「数学の問題を考えるようなものですよ。X=0から逆に考えていくのだ」と。
私の先生は、生前一度もお目に掛かったことのない岡本綺堂先生であったといって宜い
私の「銭形平次捕物控」は「半七捕殉叢されて書いたもので、私1よ筆が行き詰まると、今でも「半七捕物帳」を出して何ともなく読んでいる。「半七捕物帳」は探偵小説としては淡いものだが、江戸時代の情緒を描いていったあの背景は素晴らしく芸術品としても、かなり高いものだと信じている。

------------ここまで------------

これでも「e.Typist」はかなり優秀なんです。他のOCRアプリと比べれば圧倒的に精度は高いのですがやはり”ふりがな”に惑わされていることが分かります。

マジで凄いなGoogle! これだけの文字認識が無料で出来ちゃうなんて^^;



使い方のポイント紹介


1.画像データをグーグルドライブへアップロードする

2.アップロードした画像をグーグルドキュメントで開く(PC)


たったこれだけ。詳しい操作方法は以下




アップロードはファイルでもフォルダ単位でも可能。ファイルも複数選択可

Google ドライブにログインしマイドライブをクリックすると以下のようにアップロード選択画面が出ますのでJPGやPNG、PDFなどのファイル等を選択します。
PDFは複数ページのものでもOKです。


テキストに変換できるのは、「JPEG・PNG・GIF・PDF」ファイルのみです。






ファイルを選択してOKすると画面の右下に以下のようなアップロード表示が出ます。
アップロードはさすがに早い!



アップロードされたものは最初のファイル形式のままで、まだOCR化はされていません。
ここが以前のGoogle Docsと違う点。
Google Docsの時はアップロード直後にOCR化されていたのですが現在は一行程必要です。



OCR化したいファイルの上で右クリック。
「アプリで開く」→「Googleドキュメント」を選択しクリック。




あとは数秒まてばドキュメント形式に変換されOCR化されたテキストが出てきます。





もしも上手く行かない場合は以下のポイントをチェック


「設定」を開き"アップロードしたファイルを変換する"にチェック

 


 「設定」→「言語」を確認。 既定の言語を確認する。 英語以外にも多言語が対応可
  

この2点さえ間違ってなければOCR化は成功するはずです。
Googleドキュメントを開こうとした時にエラーになる場合は時間をあけて再度試してみてくださいね。




以下は7年前の文字認識精度テスト。あんまり必要ない情報だとは思うのですが・・・^^;
7年前のOCR機能搭載当時からこれだけ優秀だったんですね~。すごい。




昔はアップロードした直後にはOCRされていてテキスト化されました。それが今と違う点ですね。
この速さとアップロードするだけで何もしなくてもテキスト化してくれる簡単さには驚きです。この点は今でも踏襲してほしかった。

アップロードしたファイルを開くと以下のように表示されました。テキストは下の方に表示されています。




では、7年前のOCR性能がどの程度正確にOCRされているのか比べてみようと思います。
元になったテキストデータと、OCRされた後のデータを上下に並べてみました。
(ルビの関係で漢字とひらがなが重複している部分がありますがそれは気にしないで下さい)


比較してみました!

元のテキストデータ

吾輩は猫である。名前はまだ無い。

 どこで生れたかとんと見当けんとうがつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪どうあくな種族であったそうだ。この書生というのは時々我々を捕つかまえて煮にて食うという話である。しかしその当時は何という考もなかったから別段恐しいとも思わなかった。ただ彼の掌てのひらに載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。

OCRデータ ※誤認識された場所は赤字で表示

吾輩は猫である。 名前はまだ無い〝 どこで生れたかとんと見当けんとうがつかぬ。何でも薄暗いじめじめした所でニャーニャ-泣

いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞く

とそれは書生という人間中でー番悪どうあくな種族であったそうだ この書生というのは時々 我々を捕つかまえて煮にて食うという話である。 しかしその当時は何という考もなかったから別段恐しいとも思わなかった。 ただ彼の掌てのひらに載せられてスーと持ち上げられた時何だか フワフワした感じがあったばかりである。


OCRされたテキストデータの冒頭部分だけを比べてみましたが、これだけの文章で間違いが3点だけ。「。」が「”」に変換された箇所が2ヶ所と「」が「澤」と認識されたヶ所の3ヶ所。

登場当時からほとんど完璧なほどの出来栄えです。
今後更に進化し続けてくれると思うと頼もしい限りですが、これがアプリ上でも簡単にできるようになるともっと便利なんですけどね。







このエントリーをはてなブックマークに追加



パソコン全般 | 2019.03.20 [EDIT]

【関連するタグ】

<<新元号「令和」を発表。新聞各社はどう報じたか。 | ホームへ | 写真撮影や天体観測で大活躍! 曇り具合の様子や雲の動きが予測出来るWindy.comとGPV気象予報>>
よろしくお願いします。
「間もなくサポートが停止される古いバージョンの Internet Explorer を使用しています。 一部の機能が正しく動作しない場合があります。Google Chrome のような最新のブラウザにアップグレードすることをおすすめします。」
こういうメッセージがでればこのOCR機能は使えないのでしょうか。
また、この機能を使うようにするにはなにかソフトをDLしなければならないのですか。
2013/01/09 09:54 | ちゃんぺ #- | [edit]
ちゃんぺ様

コメントの返信が大変遅くなり申し訳ありませんm(__)m
コメントが滅多に付かないブログなものですから確認作業をたまにしかしておらず・・・。反省。

さて、古いIEの場合はどうなるか?という点ですが私の環境で試すことが出来ないので分からないのですが、アップロードさえ出来ればOCRは可能だと思うのですが・・・。

アップロードは出来ましたでしょうか?もしも出来ているのにOCR化されていないとなればクロームにする必要はありそうですね。

Google ChromeはGoogleが出しているブラウザソフトですが、そちらの存在は御存知ですか?Google Chrome ダウンロードで検索すればすぐにDLサイトへたどり着くと思いますので、ダウンロードしてお使いいただければと思います。

もしも、まだご不明な点がありましたら、いつでもコメントして下さいね。
2013/01/23 22:03 | Orca #- | [edit]
いつも楽しく拝見しています。上記の記事で質問なのですが
Chromeから、jpgを変換するのチェックボックスをチェックしてアップロードしたのですが、画像がはられたドキュメントが表示されるだけで、2ページ目以降は白紙となってしまいます。
ためしにこのサイトででアップされている文章をアップロードしてみたのですがダメでした。
1週間ほど試しているのですが、サーバー??が落ちてるんでしょうか?
それともこちら側の問題ですか?
試して頂けませんか?
2013/03/05 16:58 | なむし #LkZag.iM | [edit]
  • 【】
【// :】
| ホームへ |