2022年現在。GoogleドキュメントのOCR機能は常に進化していることを実感しています。過去との性能の比較も含めてご紹介していこうと思います。
このエントリーを最初に投稿したのは2012年。あれから10年も経過しますが今でも素晴らしい精度と便利さで突き進むグーグルドライブ。昔はGoogle Docsと呼ばれていましたが、今はグーグルドライブと呼ばれています。
クラウド上で行われるOCRですのでソフトの更新を使用者が意識することなくGoogleが日々精度を向上してくれています。使い方が少し変化することはありますが10年前から今でもOCRソフトの精度ではぶっちぎりトップを走り続けているのではないでしょうか。
ふりがなが付いていようと文字の背景に色がついていようと問題なく認識してくれます。
基本はGoogleドキュメントへ画像をアップロードし、アップロードした画像をグーグルドキュメントで開くだけ。たったこれだけで高精度OCR化が完了します。
使ってみての感想はあまりの便利さ簡単さに驚き。文字認識は十分実用に耐えうる高さです。
日々進化しているGoogle DriveのOCRが有料アプリOCRに勝利
GoogleドキュメントのOCRが以前よりも精度が上がっていたので再度ご紹介します。
精度の上がり方は想像していたよりも上で、以前スマフォのアプリとして最高精度だとしてご紹介した980円の有料アプリ「e.Typist」よりも高かったです。現在このアプリはダウンロード出来なくなっています。
やはりGoogleの凄い所は日々精度を向上させてきている点。
以前ご紹介した時とOCRの方法が若干変化しているので改めて説明します。
まず今回テストで使用したのは青空文庫からお借りした随筆銭形平次の一部分。
テキストをWordに貼り付け印刷したものをiPhone6で撮影しGoogleドキュメントにて文字認識させました。
以下の写真データを有料アプリ「e.Typist」と文字認識の精度を比較してみます。
この文章の難しいところは、
・ふりがなが使用されていること
・アルファベットが混在していること
・文字の大きさがタイトルと本文、ふりがななど複数存在すること
誤認識は、ほぼゼロ! “ふりがな”が文章内に混ざることが欠点か
使い方の前にとりあえず2022年にGoogleドキュメントで実験したのOCR精度を御覧ください。
通常のテキスト羅列と違うのは”ふりがな”がある点。この”ふりがな”の処理に違いがありました。
有料OCRアプリでは”ふりがな”が書かれていることでOCR化するときに誤った変換をしているケースが多数ありました。
※オレンジアンダーライン誤り部分。水色アンダーラインは「ふりがな」認識部分
GoogleドキュメントOCR 2022年10月実施 | 有料OCRアプリ 「e.Typist」 |
---|---|
随筆銭形平次 捕物小説は楽し 野村胡堂 +目次 捕物小説というものを、私は四百二三十篇は書いているだろう。その上、近ごろは毎 月五六篇は書いているから、幸いに私の健康が続く限り、まだまだこの多量生産は止 みそうもない。 私が「銭形平次捕物控」という捕物小説を書いたのは、昭和六年ごろで、「オール読 物」の創刊と同時であった。最初は勿論六回と十二回でよす積もりであったが、調子に 乗って十何年か書き続け(その間半歳だけ休んだが)戦争末期のオールの廃刊まで に、実に百五十五回と書き続けた。 その後オールの復活とともにまた書き続けているし「新報知」その他の新聞雑誌に書 いたのを加えると、銭形だけで、ざっと三百二十篇くらいにはなっているだろう。 かんしん はやぶさ ほかに「池田大助捕物日記」が約八十篇、韓信丹次、平柄銀次、隼 の吉三などの 捕物帳がそれぞれ五六篇ずつ、総計四百二三十の捕物小説を書いているだろうと思 う。我ながらいささか呆れ返っているが、先日大佛次郎氏に逢ってその話が出ると、大 佛氏は「人間業じゃないね」と酢っぱい顔をしていた。化物扱いされるようになれば、作 者もまことに本懐の至りだ。 将棋の木村名人は、十数年間、私と机を並べていた友人の一人だが、あの人は第 一級の探偵小説ファンで、「あんな詭計をどうして考えるのだ」と幾度も私に訊いた。 「詰将棋の題を考えるようなものさ」といつでも私の答はきまっていた。ある科学者が、 同じ問いを私に出したとき、私はこう答えた。「数学の問題を考えるようなものですよ。 エックスイコールゼロ X = 0から逆に考えていくのだ」と。 おさらぎ トリック しげき 私の先生は、生前一度もお目に掛かったことのない岡本綺堂先生であったといって 宜い。私の「銭形平次捕物控」は、「半七捕物帳」に刺(激)されて書いたもので、私は筆 が行き詰まると、今でも「半七捕物帳」を出して何処ともなく読んでいる。「半七捕物帳」 は探偵小説としては淡いものだが、江戸時代の情緒を描いていったあの背景は素晴ら しく、芸術品としても、かなり高いものだと信じている。 | 随筆銭形平次 捕物小説は楽し 野村胡堂 +目次 捕物小説というものを、私は四百二三十篇は書いているだろう。その上、近ごろは毎月五六篇は書いているから、幸いに私の健康が続く限り、まだまだこの多量生産は止みそうもない。私が「銭形平次捕物控」という捕物小説を書いたのは、昭和六年ごろで、「オール読物」の創刊と同時であった。最初は勿論六回と十二回でよす積もりであったが、調子に乗って十何年か書き続け(その間半歳だけ休んだが)戦争末期のオールの廃刊までに、実に百五十五回と書き続けた。その後オールの復活とともにまた書き続けているし「新報知」その他の新聞雑誌に書いたのを加えると、銭形だけで、ざっと三百二十篇くらいにはなっているだろう。ほかに「池田大助捕伽記」が約ノ、備鴬勧次、平柄銀次響も吉三などの捕物帳がそれぞれ五六篇ずつ・総計四百二慕或9捕物小説を書いているだろうと思う・我ながらし’ささか呆れ返つ事いるカミ・知大佛次郎氏に逢ってその言舌力・出ると、大佛氏は「人間業じゃないね」と酢っぽい顔をしていた。化物扱いされるようになれば、作者もまことに本懐の至りだ。将棋の木村名人は・+数年間・鴨弊並べていた友人の一人だが・あの人は第一級の探偵小説ファンで、「あんな誰計をどうして考えるのだ」と幾度も私に訊いた。「詰将棋の題を考えるようなものさ」といつでも私の答はきまっていた。ある科学者が、曼顎駆9藷に出したとき・私はこう答えた。「数学の問題を考えるようなものですよ。X=0から逆に考えていくのだ」と。 私の先生は、生前一度もお目に掛かったことのない岡本綺堂先生であったといって宜い・私の「銭形平次捕物控」は・「半七捕殉叢されて書いたもので、私1よ筆が行き詰まると、今でも「半七捕物帳」を出して何麺ともなく読んでいる。「半七捕物帳」は探偵小説としては淡いものだが、江戸時代の情緒を描いていったあの背景は素晴らしく・芸術品としても、かなり高いものだと信じている。 |
青下線は”ふりがな”が文章内に混ざっている箇所。 オレンジ下線は誤認識部分。 ・「激」の文字が認識されていなかった。 | “ふりがな”は完全にスルーして認識していない。 誤った変換が多い。 |
精度はぼぼ100% 有料アプリと比較しても精度は高い!
誤認識はぼぼ回避されていることが良くわかります。
“ふりがな”の処理を除けば、ほぼ完璧。ふりがなを完璧にスルーしていた点では有料アプリの方に軍配が上がりますね。Googleでは”ふりがな”も認識するものの、そのテキスト化した位置が分かりにくいですね。
ただ精度はメチャクチャ凄いですよね。だって私が試した数種類のOCRアプリの中で最も優秀だった980円の有料アプリよりも精度が高かったんですから。
Google ドキュメントでのOCR化する方法と使い方のポイント
Google ドライブにログインしマイドライブの上で右クリックすると以下のようにアップロード選択画面が出ますのでJPGやPNG、PDFなどのファイル等を選択します。マイドライブの上にドラック&ドロップでもOKです。
PDFは複数ページのものでもOKです。
テキストに変換できるのは、「JPEG・PNG・GIF・PDF」ファイルのみです。
アップロードはファイルごとでもフォルダ単位でも可能。ファイルも複数一括でアップロードできます。
アップロードされたものは最初のファイル形式のままで、まだOCR化はされていません。
OCR化したいファイルの上で右クリック。
「アプリで開く」→「Googleドキュメント」を選択しクリック。
あとは数秒まてばドキュメント形式に変換されOCR化されたテキストが出てきます。
上のキャプチャ画像のように、
・写真データ上で右クリック→アプリで開く→Googleドキュメント
すると以下のようにOCR化されたドキュメントを開くことが可能になります。
もしもテキスト化出来ない場合は以下のポイントをチェック
Google ドライブの右上にある「歯車マーク」をクリックして設定画面を開きます。
その中の「アップロードしたファイルの変換」にチェックを入れます。
チェックを入れると、アップロードしたファイルをGoogleドキュメントエディタ形式に変換してくれるようになります。
ステップ1で開いた設定画面内に「言語」の項目があります。そこの「言語設定を変更」をクリックし、既定の言語を確認してみてくだい。OCR化したい言語に設定します。
この2点さえ間違ってなければOCR化は成功するはずです。
Googleドキュメントを開こうとした時にエラーになる場合は時間をあけて再度試してみてくださいね。
Google公式による注意点
Googleドライブヘルプに使用方法が以下のように書かれています。
このポイントに注意することでOCRの認識精度が更に高まると思います。このポイントを全て守らなくてもOCRは可能です。より精度が高まるよという感じだと思います。
- 形式はPDFまたは写真ファイル(.jpeg、.png、.gif)を使用する
- ファイルサイズ: ファイルは 2 MB 以下にします
- 解像度: テキストの高さは 10 ピクセル以上にします。
- 向き: ドキュメントは正しい向きにします。画像の向きが正しくない場合は、回転させてから Google ドライブにアップロードします。
- 言語: Google ドライブはドキュメントの言語を検出します。
- フォントと文字セット: Arial や Times New Roman などの一般的なフォントを使用します。
- 画質: 明るさが均一でコントラストがはっきりしたシャープな画像を使用します。
参照元:PDF や写真のファイルをテキストに変換する
GoogleドキュメントのOCRは進化し続けている! 過去のOCR結果と比較
7年前に行ったOCRの結果と2022年に行った結果を比べてみようと思います。
使用した画像は同じ写真です。
過去に誤認識していた箇所が正確に認識されていることが分かります。凄い。常に進化し続けていることが証明されました。
本当に優秀ですね~。
使用した画像は下のキャプチャー画像。文章が長いので冒頭部分だけで比較してみます。
7年前のGoogleドキュメントOCR | 2022年のGoogleドキュメントOCR |
---|---|
吾輩は猫である。 名前はまだ無い〝 どこで生れたかとんと見当けんとうがつかぬ。何でも薄暗いじめじめした所でニャーニャ–泣 いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞く とそれは書生という人間中でー番澤悪どうあくな種族であったそうだ〝 この書生というのは時々 我々を捕つかまえて煮にて食うという話である。 しかしその当時は何という考もなかったから別段恐しいとも思わなかった。 ただ彼の掌てのひらに載せられてスーと持ち上げられた時何だか フワフワした感じがあったばかりである。 | 吾輩は猫である。名前はまだ無い。 どこで生れたかとんと見当けんとうがっかぬ。何でも薄暗いじめじめした所でニャーニ ャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しか もあとで聞くとそれは書生という人間中で一番獰悪どうあくな種族であったそうだ。この 書生というのは時々我々を捕つかまえて煮にて食うという話である。しかしその当時は何 という考もなかったから別段恐しいとも思わなかった。ただ彼の掌てのひらに載せられて スーと持ち上げられた時何だかフワフワした感じがあったばかりである。 |
【精度の感想】 。が〝 に変換されたり。獰が澤と認識されていまったりしています。全体的に現在の最新版のOCRと比べると精度は低いことが分かります。 | 【精度の感想】 「つ」が小文字の「っ」とし認識されています。その点以外はパーフェクト。 過去のOCR機能と比べると精度が向上していることが良くわかります。 |
Google DriveのOCR機能は登場当時からほとんど完璧なほどの出来栄えです。
そんな機能が今でも着実に進化していることに感心すると共に安心感がありますね。常に最高の結果を提供してもらっているんだと。Google Driveは本当にありがたいです。
LINEアプリの文字認識能力も凄いことになっています
また、最近になってLINEアプリでも文字認識機能が追加され、非常に使い勝手良いことが話題になっています。
もしも手軽に既存アプリで文字認識されるのであれば、LINEのアプリが現状では最強だと思います。OCR化したテキストをそのまま翻訳も出来るので非常に便利です。
ここではGoogleドライブのOCRをメインで取り上げるのでLINEアプリの文字認識機能については公式サイトの使い方ページのリンクを貼っておきます。
実はLINEのアプリは手書きの文字も認識してくれます。あまり知られていませんが、これも結構精度高いです。
LINEアプリとGoogleドライブのOCR機能、使い勝手で言えばLINEアプリに軍配が上がりますが、GoogleドライブのOCRは非常に精度が高いです。
気になる方は、両方試してみて下さい。
コメント
コメント一覧 (4件)
SECRET: 0
PASS: 74be16979710d4c4e7c6647856088456
よろしくお願いします。
「間もなくサポートが停止される古いバージョンの Internet Explorer を使用しています。 一部の機能が正しく動作しない場合があります。Google Chrome のような最新のブラウザにアップグレードすることをおすすめします。」
こういうメッセージがでればこのOCR機能は使えないのでしょうか。
また、この機能を使うようにするにはなにかソフトをDLしなければならないのですか。
SECRET: 0
PASS: 74be16979710d4c4e7c6647856088456
ちゃんぺ様
コメントの返信が大変遅くなり申し訳ありませんm(__)m
コメントが滅多に付かないブログなものですから確認作業をたまにしかしておらず・・・。反省。
さて、古いIEの場合はどうなるか?という点ですが私の環境で試すことが出来ないので分からないのですが、アップロードさえ出来ればOCRは可能だと思うのですが・・・。
アップロードは出来ましたでしょうか?もしも出来ているのにOCR化されていないとなればクロームにする必要はありそうですね。
Google ChromeはGoogleが出しているブラウザソフトですが、そちらの存在は御存知ですか?Google Chrome ダウンロードで検索すればすぐにDLサイトへたどり着くと思いますので、ダウンロードしてお使いいただければと思います。
もしも、まだご不明な点がありましたら、いつでもコメントして下さいね。
SECRET: 0
PASS: d9b1d7db4cd6e70935368a1efb10e377
いつも楽しく拝見しています。上記の記事で質問なのですが
Chromeから、jpgを変換するのチェックボックスをチェックしてアップロードしたのですが、画像がはられたドキュメントが表示されるだけで、2ページ目以降は白紙となってしまいます。
ためしにこのサイトででアップされている文章をアップロードしてみたのですがダメでした。
1週間ほど試しているのですが、サーバー??が落ちてるんでしょうか?
それともこちら側の問題ですか?
試して頂けませんか?
SECRET: 0
PASS: 74be16979710d4c4e7c6647856088456
たしかにグーグルドライブの可能性はすごく感じております。
すごく便利ですし、ただ、使い方をしっかりと学べばもっと利用されると思いますね。自分で試しながらしっかりと学んでいますが!!