TOPパソコン全般

続・フリーのOCRならGoogle Docs(グーグルドキュメント)が便利。 【驚きの簡単さと高い認識率】

Google DocsがGoogle Driveに名称が変更されOCR化の方法が変更されました。新しい使い方は以下の新しい記事でご確認下さい。

新エントリー  「無料のOCR「Google Drive」が定評のある980円の文字認識アプリに勝利!」

-------------追記ここまで----------



以前フリーで使えるOCRソフトとしてGoogle Docsをご紹介しました。
フリーのOCRならGoogle Docsが便利。日本語の縦書きも認識

その時には新聞記事の認識をテストしました。この時に使用したのは縦書き文字。少し分かりにくいテスト素材でしたので、今回は通常のA4用紙にプリントした文字を認識させて見ました。
驚くべきテスト結果が出ましたのでここで公開します。

使ってみての感想はあまりの便利さ簡単さに驚き。文字の認識に関しても十分実用に耐えうる高さです。

今回テスト素材として使用したのは『吾輩は猫である』の冒頭部分をワードに貼りつけてA4に印刷したもの。
プリントアウトしたA4用紙はカメラで撮影してJpgの画像データにしました。
さて、このJpg画像をどの程度正確に認識してくれるでしょうか。


OCRするには画像をGoogle Docsにアクセスしてアップロード!
アップロードするには2つの方法があります。

・グーグルドキュメント上でファイルもしくはフォルダを選んでクリックする方法。
・もう一つはファイルをドラッグアンドドロップでアップロードする方法もあります。





重要なのはここから
アップロードする時に注意しなければいけない2点


1つ目はアップロードをするときに以下のアップロード設定が自動で開くので
PDFや画像ファイルからテキストをGoogleドキュメントのドキュメントに変換するにチェックを入れること。




もう1つはファイルは2MB以下にしておくこと。
2MBを超えるサイズのデータはエラーになります。「このファイルは大きすぎます。」との表示が出て最大サイズが2MBだと注意されてしまいます。




この2点を守って以下のファイルをアップロードしてみました。


アップロードした直後にはOCRされていてテキスト化されます。
この速さとアップロードするだけで何もしなくてもテキスト化してくれる簡単さには驚きです。

アップロードしたファイルを開くと以下のように表示されます。テキストは下の方に表示されています。




では、どの程度正確にOCRされているのか比べてみようと思います。
元になったテキストデータと、OCRされた後のデータを上下に並べてみました。
(ルビの関係で漢字とひらがなが重複している部分がありますがそれは気にしないで下さい)


比較してみました!

元のテキストデータ

吾輩は猫である。名前はまだ無い。

 どこで生れたかとんと見当けんとうがつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪どうあくな種族であったそうだ。この書生というのは時々我々を捕つかまえて煮にて食うという話である。しかしその当時は何という考もなかったから別段恐しいとも思わなかった。ただ彼の掌てのひらに載せられてスーと持ち上げられた時何だかフワフワした感じがあったばかりである。

OCRデータ ※誤認識された場所は赤字で表示

吾輩は猫である。 名前はまだ無いどこで生れたかとんと見当けんとうがつかぬ。何でも薄暗いじめじめした所でニャーニャ-泣

いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞く

とそれは書生という人間中でー番悪どうあくな種族であったそうだ この書生というのは時々 我々を捕つかまえて煮にて食うという話である。 しかしその当時は何という考もなかったから別段恐しいとも思わなかった。 ただ彼の掌てのひらに載せられてスーと持ち上げられた時何だか フワフワした感じがあったばかりである。


OCRされたテキストデータの冒頭部分だけを比べてみましたが、これだけの文章で間違いが3点だけ。「。」が「”」に変換された箇所が2ヶ所と「」が「澤」と認識されたヶ所の3ヶ所。

ほとんど完璧なほどの出来栄えです。
改行に関しては若干の問題はありますが・・・。それは重要な問題とは思えないですよね。

是非、この素晴らしい無料で使えるOCRソフトとしてGoogle Docsを使ってみて下さいね。





このエントリーをはてなブックマークに追加



パソコン全般 | 2012.04.20 [EDIT]

【関連するタグ】

【最新記事一覧】

12/07   マウントアダプターの世界が奥深い。MFレンズがAFレンズのように使えるアダプターがあるとは・・・
12/05   マルチレンズカメラとシングルレンズカメラは共存共栄で発展!? ユーザーが意識せず使える時代へ
11/28   最近話題のコンピュテーショナル・フォトグラフィーが気になる
11/26   Nikon Z6のISO感度別テストデータ 驚きの高感度ノイズ耐性!
11/20   アサヒカメラでは「写真好きのための法律&マナー SEASON 2」の連載が行われています
11/15   7.67MBのJPEGデータが988KBに!新画像フォーマット「Webp」の実力とphotoshopでの扱い方
11/14   ブログの記事が一瞬にして消えた(T_T) 国際宇宙ステーションから満天の星空を撮影するのが難しいという記事を書いていたのに・・・
11/13   膨大なアナログ写真(フィルムや紙焼き)をデータ化しAIで解析することにより価値を増大させる取り組み
11/12   撮り鉄問題。私が20年前に写真コンテスト審査会場で言われた一言を思い出した。
11/09   Sony a7 III vs Canon EOS R vs Nikon Z7 vs Fuji X-T3を比較したISO高感度ノイズ対決動画など
11/07   写真関連ニュース 約550種類のカメラやレンズが定額制で借り放題のサービスGooPass(グーパス)が登場!など
11/06   写真関連ニュース 新聞社写真部の仕事の舞台裏や送信方法の変遷/フィルムカメラ展など 2018年11月6日

【ポストカード写真】 Photo by 管理人(Orca)

<<【気になるLink】金環日食の撮影方法を富士フィルムが解説 | ホームへ | これからはカメラの写真データを無線で取り込むのが基本になりそうですね>>
よろしくお願いします。
「間もなくサポートが停止される古いバージョンの Internet Explorer を使用しています。 一部の機能が正しく動作しない場合があります。Google Chrome のような最新のブラウザにアップグレードすることをおすすめします。」
こういうメッセージがでればこのOCR機能は使えないのでしょうか。
また、この機能を使うようにするにはなにかソフトをDLしなければならないのですか。
2013/01/09 09:54 | ちゃんぺ #- | [edit]
ちゃんぺ様

コメントの返信が大変遅くなり申し訳ありませんm(__)m
コメントが滅多に付かないブログなものですから確認作業をたまにしかしておらず・・・。反省。

さて、古いIEの場合はどうなるか?という点ですが私の環境で試すことが出来ないので分からないのですが、アップロードさえ出来ればOCRは可能だと思うのですが・・・。

アップロードは出来ましたでしょうか?もしも出来ているのにOCR化されていないとなればクロームにする必要はありそうですね。

Google ChromeはGoogleが出しているブラウザソフトですが、そちらの存在は御存知ですか?Google Chrome ダウンロードで検索すればすぐにDLサイトへたどり着くと思いますので、ダウンロードしてお使いいただければと思います。

もしも、まだご不明な点がありましたら、いつでもコメントして下さいね。
2013/01/23 22:03 | Orca #- | [edit]
いつも楽しく拝見しています。上記の記事で質問なのですが
Chromeから、jpgを変換するのチェックボックスをチェックしてアップロードしたのですが、画像がはられたドキュメントが表示されるだけで、2ページ目以降は白紙となってしまいます。
ためしにこのサイトででアップされている文章をアップロードしてみたのですがダメでした。
1週間ほど試しているのですが、サーバー??が落ちてるんでしょうか?
それともこちら側の問題ですか?
試して頂けませんか?
2013/03/05 16:58 | なむし #LkZag.iM | [edit]
  • 【】
【// :】
| ホームへ |