無料でOCR(光学文字認識)したかったらGoogleDriveを試してみるといいかもね

SNS

昨日ツイッターのフォロワーさんがTLで「人を殴ったらかなり痛いくらいの紙書類の束渡されて、一晩で再編集とか死ぬる」とおっしゃってまして、まだまだ紙ベースの業務進行ってありますしPCに取り込んで効率的にさばくにはどうしたらいいだろうなーと思いまして。

調べてみたところ、GoogleDriveでもテキストスキャンした画像ファイルをOCR変換する機能があるらしくちょっとサンプル作って試して見ましたので本日はそのレビューを。

【追記】縦書き版の検証記事も書いときました。あわせて参考にどうぞ。

GoogleDriveOCR、縦書きだったらどうなのよ?

Google Drive OCRの使い方

GoogleDrive利用するにはとりあえずGoogleアカウント必要なのでない方はまずそちらのご用意を。GoogleDriveの導入については過去に

サービス開始したオンラインストレージ『Google Drive』の導入まとめ

Google Driveで他のユーザーとファイルを共有する方法

この辺の記事でまとめておりますのでご存じない方はあわせて参考にしていただければと。

で、本題のOCR(光学文字認識)の方法ですが基本的にテキスト入り画像ファイルをアップロードすると完了した時点で自動的に文字認識する機能がありますので特に面倒くさいことはないのですが、一応設定などがありますので先にそちらを確認しておきましょう。

GoogleDriveのページで右上の設定アイコン(歯車)から【アップロード設定】-【アップロードしたPDFや画像ファイルからテキストに変換】にチェックを入れておきます。事前にやっておくことはこれだけです。実際にファイルをアップロードしてみましょう。

左上のアップロードボタンから【ファイル】を選択します。ファイル選択ダイアログが開くのでアップしてテキスト変換かけたい画像ファイルを指定します。

設定のほうで【アップロード前に、毎回設定を確認する】をチェックしておくと設定確認のダイアログも表示されます。変換の言語が【日本語】になっていることを確認しておきましょう。ちなみに今回はこんな画像。

こちらのニュース記事からテキスト引っ張ってきて画像化したものです。ピクセル等倍だと

こんな感じです。フォトショップでテキスト貼りこんでラスタライズした後、ノイズかけて自由変形で行を若干斜めにしたり【海の波紋】フィルタで若干ゆがませたりしてみました。

画像サイズは1,240×1754pxでA4用紙を150dpiでスキャンした程度を想定しております。ノイズからへんなものキャッチしないか下のほうの空白もそのままノイズかけてます。さてこの画像を選択すると

こんな感じでプログレスバーが表示されますのでしばし待ちます。完了するとマイドライブのファイルリストに

今指定したファイルが表示されましたね。ファイル名の前の青アイコンはGoogleDocのドキュメント用ファイルなので変換はされているようです。ちなみに画像ファイルのまんまだと赤いアイコンです。ファイル名をクリックして見ましょう。するとGoogleDocが立ち上がり

このように先ほどアップロード・変換されたファイルが開きます。文章の最初に変換元の画像が挿入されていますが下のほうにスクロールすると

変換されたテキストが一緒についてきます。ここからテキストコピペすればタイピングの手間もだいぶ減るってワケです。

テキスト認識精度

実際のところテキスト認識の精度はどんなもんでしょうか。

変換前のテキストは以下の通り。

 野田佳彦首相は十四日、衆院を十六日に解散することを決めた。衆院選は十二月四日公示-十六日投開票の日程で実施される。民主党が政権交代を果たした二〇〇九年八月以来、約三年ぶりで、東京都知事選と投票日が重なるダブル選挙となる。脱原発や消費税増税、憲法改正の是非が主な争点。なかなか進まない東日本大震災の被災地の再建や東京電力福島第一原発事故の処理を投げ出し、震災後、初の本格的な国政選挙に突入する。 

 首相は十四日の党首討論で、自民党の安倍晋三総裁や公明党の山口那津男代表に対し、赤字国債の発行を可能にする公債発行特例法案の十六日までの成立や、最高裁が「違憲状態」とした衆院小選挙区の「一票の格差」是正と衆院議員の定数削減に協力を要請した。

 さらに、首相は定数削減が今国会でまとまらない場合、来年の通常国会で実現し、それまでの間は国会議員歳費を二割削減するよう提案し「必ずやると決断してもらえるなら、十六日に解散してもいい」と表明した。

 安倍氏は党首討論では確約を避けたが、その後、党幹部と協議し、首相の提案を受け入れる方針を決めた。安倍氏は都内の講演で「首相の提案に全面的に協力する」と述べた。山口氏も記者会見で同様の考えを示した。

 これを受け、政府・民主党は三役会議を開き、選挙日程を決定。安住淳幹事長代行は議員歳費を二割削減する法案を十五日に国会へ提出する方針を記者団に明らかにした。

 一方、民主、自民、公明三党は十四日、衆院の「一票の格差」是正のため小選挙区を「〇増五減」する法案と公債法案を十五日の衆院本会議で可決し、参院に送付する方針で大筋合意した。十六日の参院本会議などで成立する運びだ。「〇増五減」法案は成立するが、区割りの見直しが間に合わず、今度の衆院選は現行のまま実施される。

で、変換後がこちら。

野田佳彦首相は十四日、 衆院を十六日に解散するこ とを決めた。 衆院選は十二月四日公示十六日投 開票の日程で実施される。 民主党が政権交代を果た した二〇〇九年八月以来、 約三年ぶりで、 東京都知 事選と投票日が重なるダブル選挙となる。 脱原発や消費税増税、 憲法改正の是非が主な争点。 なかなか 進ま な毛丶東日本大震災の被災地の再建や東京電力福島第一原発事故の処理を投げ出 し、 震災後、 初の本 格的な国政選挙に突入する。

首相は十四日の党首討論で、 自民党の安倍晋三総裁や公明党の山口那津男代表に対し、 赤字国債の発 行を可能にする公債発行特例法案の十六日までの成立や、 最高裁が 「違憲状態」 と した衆院小選挙区の 「票の格差」 是正と衆院議員の定数削減に協力を要請した。

さ らに、 首相は定数削減が今国会でまとまらない場合、 来年の通常国会で実現し、 それまでの間は国 会議員歳費を二割削減するよう提案し 「必ずやると決断してもらえるなら、 十六日に解散してもいい」 と表明した。

安倍氏は党首討論では確約を避けたが、 その後、 党幹部と協議し、 首相の提案を受け入れる方針を決 めた。 安倍氏は都内の講演で 「首相の提案に全面的に協力する」 と述べた。 山口氏も記者会見で同様の 考えを示した。

これを受け、 政府 民主党は三役会議を開き、 選挙日程を決定。 安住淳幹事長代行は議員歳費を二割 削減する法案を十五日に国会へ提出する方針を記者団に明らかに した

一方、 民主、 自民、 公明三党は十四日、 衆院の 「票の格差」 是正のため小選挙区を 「〇増五減」 す る法案と公債法案を十五日の衆院本会議で可決し、 参院に送付する方針で大筋合意した。 十六日の参院 本会議などで成立する運びだ。 「〇増五」 法案は成立するが、 区割りの見直しが間に合わず、 今度の

衆院選は現行のま ま実施されるG

赤字で示した部分が誤変換部分です。今回のサンプルでは元テキストが740文字ほど、そのうち誤りが8箇所8文字。約1%ほどの誤認識でした。その他最後の行でもともとない改行が1箇所入ってますね。

フレーズ単位で全然違う言葉になってたり、もうちょっとグズグズになるかと思ってたんですがこれだとかなり使い物になりそうですね。スキャンデータの質にもよるでしょうがこれなら十分実用レベルといって良いんじゃないでしょうか。

誤認識のほかに何箇所か不要なホワイトスペースも混入したりしてますが、これはテキストエディタでまとめて削除(置換)出来ると思うので問題にするレベルでは無さそうです。

まとめ

というわけでGoogleDriveOCRを実際に使ってみたレビューでした。

フリーであれ有償のソフトであれ変換率100%ってことは普通ない(特に日本語の場合)と思うので、さしあたって常用するOCRソフトを用意してない人はGoogleDrive使うのも有効な方法の一つだと思います。

なお、アップロードして変換をかけられるファイルのサイズは2MBと上限があるらしいのでスキャンするときの取り回しに若干注意が必要ですが、今回のサンプルで150dpi相当でもそれなりの精度で変換できてますのでクセがつかめればスキャン解像度も必要最小限で十分だと思います。

んじゃまた。




コメント

タイトルとURLをコピーしました