画像内の文字を手軽に無料でテキスト変換。

図版_2018_0521N_画像内の文字を手軽にテキスト変換.jpg

20年くらい前はスキャナーを買うと、文字認識OCRソフトがオマケでついてきましたが、いまやスマホアプリやグーグルドライブで気軽に無料で文字認識テキスト変換が出来ます。
この記事では、
◎ グーグルドライブで画像内の文字をテキスト変換
◎ 文字認識率は高いが、最終チェックは欠かせない
をレポートします。
※この記事は2018年8月現在の情報です。ご注意ください。

Google Driveで画像内の文字をテキスト変換

最近はネットニュースのトピックがtwitterでバンバン流れてくるので、非常に便利ですね。今回の情報もtwitterで拾いました。グーグルドライブに画像をアップしてグーグルドキュメントで開くと、自動でOCRしてくれるそうなのです。早速試してみましたが、かなりの認識率です。きっと認識率99%は超えてるのではないでしょうか。


図版02.png


文字認識率は高いが、人間のチェックは欠かさずに

昭和のオヤジなので、ついつい懐かしい思い出話しから入ってしまいますが、20年前にスキャナのオマケについてきた文字認識OCRソフトのお試し版も出来はかなりよく、認識率は95%を超えていたと思います。95%だとかなり精度が高そうに思えますが、実は思った以上に誤変換修正やゴミ変換削除に悩まされます。

現在のグーグルドキュメントの文字認識OCRも文字認識率は高いものの、やはり試した感覚では100文字に1個は要修正部分があります。わかりやすくツイッターで例えれば、1回のツイートに必ず一回は問題が混じっているくらいの確率です。利用目的によりますが、公式な文書に使いたいのであれば、人間の目視によるチェックとメンテは欠かせないでしょうね。

ちなみに、要修正部分というのは漢字の誤変換というわけではなく、絵文字が変な文字に変換されていたり、改行部分に空スペースが挿入されてしまい手直しが必要だったといった内容でした。5種類の画像で試して、漢字そのものの誤変換は1回だけでした。ここまでくると、もう100%の変換率と言ってもいいレベルですが、先ほど述べたような諸々のゴミ変換の修正で、思った以上に修正作業に時間が掛かりますので心得ておきましょう。

少しでも余計な修正を減らすためには、図版の入った文章などは、あらかじめ図版を削除して文字部分だけになるように絞ってクリーンアップしてからテキスト化した方が余計なゴミ変換が減らせます。試してみてください。