〈メカオンチ〉画像の文を文字データに変換してみました
あとで読もうと思って、文章の写真を撮っておく。あるいはスキャンしておく。
でも、それをいつか文字に起こそうと思ってはいるものの、面倒くさくて画像ばかりがたまっていく…
みんなそんなもんじゃないですかね。
だからOCRという文字のデータ化?ソフトというものがあるのでしょう。
⇧
図書館で好奇心おもむくままに高テンションで本を借りるも、家に持ち帰ると生活に流され、なかなか落ち着いて読書できず、返却期限が迫ってあわてて気になる内容のページだけスキャン。⇐これ文字データにできると良いな。でも面倒くさー!
なんてことを繰り返していた私は、
この画像の文を文字データに一発変換できるという夢のようなOCRという機能があることを知り、しかもそれが無料でできたりするというので歓喜してチャレンジしましたよ。
で、
「OCR 無料」で検索し、【PDF Candy】という無料ソフトを見つけたんですよ。
これはPDFファイルの画像限定なんですけど、ちょっと手持ちの『文章画像』を文字変換してみたんです。
が、しかし、
画像から抽出された文字の変換ぶりが酷い↓
もはや元の文章の解読が不可能レベル。
これを見て私は無料OCRというものに絶望したのでした。
日本史ものだと通常使われない漢字も多く、より変換が困難なのかも知れませんね。とにかく、自分の手持ちの資料は変換に適さないと悟りました。
⇧ この件以来、OCRで何とかしようという気持ちはすっかり無くなってしまっていました。
が!
先日、他ブログを拝見させていただいたおりに【Google ドキュメント】で画像の文字起こしをしておられ、その変換の正確さとクオリティに目を丸くしました。
なんと、灯台もと暗し?
google という身近なところに優秀なOCRがあったのか!と。
で、
【Googleドキュメント】で画像文字の抽出をさっそく試みました!
その前に、
手持ちの画像をある程度、OCRが文字抽出しやすいように整える必要があることを知りましたので、画像をあるていど整えることにしました。
まず、このように画像の方向が違ってしまっているものは、90度回転させて本来の画像の方向に直さねばなりません。
⇩
縦書きの文字なので、画像をそのように方向修正しました。
そして、
ソフトが混乱する「本文以外の文字」は取り除いた方が良いと思われます。
紫で囲んだ、各ページの上についているタイトルや、ページの数字。これは外したほうが良いですよね。
こんなふうに本文だけを残して周りをカットしてしまうと簡単でした。
私はフォトショップ・エレメンツを使っていますが、ペイントなど他のソフトでもこのぐらいの処理ならできると思われます。
こんな感じに出来ました。
真ん中の本の綴じ目の影もカットするともっとスムーズに文字抽出できるかもしれません。
ちなみに、より背景は白く文字は黒く、そしてぼやけた文字をクッキリさせるほど文字抽出しやすいとのこと。コントラストの調整や、シャープの機能が付いているソフトがあれば、調整しておいた方が良いと思われます。
ほんで、こうして整えた画像をPDFファイルにして保存しました。Jpeg画像でもOKなのですが、私は個人的にPDFファイルを変換したものの方が使い良かったです(後半でPDFとJpegの変換の違いについて書きますね)
……………………………………………
※Googleドキュメントを利用するためには、Googleアカウントが必要です。アカウントをお持ちでない方は作成する必要があります⇩
……………………………………………
で、
Googleのメニューから【Googleドライブ】を開き、左上の「+新規」をクリック。
そして「ファイルのアップロード」をクリックし、
先に作った画像のファイルを選択してアップロード。
すると、ドライブ内に選択した画像のファイルがアップロードされるので、ファイルの画像を「右クリック」。
【アプリで開く】を選択し、【Googleドキュメント】を選択。
自動的にGoogleドキュメントが開き、しばし文字抽出まで待機。
文字が抽出され、ドキュメントに文字が起こされてアップされました。
なかなかに良いクオリティーの文字変換で、感動。けっこう難しい漢字でもちゃんと変換してくれていました♫
で、
上はPDF画像のファイルを文字変換したものですが、 Jpeg画像のファイルを変換するとどうなるかというと⇩
何故か抽出された文字の上に、Jpegの元の画像もUPされています。
私は文字だけ抽出したかったので、無駄に画像のUPされないPDFでの文字変換の方が好きですが、画像も一緒にUPしてほしいという方にはJpegファイルがおススメかも知れません。
ちなみに、
私はOCRでUPされた文字をメモ帳にコピペして、元画像の文章と比較しながらチェックします。
すると、抜けている文字などを発見したりします。文字変換は完ぺきではないんですよね~。漢字にうたれたルビはGoogleドキュメントでは反映されませんし、何より一番やばいのが、数字が勝手に変わっていたりすること。数字が変わるとけっこう意味が変わってしまうんですよね。
私がチェックしたものの中には、何故か「16才」というのが「3才」に変わっていました。16才の少年と3才の幼児では話の意味が変わりすぎます(汗)。
なので、
抽出された文字に安心せず、全文チェックすることをお勧めします。
こうして手順を並べると面倒くさいように思えるかもしれませんが、それでもいちいち自分で文章を書き写すよりはだいぶ早くて楽なんですよね~。
私はPCでしかよう出来ませんが、上手にスマホを使っている方は、スマホでサクッと文字の写真を写し、その画像をgoogleドライブのOCRを使って文字変換されているようです。それができるといろいろ便利ですよね~。
……………………………………………
以上。メカオンチの素人によるOCRチャレンジと、手順の報告でした。
ご参考までに。