読者です 読者をやめる 読者になる 読者になる

うそ〜ん

日記

SmartOCRが業務終了していた。


このソフト, バイトで使う機会があってえらい世話になったのでかなり残念。


いや, あれですよ, 今年の2月頃, バイト先で表計算形式っぽいファイルを紙で渡されまして
これを全部データベースに入れるという仕事があったんですよ。(紙しかなかった)


まず, これをスキャナで取り込んで1枚毎に画像ファイルを作成するわけですが,
問題はこれをどうやってテキストに直すのかってことなんですよねぇ。
枚数が少ないなら別に手で打ってもいいんですが, 何せA4サイズで50枚以上あったので
必然的に何かプログラムで処理しようとか何か変換ツール使ってデータベースに取り込みやすい
ExcelとかCSVの形式に変換しようと思うわけですが, 所詮画像は画像なので
ファイルにはテキストの情報が全くないわけです。
例えばPDFをテキストファイルに変換するツールとかがあるけどあれで変換しても
テキストの情報がないのでまともな情報が抽出できない。
扱うファイル情報は文字としてではなく画像として保存されているのでPDFに変換しても
PDFファイルに保存されている情報もやっぱり画像の情報。バイナリエディタとかで見ると
サパーリな文字がつらつら。この場合, 画像をスキャンして文字かどうか識別する必要が
あるわけですが, そんなもの書くスキルも時間もないのでテキトーに無料なのがないか探す探す。
しかし探しても探しても有料ソフトばかり。埒があかないので見つけた中で
一番安いの(2〜3000円ぐらい?)を上司に「買って下さい」と頼むが, 即却下。


しかたないのでググりまくってツールを探す探す。(いや, 別に遊んでたわけじゃないですよ(^^))
まあ, 文字認識なんて高度なことやってるソフトを無料で配る人なんていないよなあ,
とか思ったり, もうバイト代から引いてでもいいから買ってもらおうとか思い始めた矢先,
見つけたのがSmartOCRですた。


無料版でも一度に複数の画像ファイルをそのままExcelやWord形式に変換してくれるという
出血大サービス。文字認識には時間がかかるのかちょっと遅かったけどね。


これのおかげで多分数週間かかるであろう作業をわずか数時間でこなすことができたわけです。
実際には誤認識したデータを確認, 修正するのに結構時間かかったけど。
でも, 精度は無料版とは思えないほどの出来でしたよ。


無料版でも充分すぎるほど高性能なのがいけなかったのかなあ?
しかし, そうだとするとツールベンダってかなり厳しいような。
最近は無料でも有料なものにひけを取らないのがたくさんあるし,
特にIDEはマイクロソフトも無料版を提供してるぐらいですしねぇ。