以前、Google Keepで英字テキストを抽出する方法を書きました。
ただ、Google keepでは日本語のテキストを抽出する事はできませんでした。
けれど昨日、Online OCRという無料のOCRツールを知って使ってみたら、日本語もバリバリ抽出してくれ、何かと捗りそうな便利ツールだったので紹介です。
目次
Online OCRとは
Online OCRは、46ヶ国の言語に対応して画像からテキストを抽出することができる無料のオンラインOCRツールです。
登録なしでの利用
現在、登録なしの状態で、15MBまでなら以下の形式の単一ファイルを読み込むことができます。
- PDF (単一ページ)
- TIF/TIFF (単一ページ)
- JPEG/JPG
- BMP
- PNG
- GIF
そして、以下の形式で出力することができます。
- Microsoft Excel (xlsx)
- Microsoft Word (docx)
- プレーンテキスト (txt)
登録なしでも、ライトユーザーであれば十分すぎるくらい便利です。
無料登録をすると
Online OCRは、登録しなくても十分便利なのですが、無料登録を行うことにより、さらにできることの幅が広がります。
以下の形式のファイルを200MBまで読み込むことができるようになります。
- PDF (マルチページを含む全てのタイプのPDF)
- TIF/TIFF (マルチページTIFFsもサポート)
- JPEG/JPG
- BMP
- PCX
- PNG
- GIF
- ZIP(上記形式を含んだもの)
そして、以下の形式で出力することが出来るようになります。
- Adobe PDF
- Microsoft Excel 97-2003 (xls)
- Microsoft Excel (xlsx)
- Microsoft Word 97-2003 (doc)
- Microsoft Word (docx)
- RTF ドキュメント (rtf)
- プレーンテキスト (txt)
無料で、ここまでできるのはもの凄くありがたいのだけど、正直これで運営していけるのかと心配してしまうほどです。
テキストの抽出
試しに、日本語のテキスト抽出をいくつか試してみました。
ニュースサイトのスクリーンショットから抽出
試しに、読売新聞にあった子供医療費、国保の国庫負担減「見直しを」という記事の以下の部分をスクリーンショットに撮ってOnline OCRでテキスト化してみます。
原文は以下。
子供医療費、国保の国庫負担減「見直しを」
厚生労働省の「子どもの医療制度の在り方等に関する検討会」は22日、子どもの医療費を助成している地方自治体に、国が国民健康保険の国庫負担を減額する措置について、見直すよう求める報告書を了承した。
報告書には「早急に見直すべきとの意見が大勢を占めた」と明記された。政府はこれを受け、5月に策定する「ニッポン1億総活躍プラン」に見直し案を盛り込む方向で調整する。減額措置を廃止した場合、国費で年間約90億円の財源が必要となる。医療費の増大を懸念する財務省は、見直しに慎重だ。
で、Online OCRでテキスト化した結果が以下です。
子供医療費、国保の国庫負担減「見直しを」
厚生労働省の「子どもの医療制度の在り方等に関する検討会Jは22日、子ども の医療費を助成している地方自治体に、国が国民健康保険の国庫負担を減額す る措置について、見直すよう求める報告書を了承した。
報告書には「早急に見直すべきとの意見が大勢を占めた」と明記された。政府は これを受け、S月に策定する「ニッポン1 億総活躍プラン」に見直し案を盛り込む方 向で調整する。減額措置を廃止した場合、国費で年間約go憶円の財源が必要と なる。医療費の増大を懸念する財務省は、見直しに慎重だ。
違っている箇所といえば、以下くらいなもんです。
- 」→J
- 5月→S月
- 90億円→go億円
その他にも、余分な半角スペースが入っていたり、全角が半角になっていたりはしますが、これは間違いというほどのものでもないと思います。
縦書きの文から抽出
以下の新聞の切り抜きの縦書き文章も自動で判別して抽出してくれます。
以下が原文。
広島に、ベテラン左腕が
相次いで帰ってきた。プロ
20年目の菊地原毅(37)と、
13年目の河内貴哉(30)。と
もにけがなどで育成選手に
なりながらも、18日に支配
下選手登録され、はい上が
ってきた。2人の意気込み
はリーグ5位と低迷するチムの立て直しにつながる
か。
以下が抽出したものです。
広島に、ベテラン左腕が
相次いで帰ってきた。プロ
20年目の菊地原響(即)と、
B年目の河内貴哉(30)。と
もにけがなどで育成選手に
なりながらも、18日に支配
下選手登録され、はい上が
ってきた。2人の意気込み
はリーグ5位と低迷するチムの立て直しにつながる
か。
これもなかなか良い精度だと思います。
ちなみに、新聞記事の場合、大抵はうまくいくようですが、記事同士の間隔が狭いと、OCRが文章を以下のように続くと判断する場合があるので注意が必要です。
あと、縦書きと横書きが入り混じった文章だと、誤認識を起こしたりするので画像編集ソフトなどで、うまく文章を切り抜いて利用すると良いかもしれません。
電子書籍の引用に
パブリックドメインで青空文庫にもある吾輩は猫であるも抽出してみました。
全部書くと長いので冒頭の部分だけ抽出したのが以下。
わがはい
吾輩は猫である。
名前はまだ無い。
HZとう
どこで生れたかとんと見当がつかぬ。何でも薄暗いじ
めじめした所でニャーニャー泣いていた事だけは記憶し
ている。吾輩はここで始めて人間というものを見た。し
どうあ<
かもあとで聞くとそれは書生という人間中で一番狩悪な
種族であったそうだ。この書生というのは時々我々を捕
に
えて煮て食うという話である。
当然ながら、ふりがな部分も抽出されてしまいます。けれど、ふりがなの部分を除けば、かなりの高精度でテキストを抽出できます。
Online OCRの使い方
Online OCRは、使い方も簡単です。
主な手順は以下になります。
- 画像をアップロード
- 言語を選択
- 出力形式を選択
- 確認用の数字を入力(無登録の場合)
- 変換ボタンを押す
「CONVERT(変換)」ボタンを押すと、以下のようにテキストが出力されます。
無料登録すると
無料登録をすると、以下のような機能を強化されたインターフェースが使えます。
マルチページを一気に変換できたり、読み込めるファイル形式が増えたり、出力ファイル形式が増えたりします。
個人的には、「人による入力かを判別のための数字」を入力しなくて良いのが楽で良いです。
あと、変換した履歴が残るので「あのテキストをもう一度使いたい」となった時には便利かと思います。
無料登録するだけで、これだけの機能が使えるのはありがたいです。
まとめ
このように、Online OCRは無料でありながら便利に使える無料OCRツールです。
画像内の文章を文字起こしする時には、かなり重宝するんじゃないかと思います。
というわけで、「日本語が使える無料OCR WEBツールがないか」なんて場合や「読んだ本を写真にとって手軽に引用文を取得したい」なんて場合には、Online OCRはかなり活躍するんじゃないかと思います。
サイト Online OCR
今の時代、OCR(文字読み取り)もネットでできるんですね。コンピュータ技術の発展には、驚きです。何せ、世界規模
BINGE binge2.web.fc2.com