画像内の日本語テキストを抽出できる「Online OCR」が無料なのに便利すぎる

PR 2016/3/23 2018/5/31 WEBサービス 25

以前、Google Keepで英字テキストを抽出する方法を書きました。

ブラウザのみで画像内のテキストを手軽に抽出する方法（※英数字のみ）

先日、Google Keepに画像の文字列をテキストに変換する機能が追加されました。それで、早速使ってみたところ、英数字のみ...

nelog.jp

2015-04-14 16:51

ただ、Google keepでは日本語のテキストを抽出する事はできませんでした。

けれど昨日、Online OCRという無料のOCRツールを知って使ってみたら、日本語もバリバリ抽出してくれ、何かと捗りそうな便利ツールだったので紹介です。

Online OCRとは

Online OCRは、46ヶ国の言語に対応して画像からテキストを抽出することができる無料のオンラインOCRツールです。

登録なしでの利用

現在、登録なしの状態で、15MBまでなら以下の形式の単一ファイルを読み込むことができます。

PDF (単一ページ)
TIF/TIFF (単一ページ)
JPEG/JPG
BMP
PNG
GIF

そして、以下の形式で出力することができます。

Microsoft Excel (xlsx)
Microsoft Word (docx)
プレーンテキスト (txt)

登録なしでも、ライトユーザーであれば十分すぎるくらい便利です。

無料登録をすると

Online OCRは、登録しなくても十分便利なのですが、無料登録を行うことにより、さらにできることの幅が広がります。

以下の形式のファイルを200MBまで読み込むことができるようになります。

PDF (マルチページを含む全てのタイプのPDF)
TIF/TIFF (マルチページTIFFsもサポート)
JPEG/JPG
BMP
PCX
PNG
GIF
ZIP（上記形式を含んだもの）

そして、以下の形式で出力することが出来るようになります。

Adobe PDF
Microsoft Excel 97-2003 (xls)
Microsoft Excel (xlsx)
Microsoft Word 97-2003 (doc)
Microsoft Word (docx)
RTF ドキュメント (rtf)
プレーンテキスト (txt)

無料で、ここまでできるのはもの凄くありがたいのだけど、正直これで運営していけるのかと心配してしまうほどです。

ただし、無料会員の場合は、ページ数の制限など、各種制限があります。基本的に大量のデータを変換しようと思ったら、有料会員登録する必要があります。

テキストの抽出

試しに、日本語のテキスト抽出をいくつか試してみました。

ニュースサイトのスクリーンショットから抽出

試しに、読売新聞にあった子供医療費、国保の国庫負担減「見直しを」という記事の以下の部分をスクリーンショットに撮ってOnline OCRでテキスト化してみます。

画像は、余分なシェアボタンなどはデベロッパーツールなどで削除してあります。

原文は以下。

子供医療費、国保の国庫負担減「見直しを」

厚生労働省の「子どもの医療制度の在り方等に関する検討会」は２２日、子どもの医療費を助成している地方自治体に、国が国民健康保険の国庫負担を減額する措置について、見直すよう求める報告書を了承した。

報告書には「早急に見直すべきとの意見が大勢を占めた」と明記された。政府はこれを受け、５月に策定する「ニッポン１億総活躍プラン」に見直し案を盛り込む方向で調整する。減額措置を廃止した場合、国費で年間約９０億円の財源が必要となる。医療費の増大を懸念する財務省は、見直しに慎重だ。

で、Online OCRでテキスト化した結果が以下です。

子供医療費、国保の国庫負担減「見直しを」

厚生労働省の「子どもの医療制度の在り方等に関する検討会Jは22日、子どもの医療費を助成している地方自治体に、国が国民健康保険の国庫負担を減額する措置について、見直すよう求める報告書を了承した。

報告書には「早急に見直すべきとの意見が大勢を占めた」と明記された。政府はこれを受け、S月に策定する「ニッポン1 億総活躍プラン」に見直し案を盛り込む方向で調整する。減額措置を廃止した場合、国費で年間約go憶円の財源が必要となる。医療費の増大を懸念する財務省は、見直しに慎重だ。

違っている箇所といえば、以下くらいなもんです。

」→J
5月→S月
90億円→go億円

その他にも、余分な半角スペースが入っていたり、全角が半角になっていたりはしますが、これは間違いというほどのものでもないと思います。

縦書きの文から抽出

以下の新聞の切り抜きの縦書き文章も自動で判別して抽出してくれます。

引用：2012年5月30日の読売新聞夕刊

以下が原文。

広島に、ベテラン左腕が
相次いで帰ってきた。プロ
20年目の菊地原毅（37）と、
13年目の河内貴哉（30）。と
もにけがなどで育成選手に
なりながらも、18日に支配
下選手登録され、はい上が
ってきた。2人の意気込み
はリーグ5位と低迷するチ

ムの立て直しにつながる
か。

以下が抽出したものです。

広島に、ベテラン左腕が
相次いで帰ってきた。プロ
20年目の菊地原響（即）と、
B年目の河内貴哉（30）。と
もにけがなどで育成選手に
なりながらも、18日に支配
下選手登録され、はい上が
ってきた。2人の意気込み
はリーグ5位と低迷するチ

ムの立て直しにつながる
か。

これもなかなか良い精度だと思います。

ちなみに、新聞記事の場合、大抵はうまくいくようですが、記事同士の間隔が狭いと、OCRが文章を以下のように続くと判断する場合があるので注意が必要です。

引用：2016年2月17日の釧路新聞

あと、縦書きと横書きが入り混じった文章だと、誤認識を起こしたりするので画像編集ソフトなどで、うまく文章を切り抜いて利用すると良いかもしれません。

電子書籍の引用に

パブリックドメインで青空文庫にもある吾輩は猫であるも抽出してみました。

全部書くと長いので冒頭の部分だけ抽出したのが以下。

わがはい
吾輩は猫である。
名前はまだ無い。
HZとう
どこで生れたかとんと見当がつかぬ。何でも薄暗いじ
めじめした所でニャーニャー泣いていた事だけは記憶し
ている。吾輩はここで始めて人間というものを見た。し
どうあ＜
かもあとで聞くとそれは書生という人間中で一番狩悪な
種族であったそうだ。この書生というのは時々我々を捕
に
えて煮て食うという話である。

当然ながら、ふりがな部分も抽出されてしまいます。けれど、ふりがなの部分を除けば、かなりの高精度でテキストを抽出できます。

英語のテキスト抽出も試してみましたが、かなりの高精度で利用できます。というか、英語の場合は横書きしかなく、ふりがなとかもないので、英字の方が抽出しやすそうな感じです。

Online OCRの使い方

Online OCRは、使い方も簡単です。

主な手順は以下になります。

画像をアップロード
言語を選択
出力形式を選択
確認用の数字を入力（無登録の場合）
変換ボタンを押す

「CONVERT（変換）」ボタンを押すと、以下のようにテキストが出力されます。

無料登録すると

無料登録をすると、以下のような機能を強化されたインターフェースが使えます。

マルチページを一気に変換できたり、読み込めるファイル形式が増えたり、出力ファイル形式が増えたりします。

個人的には、「人による入力かを判別のための数字」を入力しなくて良いのが楽で良いです。

あと、変換した履歴が残るので「あのテキストをもう一度使いたい」となった時には便利かと思います。

無料登録するだけで、これだけの機能が使えるのはありがたいです。

まとめ

このように、Online OCRは無料でありながら便利に使える無料OCRツールです。

画像内の文章を文字起こしする時には、かなり重宝するんじゃないかと思います。

というわけで、「日本語が使える無料OCR WEBツールがないか」なんて場合や「読んだ本を写真にとって手軽に引用文を取得したい」なんて場合には、Online OCRはかなり活躍するんじゃないかと思います。

サイト Online OCR

『画像内の日本語テキストを抽出できる「Online OCR」が無料なのに便利すぎる』へのコメント

名前:BINGE 投稿日：2016/06/30(木) 14:53:28 ID：46b4684d9

今の時代、OCR(文字読み取り)もネットでできるんですね。コンピュータ技術の発展には、驚きです。何せ、世界規模
ＢＩＮＧＥ　binge2.web.fc2.com
名前:わいひら投稿日：2016/06/30(木) 15:34:27 ID：8d8f31036

ほんとに。
10年前では考えられなかったことでも、今では普通にできるようになっていることとかありますよね。
名前:夢の屋投稿日：2016/09/30(金) 18:44:32 ID：d2b018dbb

はじめまして
9/27に「ocr 無料」で検索しましたら、貴サイトにたどり着きました。
寝ログさんの説明の通りに作業を進めましたら、すぐ成功いたしました。
その優れものの性能に驚いています。
本日9/30、Free Online OCRの利用顛末・成果などを下記アドレスのブログでアップしました。
貴サイトの記事に感謝です、どうもありがとうございました。
名前:わいひら投稿日：2016/09/30(金) 20:26:32 ID：d4a251b86

はじめまして。
ブログで記事の紹介をありがとうございます！
Online OCRの性能すごいですよね。無料でこれだけのものが使えるというのが信じられないくらいに。
記事を拝見しましたが、他の無料サイトと比べても精度がいいんですね！
海外サイトでありながら縦書きにも対応しているというのもありがたいですよね。
名前:たま投稿日：2017/01/08(日) 17:41:54 ID：bab679ac8

この記事の情報、とても助かりました。
どうもありがとうございました！
名前:わいひら投稿日：2017/01/09(月) 15:08:42 ID：c18033810

記事がお役に立てたようでよかったです。
このツールは、文字起こしに本当に便利ですよね。
僕は先程も、ブログを書くときに、写真で撮影した文字起こしに使用してしまいました。
名前:おじさん投稿日：2017/02/07(火) 18:22:19 ID：b63909b14

こんにちは、このツールには驚きました。現在ソースネクストの「本格読取り４」を使用していましたが、正直な話このツールのほうが文字認識は優れています。Online OCRの性能すごいです。無料登録しなくても、ほとんどの作業はフリーで賄えます。もっと早く知っていれば有料ソフトは購入しなくても良かったかも！
名前:わいひら投稿日：2017/02/08(水) 22:00:33 ID：018862269

こんにちは。
そんな市販品のソースネクストが販売しているもの以上の認識率とは思いませんでした。
Online OCR自体、かなり素晴らしい認識率ですもんね。
僕自身今でも「こんな高精度でかなりのサイズを変換できるものを無料で利用しちゃっていいの？」と思います。
有料ソフトよりも、使い勝手が良いとなれば、今後買うことは確かにないかも。
名前:jshong 投稿日：2017/03/12(日) 16:54:58 ID：989c34f42

こんなに精度の高い無料ツール、久しぶりです。とても良いものを紹介してくださって、ありがとうございます。日々の仕事がメチャ楽になります。
名前:わいひら投稿日：2017/03/12(日) 19:35:58 ID：0402ecf3d

これを無料で使わせてもらえるのは本当にありがたいですよね。
僕も、結構画像の文字起こしで使わせてもらっています。
名前:藤谷美和子投稿日：2018/05/30(水) 05:56:43 ID：f5027d8c7

メンバー登録した上で、実際に使用して判明したのですが情報にミスがあります。

メンバー登録した理由は、複数ページの中国語PDF（PDF内の文字がアウトライン化されてるもの）を４ファイル変換したかったからです。おそらく元々はイラストレーターで作成されたPDFファイルだと思われます。グーグルドライブなどで変換しようとしても不可能だったのでこのページに辿り着きました。

メンバー登録しないと複数ページのPDFファイルを変換できないのですが、そして（現時点では）200MBまでのPDFファイルを変換できるとも記載されていますが、実際にはPDFファイルの変換ページ数で累計５０ページまでの制限があります。これを超えると追加ページを買えと出てしまいます。

メンバーページに過去の変換ページ数が保管されます。たとえば４ページのPDFファイルと２ページのPDFファイルを変換すると、累計で６ページとなります。また私が変換したかった４ファイルのうち、２ファイルはそれぞれ７０ページのPDFファイルであり、これをアップロードすると最初から追加ページを買えと出ます。

要するに無料なのは、１ページのPDFをメンバー登録せずに使用した場合と、累計で５０ページまでのPDFファイルをメンバー登録して使用した場合のみです。
名前:藤谷美和子投稿日：2018/05/30(水) 06:05:02 ID：0b5c266c8

上記に追加で申し訳ありません。結果的に私が変換に使用できたのは２ファイルのみでした。１ファイルは完全に変換できましたが、別の１ファイルは文字化けしていました。？？？と思ってそれぞれをイラストレーターから開いてみたら、無事に変換できた方はもともとアウトライン化されていないものでした。変換できていなかった方は、アウトライン化されてもおらず、質の悪いというか、画像の荒いJPG画像を貼り付けただけのものでした。日本語ファイルでは使用していないので何とも言えませんが、中国語の場合、きれいな文字でなければ変換できないのかもしれません。
名前:わいひら投稿日：2018/05/31(木) 11:44:16 ID：7e5591a22

僕はそこまで大きなデータで利用したことはないので気づきませんでした。記事内に追記しておこうと思います。
名前:ブルージョナサン投稿日：2018/11/14(水) 10:32:38 ID：989c50cda

わいひらさん　こんにちは
ブルージョナサンといいます。

当方でも、このOCRのWEBサービスのレビューをしてみました

もしよろしければ、
私の記事内にわいひらさんのページの
リンクおいてもよろしでしょうか？
https://kakuyasuunyou.info/archives/7418

お暇なときにでも
ご連絡よろしくお願いします。

よいWEBアプリ紹介ありがとうございました。
名前:わいひら投稿日：2018/11/16(金) 22:37:10 ID：7a3015977

こんにちは。
返信が遅れて申しわけありません。

記事紹介していただけるのであれば、むしろありがたいです。
自由にリンクを貼っていただければと思います。
名前:ブルージョナサン投稿日：2018/11/26(月) 17:01:03 ID：9c7342762

リンク許可ありがとうございました。(^ ^)
追記しました。
名前:寺田衛投稿日：2020/03/12(木) 14:17:38 ID：ca410f174

exselで使用したいのですがとりあえず登録しない方法で試してみたいのですがダウンロードの方法を教えてください。
名前:わいひら投稿日：2020/03/14(土) 22:26:10 ID：2c0280140

Excelのことですよね？
こんな感じの設定でできるかと思います。
https://nelog.jp/wp-content/uploads/2020/03/2020-03-14_22h23_42.png
名前:ブルージョナサン投稿日：2020/06/18(木) 06:59:35 ID：11acebef4

わいひらさん、こんにちは
ブルージョナサンです

以前OCRのときに、お世話になりました。
最近も手軽なのでよく使ってます。
ttps://nelog.jp/online-ocr

ということで、
2020年6月ごろOCRをしらべていたら

どうやらGoogleのドキュメント「Googleドキュメント」の
OCRの精度がいいという話を聞き

調べてやってみたら、かなり良かったので
もしよろしければ

追記記事でも、いかがでしょうか(^ ^)

もうしってましたら、読まなくてもOKです。
(音声認識もいいですよ。)
(Excelは実験してません。)

ブルージョナサン

https://kakuyasuunyou.info/archives/14607
名前:わいひら投稿日：2020/06/20(土) 12:32:48 ID：2ec64fee1

こんにちは！
「Googleドキュメント」にOCR機能があるのは、この書き込みで初めて知りました。
後で使ってみたいと思います。

音声認識の精度もいいですよね！
Googleの音声認識は、。とか、の句読点も「まる」とか「てん」で入力できるようになりましたか？
以前は確かできなかったので。
これさえできれば、僕にとってGoogle音声認識や最強かもしません。
名前:わいひら投稿日：2020/06/20(土) 12:44:16 ID：2ec64fee1

というか、「Google ドキュメント」で試せるので、やってみればいいと思って確認してみたのですが、まだ句読点は発声で入力はできないみたいですね^^;
https://www.google.com/intl/ja_jp/docs/about/
これさえあれば最高なんだが。
名前:わいひら投稿日：2020/06/20(土) 12:55:16 ID：2ec64fee1

GoogleドライブでOCRを試してみたら完璧でした。すげぇ…。
名前:ブルージョナサン投稿日：2020/06/23(火) 06:43:19 ID：1a0977533

わいひらさんこんにちは、

>Googleの音声認識は、。とか、の句読点も「まる」とか「てん」で入力できるようになりましたか？

ご存知かもですが、

Appleの音声認識？欠点もありますが、(1分だけ有効)

以下の動画に句読点の話がでてますよ、

参考にされてみてください、

あと、Apple製品は新製品で仕様変更がよくあるので
そこは注意がいるところですね、、、
(お金がかかったり、機能が突然きえたりすることがある、、、)

ひびきさんの　動画のところです(下のほうです)
https://soundability.tokyo/pc/20023/
名前:ブルージョナサン投稿日：2020/06/23(火) 06:58:43 ID：1a0977533

追加です。

突然動画がみれなくなりました？？

動画の上のリンクからもはいれますが
念の為おいておきますね。

ブルージョナサン

https://twitter.com/hashtag/%E9%9F%B3%E5%A3%B0%E6%96%87%E5%AD%97%E5%A4%89%E6%8F%9B?src=hash&ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1263824474635288582&ref_url=https%3A%2F%2Fsoundability.tokyo%2Fpc%2F20023%2F
名前:わいひら投稿日：2020/06/27(土) 13:18:04 ID：f6e513d5e

Appleの音声認識？欠点もありますが、(1分だけ有効)

以下の動画に句読点の話がでてますよ、

アップルだと出来るんですね。
なぜGoogleは実装してくれないんだ。オプション機能で良いのに。