画像内の日本語テキストを抽出できる「Online OCR」が無料なのに便利すぎる

以前、Google Keepで英字テキストを抽出する方法を書きました。

先日、Google Keepに画像の文字列をテキストに変換する機能が追加されました。それで、早速使ってみたところ、英数字のみ...

ただ、Google keepでは日本語のテキストを抽出する事はできませんでした。

けれど昨日、Online OCRという無料のOCRツールを知って使ってみたら、日本語もバリバリ抽出してくれ、何かと捗りそうな便利ツールだったので紹介です。

スポンサーリンク
レクタングル(大)広告

Online OCRとは

Free Online OCR - convert scanned PDF and images to Word, JPEG to Word

Online OCRは、46ヶ国の言語に対応して画像からテキストを抽出することができる無料のオンラインOCRツールです。

登録なしでの利用

現在、登録なしの状態で、15MBまでなら以下の形式の単一ファイルを読み込むことができます。

  • PDF (単一ページ)
  • TIF/TIFF (単一ページ)
  • JPEG/JPG
  • BMP
  • PNG
  • GIF

そして、以下の形式で出力することができます。

  • Microsoft Excel (xlsx)
  • Microsoft Word (docx)
  • プレーンテキスト (txt)

登録なしでも、ライトユーザーであれば十分すぎるくらい便利です。

無料登録をすると

Online OCRは、登録しなくても十分便利なのですが、無料登録を行うことにより、さらにできることの幅が広がります。

以下の形式のファイルを200MBまで読み込むことができるようになります。

  • PDF (マルチページを含む全てのタイプのPDF)
  • TIF/TIFF (マルチページTIFFsもサポート)
  • JPEG/JPG
  • BMP
  • PCX
  • PNG
  • GIF
  • ZIP(上記形式を含んだもの)

そして、以下の形式で出力することが出来るようになります。

  • Adobe PDF
  • Microsoft Excel 97-2003 (xls)
  • Microsoft Excel (xlsx)
  • Microsoft Word 97-2003 (doc)
  • Microsoft Word (docx)
  • RTF ドキュメント (rtf)
  • プレーンテキスト (txt)

無料で、ここまでできるのはもの凄くありがたいのだけど、正直これで運営していけるのかと心配してしまうほどです。

ただし、無料会員の場合は、ページ数の制限など、各種制限があります。基本的に大量のデータを変換しようと思ったら、有料会員登録する必要があります。

テキストの抽出

試しに、日本語のテキスト抽出をいくつか試してみました。

ニュースサイトのスクリーンショットから抽出

試しに、読売新聞にあった子供医療費、国保の国庫負担減「見直しを」という記事の以下の部分をスクリーンショットに撮ってOnline OCRでテキスト化してみます。

子供医療費、国保の国庫負担減「見直しを」

画像は、余分なシェアボタンなどはデベロッパーツールなどで削除してあります。

原文は以下。

子供医療費、国保の国庫負担減「見直しを」

厚生労働省の「子どもの医療制度の在り方等に関する検討会は22日、子どもの医療費を助成している地方自治体に、国が国民健康保険の国庫負担を減額する措置について、見直すよう求める報告書を了承した。

報告書には「早急に見直すべきとの意見が大勢を占めた」と明記された。政府はこれを受け、月に策定する「ニッポン1億総活躍プラン」に見直し案を盛り込む方向で調整する。減額措置を廃止した場合、国費で年間約90億円の財源が必要となる。医療費の増大を懸念する財務省は、見直しに慎重だ。

で、Online OCRでテキスト化した結果が以下です。

子供医療費、国保の国庫負担減「見直しを」

厚生労働省の「子どもの医療制度の在り方等に関する検討会Jは22日、子ども の医療費を助成している地方自治体に、国が国民健康保険の国庫負担を減額す る措置について、見直すよう求める報告書を了承した。

報告書には「早急に見直すべきとの意見が大勢を占めた」と明記された。政府は これを受け、S月に策定する「ニッポン1 億総活躍プラン」に見直し案を盛り込む方 向で調整する。減額措置を廃止した場合、国費で年間約go憶円の財源が必要と なる。医療費の増大を懸念する財務省は、見直しに慎重だ。

違っている箇所といえば、以下くらいなもんです。

  • 」→J
  • 5月→S月
  • 90億円→go億円

その他にも、余分な半角スペースが入っていたり、全角が半角になっていたりはしますが、これは間違いというほどのものでもないと思います。

縦書きの文から抽出

以下の新聞の切り抜きの縦書き文章も自動で判別して抽出してくれます。

広島にベテラン左腕が相次いで帰ってきた
引用:2012年5月30日の読売新聞夕刊

以下が原文。

広島に、ベテラン左腕が
相次いで帰ってきた。プロ
20年目の菊地原37)と、
13年目の河内貴哉(30)。と
もにけがなどで育成選手に
なりながらも、18日に支配
下選手登録され、はい上が
ってきた。2人の意気込み
はリーグ5位と低迷するチ

ムの立て直しにつながる
か。

以下が抽出したものです。

広島に、ベテラン左腕が
相次いで帰ってきた。プロ
20年目の菊地原)と、
B年目の河内貴哉(30)。と
もにけがなどで育成選手に
なりながらも、18日に支配
下選手登録され、はい上が
ってきた。2人の意気込み
はリーグ5位と低迷するチ

ムの立て直しにつながる
か。

これもなかなか良い精度だと思います。

ちなみに、新聞記事の場合、大抵はうまくいくようですが、記事同士の間隔が狭いと、OCRが文章を以下のように続くと判断する場合があるので注意が必要です。

阿寒産の味覚
引用:2016年2月17日の釧路新聞

あと、縦書きと横書きが入り混じった文章だと、誤認識を起こしたりするので画像編集ソフトなどで、うまく文章を切り抜いて利用すると良いかもしれません。

電子書籍の引用に

パブリックドメインで青空文庫にもある吾輩は猫であるも抽出してみました。

我輩は猫である

全部書くと長いので冒頭の部分だけ抽出したのが以下。

わがはい
吾輩は猫である。
名前はまだ無い。
HZとう
どこで生れたかとんと見当がつかぬ。何でも薄暗いじ
めじめした所でニャーニャー泣いていた事だけは記憶し
ている。吾輩はここで始めて人間というものを見た。し
どうあ<
かもあとで聞くとそれは書生という人間中で一番狩悪な
種族であったそうだ。この書生というのは時々我々を捕

えて煮て食うという話である。

当然ながら、ふりがな部分も抽出されてしまいます。けれど、ふりがなの部分を除けば、かなりの高精度でテキストを抽出できます。

英語のテキスト抽出も試してみましたが、かなりの高精度で利用できます。というか、英語の場合は横書きしかなく、ふりがなとかもないので、英字の方が抽出しやすそうな感じです。

Online OCRの使い方

Online OCRは、使い方も簡単です。

主な手順は以下になります。

  1. 画像をアップロード
  2. 言語を選択
  3. 出力形式を選択
  4. 確認用の数字を入力(無登録の場合)
  5. 変換ボタンを押す

Online OCRの使用手順

「CONVERT(変換)」ボタンを押すと、以下のようにテキストが出力されます。

テキストが出力される

無料登録すると

無料登録をすると、以下のような機能を強化されたインターフェースが使えます。

無料登録をして機能が強化された状態

マルチページを一気に変換できたり、読み込めるファイル形式が増えたり、出力ファイル形式が増えたりします。

個人的には、「人による入力かを判別のための数字」を入力しなくて良いのが楽で良いです。

あと、変換した履歴が残るので「あのテキストをもう一度使いたい」となった時には便利かと思います。

Online OCRに無料登録すると変換履歴が残る

無料登録するだけで、これだけの機能が使えるのはありがたいです。

まとめ

このように、Online OCRは無料でありながら便利に使える無料OCRツールです。

画像内の文章を文字起こしする時には、かなり重宝するんじゃないかと思います。

というわけで、「日本語が使える無料OCR WEBツールがないか」なんて場合や「読んだ本を写真にとって手軽に引用文を取得したい」なんて場合には、Online OCRはかなり活躍するんじゃないかと思います。

サイト Online OCR

スポンサーリンク
レクタングル(大)広告
レクタングル(大)広告

スポンサーリンク

『画像内の日本語テキストを抽出できる「Online OCR」が無料なのに便利すぎる』へのコメント

  1. 名前:BINGE 投稿日:2016/06/30(木) 14:53:28 ID:46b4684d9

    今の時代、OCR(文字読み取り)もネットでできるんですね。コンピュータ技術の発展には、驚きです。何せ、世界規模
    BINGE binge2.web.fc2.com

  2. アバター画像 名前:わいひら 投稿日:2016/06/30(木) 15:34:27 ID:8d8f31036

    ほんとに。
    10年前では考えられなかったことでも、今では普通にできるようになっていることとかありますよね。

  3. 名前:夢の屋 投稿日:2016/09/30(金) 18:44:32 ID:d2b018dbb

    はじめまして
    9/27に「ocr 無料」で検索しましたら、貴サイトにたどり着きました。
    寝ログさんの説明の通りに作業を進めましたら、すぐ成功いたしました。
    その優れものの性能に驚いています。
    本日9/30、Free Online OCRの利用顛末・成果などを下記アドレスのブログでアップしました。
    貴サイトの記事に感謝です、どうもありがとうございました。

  4. アバター画像 名前:わいひら 投稿日:2016/09/30(金) 20:26:32 ID:d4a251b86

    はじめまして。
    ブログで記事の紹介をありがとうございます!
    Online OCRの性能すごいですよね。無料でこれだけのものが使えるというのが信じられないくらいに。
    記事を拝見しましたが、他の無料サイトと比べても精度がいいんですね!
    海外サイトでありながら縦書きにも対応しているというのもありがたいですよね。

  5. 名前:たま 投稿日:2017/01/08(日) 17:41:54 ID:bab679ac8

    この記事の情報、とても助かりました。
    どうもありがとうございました!

  6. アバター画像 名前:わいひら 投稿日:2017/01/09(月) 15:08:42 ID:c18033810

    記事がお役に立てたようでよかったです。
    このツールは、文字起こしに本当に便利ですよね。
    僕は先程も、ブログを書くときに、写真で撮影した文字起こしに使用してしまいました。

  7. 名前:おじさん 投稿日:2017/02/07(火) 18:22:19 ID:b63909b14

    こんにちは、このツールには驚きました。現在ソースネクストの「本格読取り4」を使用していましたが、正直な話このツールのほうが文字認識は優れています。Online OCRの性能すごいです。無料登録しなくても、ほとんどの作業はフリーで賄えます。もっと早く知っていれば有料ソフトは購入しなくても良かったかも!

  8. アバター画像 名前:わいひら 投稿日:2017/02/08(水) 22:00:33 ID:018862269

    こんにちは。
    そんな市販品のソースネクストが販売しているもの以上の認識率とは思いませんでした。
    Online OCR自体、かなり素晴らしい認識率ですもんね。
    僕自身今でも「こんな高精度でかなりのサイズを変換できるものを無料で利用しちゃっていいの?」と思います。
    有料ソフトよりも、使い勝手が良いとなれば、今後買うことは確かにないかも。

  9. 名前:jshong 投稿日:2017/03/12(日) 16:54:58 ID:989c34f42

    こんなに精度の高い無料ツール、久しぶりです。とても良いものを紹介してくださって、ありがとうございます。日々の仕事がメチャ楽になります。

  10. アバター画像 名前:わいひら 投稿日:2017/03/12(日) 19:35:58 ID:0402ecf3d

    これを無料で使わせてもらえるのは本当にありがたいですよね。
    僕も、結構画像の文字起こしで使わせてもらっています。

  11. 名前:藤谷美和子 投稿日:2018/05/30(水) 05:56:43 ID:f5027d8c7

    メンバー登録した上で、実際に使用して判明したのですが情報にミスがあります。

    メンバー登録した理由は、複数ページの中国語PDF(PDF内の文字がアウトライン化されてるもの)を4ファイル変換したかったからです。おそらく元々はイラストレーターで作成されたPDFファイルだと思われます。グーグルドライブなどで変換しようとしても不可能だったのでこのページに辿り着きました。

    メンバー登録しないと複数ページのPDFファイルを変換できないのですが、そして(現時点では)200MBまでのPDFファイルを変換できるとも記載されていますが、実際にはPDFファイルの変換ページ数で累計50ページまでの制限があります。これを超えると追加ページを買えと出てしまいます。

    メンバーページに過去の変換ページ数が保管されます。たとえば4ページのPDFファイルと2ページのPDFファイルを変換すると、累計で6ページとなります。また私が変換したかった4ファイルのうち、2ファイルはそれぞれ70ページのPDFファイルであり、これをアップロードすると最初から追加ページを買えと出ます。

    要するに無料なのは、1ページのPDFをメンバー登録せずに使用した場合と、累計で50ページまでのPDFファイルをメンバー登録して使用した場合のみです。

  12. 名前:藤谷美和子 投稿日:2018/05/30(水) 06:05:02 ID:0b5c266c8

    上記に追加で申し訳ありません。結果的に私が変換に使用できたのは2ファイルのみでした。1ファイルは完全に変換できましたが、別の1ファイルは文字化けしていました。???と思ってそれぞれをイラストレーターから開いてみたら、無事に変換できた方はもともとアウトライン化されていないものでした。変換できていなかった方は、アウトライン化されてもおらず、質の悪いというか、画像の荒いJPG画像を貼り付けただけのものでした。日本語ファイルでは使用していないので何とも言えませんが、中国語の場合、きれいな文字でなければ変換できないのかもしれません。

  13. アバター画像 名前:わいひら 投稿日:2018/05/31(木) 11:44:16 ID:7e5591a22

    僕はそこまで大きなデータで利用したことはないので気づきませんでした。記事内に追記しておこうと思います。

  14. 名前:ブルージョナサン 投稿日:2018/11/14(水) 10:32:38 ID:989c50cda

    わいひらさん こんにちは
    ブルージョナサンといいます。

    当方でも、このOCRのWEBサービスのレビューをしてみました

    もしよろしければ、
    私の記事内にわいひらさんのページの
    リンクおいてもよろしでしょうか?
    https://kakuyasuunyou.info/archives/7418

    お暇なときにでも
    ご連絡よろしくお願いします。

    よいWEBアプリ紹介ありがとうございました。

  15. アバター画像 名前:わいひら 投稿日:2018/11/16(金) 22:37:10 ID:7a3015977

    こんにちは。
    返信が遅れて申しわけありません。

    記事紹介していただけるのであれば、むしろありがたいです。
    自由にリンクを貼っていただければと思います。

  16. 名前:ブルージョナサン 投稿日:2018/11/26(月) 17:01:03 ID:9c7342762

    リンク許可ありがとうございました。(^ ^)
    追記しました。

  17. 名前:寺田衛 投稿日:2020/03/12(木) 14:17:38 ID:ca410f174

    exselで使用したいのですがとりあえず登録しない方法で試してみたいのですがダウンロードの方法を教えてください。

  18. アバター画像 名前:わいひら 投稿日:2020/03/14(土) 22:26:10 ID:2c0280140

    Excelのことですよね?
    こんな感じの設定でできるかと思います。
    https://nelog.jp/wp-content/uploads/2020/03/2020-03-14_22h23_42.png

  19. 名前:ブルージョナサン 投稿日:2020/06/18(木) 06:59:35 ID:11acebef4

    わいひらさん、こんにちは
    ブルージョナサンです

    以前OCRのときに、お世話になりました。
    最近も手軽なのでよく使ってます。
    ttps://nelog.jp/online-ocr

    ということで、
    2020年6月ごろOCRをしらべていたら

    どうやらGoogleのドキュメント「Googleドキュメント」の
    OCRの精度がいいという話を聞き

    調べてやってみたら、かなり良かったので
    もしよろしければ

    追記記事でも、いかがでしょうか(^ ^)

    もうしってましたら、読まなくてもOKです。
    (音声認識もいいですよ。)
    (Excelは実験してません。)

    ブルージョナサン

    https://kakuyasuunyou.info/archives/14607

  20. アバター画像 名前:わいひら 投稿日:2020/06/20(土) 12:32:48 ID:2ec64fee1

    こんにちは!
    「Googleドキュメント」にOCR機能があるのは、この書き込みで初めて知りました。
    後で使ってみたいと思います。

    音声認識の精度もいいですよね!
    Googleの音声認識は、。とか、の句読点も「まる」とか「てん」で入力できるようになりましたか?
    以前は確かできなかったので。
    これさえできれば、僕にとってGoogle音声認識や最強かもしません。

  21. アバター画像 名前:わいひら 投稿日:2020/06/20(土) 12:44:16 ID:2ec64fee1

    というか、「Google ドキュメント」で試せるので、やってみればいいと思って確認してみたのですが、まだ句読点は発声で入力はできないみたいですね^^;
    https://www.google.com/intl/ja_jp/docs/about/
    これさえあれば最高なんだが。

  22. アバター画像 名前:わいひら 投稿日:2020/06/20(土) 12:55:16 ID:2ec64fee1

    GoogleドライブでOCRを試してみたら完璧でした。すげぇ…。

  23. 名前:ブルージョナサン 投稿日:2020/06/23(火) 06:43:19 ID:1a0977533

    わいひらさんこんにちは、

    >Googleの音声認識は、。とか、の句読点も「まる」とか「てん」で入力できるようになりましたか?

    ご存知かもですが、

    Appleの音声認識?欠点もありますが、(1分だけ有効)

    以下の動画に句読点の話がでてますよ、

    参考にされてみてください、

    あと、Apple製品は新製品で仕様変更がよくあるので
    そこは注意がいるところですね、、、
    (お金がかかったり、機能が突然きえたりすることがある、、、)

    ひびきさんの 動画のところです(下のほうです)
    https://soundability.tokyo/pc/20023/

  24. 名前:ブルージョナサン 投稿日:2020/06/23(火) 06:58:43 ID:1a0977533

    追加です。

    突然動画がみれなくなりました??

    動画の上のリンクからもはいれますが
    念の為おいておきますね。

    ブルージョナサン

    https://twitter.com/hashtag/%E9%9F%B3%E5%A3%B0%E6%96%87%E5%AD%97%E5%A4%89%E6%8F%9B?src=hash&ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1263824474635288582&ref_url=https%3A%2F%2Fsoundability.tokyo%2Fpc%2F20023%2F

  25. アバター画像 名前:わいひら 投稿日:2020/06/27(土) 13:18:04 ID:f6e513d5e

    Appleの音声認識?欠点もありますが、(1分だけ有効)

    以下の動画に句読点の話がでてますよ、

    アップルだと出来るんですね。
    なぜGoogleは実装してくれないんだ。オプション機能で良いのに。