ブラウザのみで画像内のテキストを手軽に抽出する方法(※英数字のみ)

サイバーマンデー
Amazonプライム会員限定の大セール「サイバーマンデー」開催中!プライム会員限定の大セール

先日、Google Keepに画像の文字列をテキストに変換する機能が追加されました。

それで、早速使ってみたところ、英数字のみではありますが、かなり正確にテキストを抽出できるすぐれた機能だったので、使い方などを紹介したいと思います。

スポンサーリンク
レクタングル(大)広告

Google Keepとは

Google keep

Google Keepとは、思いついたことを書き込むことで、付箋のようにリスト表示してくれる、簡易メモサービスです。

ChromeのGoogle Keep拡張からも利用することができます。

メモを書くといえば、Evernoteなどもあります。ただ、Evernoteがその名の通りノートだとしたら、Google Keepは上の画像にあるように、付箋といった感覚です。

付箋だけあって、「忘れたくないことを書いておくメモ」という機能に加えて、「メモを常に目に触れやすくする」という役割も持たせるために、定期的にメモの内容を知らせてくれる、リマインダー(通知)機能もあわせ持っています。

Google Keepでは、付箋に画像を貼り付けてメモすることもできます。今回は、その機能にテキスト抽出機能が追加されました。

以下では、その使用方法を紹介したいと思います。

画像からテキストを抽出する方法

テキストを抽出するには、まずGoogle Keepに移動します。

画面が表示されたら、「メモを追加」部分にある「画像を追加」アイコンをクリックします。

2015-04-14_11h28_55

ダイアログが表示されるので、テキストを抽出したい画像を選択します。

今回は例として、以下のナビスコ リッツ画像のテキストを抽出してみたいと思います。

ナビスコリッツ

画像のアップロードが終了すると、以下のように表示されるので、一旦「完了」をクリックします。

一旦完了を押す

すると、一覧が表示されるので、再び選択します。

アップロード後一覧

すると、以下のように表示されるので、「その他のアクション(点が縦に三つ並んだアイコン)」をクリックして、表示されるメニューから「画像のテキストを抽出」を選択します。

画像のテキストを抽出

すると画像から、「RITS CRACKERS」とテキストが抽出されました。

画像内のテキストが抽出された

かなり簡単です。

尚、日本語が含まれた画像でも試してみましたが、日本語にはまだ対応されていないようです。

テキスト抽出の精度

今回の新機能、「これは画像から英文を抽出するのに、かなり便利そう」と感じました。

そこで、通常のはっきり表示されているテキスト画像ならどのぐらいの精度で抽出できるものか、BBC NEWSサイトのキャプチャを抽出させてみました。

抽出させるニュースは、ヒラリー・クリントンのアメリカ大統領出馬関係の以下のニュースです。

Is this Hillary Clinton’s time? – BBC News

読み込ませる画像はこちら。

ヒラリー・クリントンの大統領出馬関係のニュース

画像をアップロード後、「画像のテキストの抽出」を行ってみました。

ヒラリーのニュースをアップロード後画像のテキストを抽出

すると、以下のように抽出されました。

画像のテキスト抽出後

抽出されたテキストはこちら。

Is this Hillary Clinton’s time?
Anthony Zurcher
North America reporter
12 April 2015 US & Canada

GETTY IMAGES
She’s in it to win it… again.
For months, if not years, it was a question of when, not if, Mrs Clinton would
announce she is making a second bid for the US presidency
Now that question
has been answered.
With the parlour guessing games over, Mrs Clinton faces the long, gruelling road
that the US political system demands of its would-be presidential aspirants. The
lowa fairground flesh-pressing, the blustery New Hampshire doorstepping, the
nonstop cross-country flights and seemingly interchangeable stump speeches,
public rallies and fundraising events that drag on for month after endurance-ebbing
month

違っているところと言ったら、最後にピリオドがついていないところぐらいでしょうか。あと、改行を自分で編集する必要があるくらい。

記者情報部分はもちろん、画像のクレジットである「GETTY IMAGES」まで抽出されました。

この部分のテキストまで抽出されてます。

GETTY IMAGES

画像内のテキストが傾いたり、ぼやけたいしていない限りは、かなりの精度で抽出できると思われます。

まとめ

今回、Google Keepを利用して、英数字なら手軽にOCR抽出(画像などの文字をデジタルの文字コードとして抽出)を簡単に行うことができるようになりました。

これで、画像内の英文を引用したいときなどは、わざわざ打ち込む必要はなく、かなり手軽になるのではないかと思います。デジカメなどで綺麗にとれば、その画像内のテキスト抽出もいけそうです。

Evernoteでも、一応OCRされるので、そのテキスト情報をもとに検索はできます。ただそのOCR情報を、テキストとして抽出するには結構面倒な作業が必要です。(Evernoteは日本語でもできる)

なので、英文テキストを抽出するならGoogle Keepが、かなり手軽なのではないかと思います。

そのうち、日本語にも対応してくれるのではないかと、密かに期待もしています