URLを入力するだけ!コンテンツをスクレイピングしてデータ化してくれる無料ツール「import.io」

以前、スクレイピングツールとしてChrome拡張を紹介しました。

Chrome拡張「Scraper」でWEBページ情報を手軽にスクレイピングしてデータ化する方法
ScraperというChrome拡張を最近たまたま見つけたので使ってみました。 この拡張が、かなり有能なやつでして、WEBページ上の情...

この「Scraper」も、使い方はかなり簡単です。けれど今回はさらに使い方が簡単な、無料WEBサービス「import.io」の紹介です。

import.ioは、URLを入力するだけで、データ化できそうなところを勝手に判断して情報を集めてくれます。

スポンサーリンク
レクタングル(大)広告

import.ioとは

import.io

import.ioは、データ化したいページのURLを入力するだけで、自動でデータ箇所を判断して情報を集めてくれるスクレイピングサービスです。

無料で利用することができ、セットアップも、データ収集用のトレーニングなども必要ありません。

URLを入力して、ボタンを押すだけという簡単さから、誰にでも利用できるデータ収集ツールだと思います。

以下では、その簡単な使い方や、利用例などを紹介したいと思います。

定期的なサイトへのスクレイピングは相手サイトの負荷になるので、一日に何度も何度も同一サイトに使用するのはやめましょう。加えて、取得したデータを、そのまま何かに利用すると著作権違反になる恐れもあります。

基本的な使い方

import.ioの最大の特徴は、使い方の簡単さです。

以下では、その使い方の例として、IKEAのソファー検索結果ページのデータを取得してみたいと思います。

IKEAのソファー検索結果ページ

このページのURLをimport.ioの入力欄に入力して「Try it Out」ボタンを押すと

IKEAのソファー検索結果ページのURLをimport.ioに入力

以下のように、データ化して欲しい箇所を、いい感じに取得してデータ化してくれます。

import.io Magic  Web Data Platform & Free Web Scraping Tool

この結果で言えば、「商品画像」、「商品名」、「値段」、「商品カテゴリ」などはデータ化しておくと、いろいろと利用できそうではあります。

取得したデータは、CSVファイルをダウンロードして取得することができます。

「Download CSV」ボタンを押すとファイルをダウンロードできます。

Download CSVボタン

「OK」ボタンを押せばダウンロードが開始されます。

CSVファイルのダウンロード

テーブルデータの取得

例えば、以下のようなKOEIの三国志武将データ一覧のようなテーブルからも、簡単にデータのみ取得できます。

三国志武将データ一覧

こちらもURLを入力するだけで

三国志武将データ一覧のデータ取得

データを自動的に判断して取得してくれます。

import.io(三国志武将データ)

CSVファイルをダウンロードして、エクセルで少し加工すれば、以下のような表などに手軽に加工できます。

武力上位20名

ヨミ 統 率 武 力 知 力 政 治 誕 生
呂布 奉先 リョフ 94 100 25 16 156
張飛 翼徳 チョウヒ 83 98 35 22 167
関羽 雲長 カンウ 93 97 77 64 162
馬超 孟起 バチョウ 91 97 46 44 176
許褚 仲康 キョチョ 66 96 39 23 170
趙雲 子龍 チョウウン 88 96 78 72 168
顔良 ガンリョウ 83 95 45 33 160
文醜 ブンシュウ 82 95 25 24 161
甘寧 興覇 カンネイ 87 94 78 13 163
龐徳 令明 ホウトク 75 94 72 48 171
華雄 カユウ 78 93 54 40 155
黄忠 漢升 コウチュウ 84 93 61 55 148
周泰 幼平 シュウタイ 81 93 48 33 170
典韋 テンイ 68 93 31 29 160
夏侯淵 妙才 カコウエン 91 92 51 64 163
夏侯惇 元譲 カコウトン 90 92 64 76 157
魏延 文長 ギエン 83 92 66 35 175
孫策 伯符 ソンサク 95 92 75 72 175
太史慈 子義 タイシジ 79 92 62 56 166

知力上位20名

ヨミ 統 率 武 力 知 力 政 治 誕 生
諸葛亮 孔明 ショカツリョウ 92 33 100 98 181
左慈 サジ 0 0 100 50 157
龐統 士元 ホウトウ 80 15 98 84 179
郭嘉 奉孝 カクカ 58 10 98 81 170
周瑜 公瑾 シュウユ 98 71 97 91 175
司馬懿 仲達 シバイ 97 62 97 94 179
賈詡 文和 カク 81 34 97 84 147
陸遜 伯言 リクソン 98 66 96 90 183
徐庶 元直 ジョショ 88 65 96 80 180
荀彧 文若 ジュンイク 51 11 96 99 163
法正 孝直 ホウセイ 81 48 95 75 176
田豊 元皓 デンポウ 58 39 95 90 162
李儒 リジュ 61 29 94 70 150
荀攸 公達 ジュンユウ 70 21 94 89 157
黄月英 コウゲツエイ 60 21 94 88 186
魯粛 子敬 ロシュク 90 57 93 93 172
沮授 ソジュ 79 31 93 92 156
姜維 伯約 キョウイ 85 89 92 66 206
鄧艾 士載 トウガイ 91 88 92 76 197

このツールで、データ化して取得することで、データ加工も行いやすくなります。

WordPress公開記事一覧を取得するとか

WordPressの記事一覧ページなどから、公開ページを全て取得するなんてこともできます。

例えば、当サイトの記事一覧ページの場合だと、

寝ログ  寝ながら出来るコトや使えるモノを紹介

アイキャッチ画像、記事URL、ページタイトル、カテゴリなどを取得してくれます。

import.io (寝ログ)

WordPressのようにページネーションがちゃんと設定されているサイトでは、CSVデーターのダウンロードボタンを押すと、

寝ログのCSVデータをダウンロード

以下のように取得するページ数を設定して、ページを遷移しながらデータを取得するなんてこともできます。

20ページに渡ってサイトをスクレイピングする

あとは、「OK」ボタンを押せば、複数ページに渡ってデータを取得することができます。

次のページへの情報がHTMLにある場合のみにこの機能は利用できます。

スクレイピング対象サイトへの負荷対策として、20ページよりも多いページは取得できないように対策されています。

無料アプリを利用すれば細かな設定もできる

import.ioのダウンロードページには、Windows、Mac、Linuxで使えるスクレイピング用のアプリも用意されています。

2015-08-19_12h16_18

これを利用すれば、欲しい情報のみに限定して、スクレイピングを行うことができます。

例えば、価格.comのノートパソコン一覧から、商品写真、メーカー名、商品名、値段、液晶サイズ、解像度など、欲しい情報のみのデータ取得を行うこともできます。

import.ioのアプリを使ったデータ取得

アプリで適切な設定を行うと、不要なデータを取得することもありません。また、データなどは、CSVの他にもJSON、TSVなどでも取得することができます。

アプリの使い方などは、以下の60秒動画を見れば、大体のことはわかるかと思います。

基本的に、マウスでポチポチ取得したい情報を選択していくだけです。

まとめ

このように、import.ioは、誰でも手軽に使えるスクレイピングツールになっていると思います。

たまに、データを自動取得できないページなどもありますが、大抵のサイトなら取得できるかと思います。とりあえず、楽天とかAmazonとかでも利用できました。

「サイトの内容を取得してデータ化したい」なんて場合や、「通販サイトの商品データを取得、分析して比較検討したい」なんて場合には、手軽に使えるので重宝しそうなサービスです。

ただ、最初の方にも書きましたが、むやみなスクレイピングは対象サイトに負荷をかけてしまいますので、日に何度もスクレイプするのはやめましょう。(※import.ioの方でも、連続取得制限などの対策はしてあります。)

『URLを入力するだけ!コンテンツをスクレイピングしてデータ化してくれる無料ツール「import.io」』へのコメント

  1. 名前:管 清一 投稿日:2015/08/29(土) 08:03:14 ID:e726e2429

    西村先生
    いつもお世話になって居ります。
    今回も無料WEBサービス「import.io」の紹介をして頂きまして有難う御座います。
    ですが、現状のスキルでは猫に小判の有様です。
    早く、有り難さが判る様になりたく願望している所です。
    資料のご提供有り難く受け取りました。
    西村先生の落ちこぼれ生徒にも拘らず、公平な扱いに感謝致します。
    管 清一拝

  2. わいひら 名前:わいひら 投稿日:2015/08/29(土) 13:09:00 ID:0120098c8

    に、西村先生!?
    僕は、西村さんではありません。
    メッセージが届いてないとアレなので、西村先生のサイトに書き込まれるか、メールがあるならメールでメッセージを伝えた方が良いかもしれません。