URLを入力するだけ!コンテンツをスクレイピングしてデータ化してくれる無料ツール「import.io」

現在、無料版は利用できなくなっているようです。

以前、スクレイピングツールとしてChrome拡張を紹介しました。

ScraperというChrome拡張を最近たまたま見つけたので使ってみました。この拡張が、かなり有能なやつでして、WEBペー...

この「Scraper」も、使い方はかなり簡単です。けれど今回はさらに使い方が簡単な、無料WEBサービス「import.io」の紹介です。

import.ioは、URLを入力するだけで、データ化できそうなところを勝手に判断して情報を集めてくれます。

スポンサーリンク
レクタングル(大)広告

import.ioとは

import.io

import.ioは、データ化したいページのURLを入力するだけで、自動でデータ箇所を判断して情報を集めてくれるスクレイピングサービスです。

無料で利用することができ、セットアップも、データ収集用のトレーニングなども必要ありません。

URLを入力して、ボタンを押すだけという簡単さから、誰にでも利用できるデータ収集ツールだと思います。

以下では、その簡単な使い方や、利用例などを紹介したいと思います。

定期的なサイトへのスクレイピングは相手サイトの負荷になるので、一日に何度も何度も同一サイトに使用するのはやめましょう。加えて、取得したデータを、そのまま何かに利用すると著作権違反になる恐れもあります。

基本的な使い方

import.ioの最大の特徴は、使い方の簡単さです。

以下では、その使い方の例として、IKEAのソファー検索結果ページのデータを取得してみたいと思います。

IKEAのソファー検索結果ページ

このページのURLをimport.ioの入力欄に入力して「Try it Out」ボタンを押すと

IKEAのソファー検索結果ページのURLをimport.ioに入力

以下のように、データ化して欲しい箇所を、いい感じに取得してデータ化してくれます。

import.io Magic Web Data Platform & Free Web Scraping Tool

この結果で言えば、「商品画像」、「商品名」、「値段」、「商品カテゴリ」などはデータ化しておくと、いろいろと利用できそうではあります。

取得したデータは、CSVファイルをダウンロードして取得することができます。

「Download CSV」ボタンを押すとファイルをダウンロードできます。

Download CSVボタン

「OK」ボタンを押せばダウンロードが開始されます。

CSVファイルのダウンロード

テーブルデータの取得

例えば、以下のようなKOEIの三国志武将データ一覧のようなテーブルからも、簡単にデータのみ取得できます。

三国志武将データ一覧

こちらもURLを入力するだけで

三国志武将データ一覧のデータ取得

データを自動的に判断して取得してくれます。

import.io(三国志武将データ)

CSVファイルをダウンロードして、エクセルで少し加工すれば、以下のような表などに手軽に加工できます。

武力上位20名

ヨミ統 率武 力知 力政 治誕 生
呂布奉先リョフ941002516156
張飛翼徳チョウヒ83983522167
関羽雲長カンウ93977764162
馬超孟起バチョウ91974644176
許褚仲康キョチョ66963923170
趙雲子龍チョウウン88967872168
顔良ガンリョウ83954533160
文醜ブンシュウ82952524161
甘寧興覇カンネイ87947813163
龐徳令明ホウトク75947248171
華雄カユウ78935440155
黄忠漢升コウチュウ84936155148
周泰幼平シュウタイ81934833170
典韋テンイ68933129160
夏侯淵妙才カコウエン91925164163
夏侯惇元譲カコウトン90926476157
魏延文長ギエン83926635175
孫策伯符ソンサク95927572175
太史慈子義タイシジ79926256166

知力上位20名

ヨミ統 率武 力知 力政 治誕 生
諸葛亮孔明ショカツリョウ923310098181
左慈サジ0010050157
龐統士元ホウトウ80159884179
郭嘉奉孝カクカ58109881170
周瑜公瑾シュウユ98719791175
司馬懿仲達シバイ97629794179
賈詡文和カク81349784147
陸遜伯言リクソン98669690183
徐庶元直ジョショ88659680180
荀彧文若ジュンイク51119699163
法正孝直ホウセイ81489575176
田豊元皓デンポウ58399590162
李儒リジュ61299470150
荀攸公達ジュンユウ70219489157
黄月英コウゲツエイ60219488186
魯粛子敬ロシュク90579393172
沮授ソジュ79319392156
姜維伯約キョウイ85899266206
鄧艾士載トウガイ91889276197

このツールで、データ化して取得することで、データ加工も行いやすくなります。

WordPress公開記事一覧を取得するとか

WordPressの記事一覧ページなどから、公開ページを全て取得するなんてこともできます。

例えば、当サイトの記事一覧ページの場合だと、

寝ログ 寝ながら出来るコトや使えるモノを紹介

アイキャッチ画像、記事URL、ページタイトル、カテゴリなどを取得してくれます。

import.io (寝ログ)

WordPressのようにページネーションがちゃんと設定されているサイトでは、CSVデーターのダウンロードボタンを押すと、

寝ログのCSVデータをダウンロード

以下のように取得するページ数を設定して、ページを遷移しながらデータを取得するなんてこともできます。

20ページに渡ってサイトをスクレイピングする

あとは、「OK」ボタンを押せば、複数ページに渡ってデータを取得することができます。

次のページへの情報がHTMLにある場合のみにこの機能は利用できます。

スクレイピング対象サイトへの負荷対策として、20ページよりも多いページは取得できないように対策されています。

無料アプリを利用すれば細かな設定もできる

import.ioのダウンロードページには、Windows、Mac、Linuxで使えるスクレイピング用のアプリも用意されています。

2015-08-19_12h16_18

これを利用すれば、欲しい情報のみに限定して、スクレイピングを行うことができます。

例えば、価格.comのノートパソコン一覧から、商品写真、メーカー名、商品名、値段、液晶サイズ、解像度など、欲しい情報のみのデータ取得を行うこともできます。

import.ioのアプリを使ったデータ取得

アプリで適切な設定を行うと、不要なデータを取得することもありません。また、データなどは、CSVの他にもJSON、TSVなどでも取得することができます。

アプリの使い方などは、以下の60秒動画を見れば、大体のことはわかるかと思います。

基本的に、マウスでポチポチ取得したい情報を選択していくだけです。

まとめ

このように、import.ioは、誰でも手軽に使えるスクレイピングツールになっていると思います。

たまに、データを自動取得できないページなどもありますが、大抵のサイトなら取得できるかと思います。とりあえず、楽天とかAmazonとかでも利用できました。

「サイトの内容を取得してデータ化したい」なんて場合や、「通販サイトの商品データを取得、分析して比較検討したい」なんて場合には、手軽に使えるので重宝しそうなサービスです。

ただ、最初の方にも書きましたが、むやみなスクレイピングは対象サイトに負荷をかけてしまいますので、日に何度もスクレイプするのはやめましょう。(※import.ioの方でも、連続取得制限などの対策はしてあります。)

『URLを入力するだけ!コンテンツをスクレイピングしてデータ化してくれる無料ツール「import.io」』へのコメント

  1. 名前:管 清一 投稿日:2015/08/29(土) 08:03:14 ID:e726e2429

    西村先生
    いつもお世話になって居ります。
    今回も無料WEBサービス「import.io」の紹介をして頂きまして有難う御座います。
    ですが、現状のスキルでは猫に小判の有様です。
    早く、有り難さが判る様になりたく願望している所です。
    資料のご提供有り難く受け取りました。
    西村先生の落ちこぼれ生徒にも拘らず、公平な扱いに感謝致します。
    管 清一拝

  2. アバター画像 名前:わいひら 投稿日:2015/08/29(土) 13:09:00 ID:0120098c8

    に、西村先生!?
    僕は、西村さんではありません。
    メッセージが届いてないとアレなので、西村先生のサイトに書き込まれるか、メールがあるならメールでメッセージを伝えた方が良いかもしれません。