以前、スクレイピングツールとしてChrome拡張を紹介しました。
この「Scraper」も、使い方はかなり簡単です。けれど今回はさらに使い方が簡単な、無料WEBサービス「import.io」の紹介です。
import.ioは、URLを入力するだけで、データ化できそうなところを勝手に判断して情報を集めてくれます。
目次
import.ioとは
import.ioは、データ化したいページのURLを入力するだけで、自動でデータ箇所を判断して情報を集めてくれるスクレイピングサービスです。
無料で利用することができ、セットアップも、データ収集用のトレーニングなども必要ありません。
URLを入力して、ボタンを押すだけという簡単さから、誰にでも利用できるデータ収集ツールだと思います。
以下では、その簡単な使い方や、利用例などを紹介したいと思います。
定期的なサイトへのスクレイピングは相手サイトの負荷になるので、一日に何度も何度も同一サイトに使用するのはやめましょう。加えて、取得したデータを、そのまま何かに利用すると著作権違反になる恐れもあります。
基本的な使い方
import.ioの最大の特徴は、使い方の簡単さです。
以下では、その使い方の例として、IKEAのソファー検索結果ページのデータを取得してみたいと思います。
このページのURLをimport.ioの入力欄に入力して「Try it Out」ボタンを押すと
以下のように、データ化して欲しい箇所を、いい感じに取得してデータ化してくれます。
この結果で言えば、「商品画像」、「商品名」、「値段」、「商品カテゴリ」などはデータ化しておくと、いろいろと利用できそうではあります。
取得したデータは、CSVファイルをダウンロードして取得することができます。
「Download CSV」ボタンを押すとファイルをダウンロードできます。
「OK」ボタンを押せばダウンロードが開始されます。
テーブルデータの取得
例えば、以下のようなKOEIの三国志武将データ一覧のようなテーブルからも、簡単にデータのみ取得できます。
こちらもURLを入力するだけで
データを自動的に判断して取得してくれます。
CSVファイルをダウンロードして、エクセルで少し加工すれば、以下のような表などに手軽に加工できます。
武力上位20名
名 | 字 | ヨミ | 統 率 | 武 力 | 知 力 | 政 治 | 誕 生 |
---|---|---|---|---|---|---|---|
呂布 | 奉先 | リョフ | 94 | 100 | 25 | 16 | 156 |
張飛 | 翼徳 | チョウヒ | 83 | 98 | 35 | 22 | 167 |
関羽 | 雲長 | カンウ | 93 | 97 | 77 | 64 | 162 |
馬超 | 孟起 | バチョウ | 91 | 97 | 46 | 44 | 176 |
許褚 | 仲康 | キョチョ | 66 | 96 | 39 | 23 | 170 |
趙雲 | 子龍 | チョウウン | 88 | 96 | 78 | 72 | 168 |
顔良 | ガンリョウ | 83 | 95 | 45 | 33 | 160 | |
文醜 | ブンシュウ | 82 | 95 | 25 | 24 | 161 | |
甘寧 | 興覇 | カンネイ | 87 | 94 | 78 | 13 | 163 |
龐徳 | 令明 | ホウトク | 75 | 94 | 72 | 48 | 171 |
華雄 | カユウ | 78 | 93 | 54 | 40 | 155 | |
黄忠 | 漢升 | コウチュウ | 84 | 93 | 61 | 55 | 148 |
周泰 | 幼平 | シュウタイ | 81 | 93 | 48 | 33 | 170 |
典韋 | テンイ | 68 | 93 | 31 | 29 | 160 | |
夏侯淵 | 妙才 | カコウエン | 91 | 92 | 51 | 64 | 163 |
夏侯惇 | 元譲 | カコウトン | 90 | 92 | 64 | 76 | 157 |
魏延 | 文長 | ギエン | 83 | 92 | 66 | 35 | 175 |
孫策 | 伯符 | ソンサク | 95 | 92 | 75 | 72 | 175 |
太史慈 | 子義 | タイシジ | 79 | 92 | 62 | 56 | 166 |
知力上位20名
名 | 字 | ヨミ | 統 率 | 武 力 | 知 力 | 政 治 | 誕 生 |
---|---|---|---|---|---|---|---|
諸葛亮 | 孔明 | ショカツリョウ | 92 | 33 | 100 | 98 | 181 |
左慈 | サジ | 0 | 0 | 100 | 50 | 157 | |
龐統 | 士元 | ホウトウ | 80 | 15 | 98 | 84 | 179 |
郭嘉 | 奉孝 | カクカ | 58 | 10 | 98 | 81 | 170 |
周瑜 | 公瑾 | シュウユ | 98 | 71 | 97 | 91 | 175 |
司馬懿 | 仲達 | シバイ | 97 | 62 | 97 | 94 | 179 |
賈詡 | 文和 | カク | 81 | 34 | 97 | 84 | 147 |
陸遜 | 伯言 | リクソン | 98 | 66 | 96 | 90 | 183 |
徐庶 | 元直 | ジョショ | 88 | 65 | 96 | 80 | 180 |
荀彧 | 文若 | ジュンイク | 51 | 11 | 96 | 99 | 163 |
法正 | 孝直 | ホウセイ | 81 | 48 | 95 | 75 | 176 |
田豊 | 元皓 | デンポウ | 58 | 39 | 95 | 90 | 162 |
李儒 | リジュ | 61 | 29 | 94 | 70 | 150 | |
荀攸 | 公達 | ジュンユウ | 70 | 21 | 94 | 89 | 157 |
黄月英 | コウゲツエイ | 60 | 21 | 94 | 88 | 186 | |
魯粛 | 子敬 | ロシュク | 90 | 57 | 93 | 93 | 172 |
沮授 | ソジュ | 79 | 31 | 93 | 92 | 156 | |
姜維 | 伯約 | キョウイ | 85 | 89 | 92 | 66 | 206 |
鄧艾 | 士載 | トウガイ | 91 | 88 | 92 | 76 | 197 |
このツールで、データ化して取得することで、データ加工も行いやすくなります。
WordPress公開記事一覧を取得するとか
WordPressの記事一覧ページなどから、公開ページを全て取得するなんてこともできます。
例えば、当サイトの記事一覧ページの場合だと、
アイキャッチ画像、記事URL、ページタイトル、カテゴリなどを取得してくれます。
WordPressのようにページネーションがちゃんと設定されているサイトでは、CSVデーターのダウンロードボタンを押すと、
以下のように取得するページ数を設定して、ページを遷移しながらデータを取得するなんてこともできます。
あとは、「OK」ボタンを押せば、複数ページに渡ってデータを取得することができます。
次のページへの情報がHTMLにある場合のみにこの機能は利用できます。
スクレイピング対象サイトへの負荷対策として、20ページよりも多いページは取得できないように対策されています。
無料アプリを利用すれば細かな設定もできる
import.ioのダウンロードページには、Windows、Mac、Linuxで使えるスクレイピング用のアプリも用意されています。
これを利用すれば、欲しい情報のみに限定して、スクレイピングを行うことができます。
例えば、価格.comのノートパソコン一覧から、商品写真、メーカー名、商品名、値段、液晶サイズ、解像度など、欲しい情報のみのデータ取得を行うこともできます。
アプリで適切な設定を行うと、不要なデータを取得することもありません。また、データなどは、CSVの他にもJSON、TSVなどでも取得することができます。
アプリの使い方などは、以下の60秒動画を見れば、大体のことはわかるかと思います。
基本的に、マウスでポチポチ取得したい情報を選択していくだけです。
まとめ
このように、import.ioは、誰でも手軽に使えるスクレイピングツールになっていると思います。
たまに、データを自動取得できないページなどもありますが、大抵のサイトなら取得できるかと思います。とりあえず、楽天とかAmazonとかでも利用できました。
「サイトの内容を取得してデータ化したい」なんて場合や、「通販サイトの商品データを取得、分析して比較検討したい」なんて場合には、手軽に使えるので重宝しそうなサービスです。
ただ、最初の方にも書きましたが、むやみなスクレイピングは対象サイトに負荷をかけてしまいますので、日に何度もスクレイプするのはやめましょう。(※import.ioの方でも、連続取得制限などの対策はしてあります。)
西村先生
いつもお世話になって居ります。
今回も無料WEBサービス「import.io」の紹介をして頂きまして有難う御座います。
ですが、現状のスキルでは猫に小判の有様です。
早く、有り難さが判る様になりたく願望している所です。
資料のご提供有り難く受け取りました。
西村先生の落ちこぼれ生徒にも拘らず、公平な扱いに感謝致します。
管 清一拝