コース: データサイエンスの基礎:基本

今すぐコースを受講しましょう

今すぐ登録して、23,200件以上登録されている、業界エキスパート指導のコースを受講しましょう。

スクレイピングデータとは

スクレイピングデータとは

ロサンゼルスのワッツタワーは、 サイモン・ロディアが身近にある さまざまな素材で手作りした建造物群で、 高さは30メートル近くにもなります。 廃棄された鉄筋や、タイル、ガラス片、 空きビン、貝殻、鏡、陶器のかけらなど、 拾い集めたものが使われています。 身近に落ちている素材からでも、 創造性と根気があれば偉大な可能性が 引き出せることを、 ワッツタワーは物語っています。 データスクレイピングは、 いわばデータサイエンスにおける 拾いものアートです。 書籍や新聞で見かける表やグラフのように 身近にあるデータを、データサイエンスの プロジェクトに取り入れるやり方です。 APIで取得するデータは、共有を前提に 設計されたものですが、 データスクレイピングの情報源となる データは、必ずしもほかのプロジェクトで 利用されることを想定していません。 スクレイピングによる データの利用について、 誤解のないように言っておきますが、 デジタル媒体や印刷物からデータを スクレイピングすることが可能だとしても、 法的な制限や道義的な問題には 十分注意する必要があります。 注意すべき点の1つが、個人情報です。 個人情報にあたるデータを 開示してはいけません。 著作権にも注意しましょう。 ウェブで公開されているデータであっても、 好きに利用できるとは限りません。 発表とオープン化は違います。 青空市で、値札をつけずに 置かれているものが 無料ではないのと同じです。 スクレイピングデータに関しても、 守らなければならない重要な法律や ルールや社会規範があり、 うっかり破れば深刻なトラブルに 巻き込まれます。 身の回りのデータを活用する時は、 このことを忘れないようにしましょう。 例えば、欲しいデータが ウィキペディアで表になっているのを 見つけたとしましょう。 これは舞踊団のリストです。 この表の情報は、いちいちコピーして 貼り付けなくても、 シンプルなツールを使って スクレイピングすることができます。 Google シートには、 ウェブページからの スクレイピングをするための 専用の関数が用意されています。 Google シートを開き、 「IMPORTHTML」という関数を入力し、 データがあるページのアドレスを指定して、 インポートの対象が「テーブル」 すなわち表であると書いて、…

目次