コース: ビッグデータの基礎:手法と概念

今すぐコースを受講しましょう

今すぐ登録して、23,100件以上登録されている、業界エキスパート指導のコースを受講しましょう。

ETL:抽出、変換、格納

ETL:抽出、変換、格納

ETL は、抽出、変換、 格納の頭字語です。 これは、データウェアハウス、すなわち、 大量のデータの保存に特化した ストレージシステムの分野で 登場した言葉で、 分析の際にはここから必要なデータを 「抽出」し、続いて、分析が可能な形式に 「変換」します。 特に、データソースやデータの形式が まちまちな場合は、この変換が重要です。 そしてこのデータを、 分析ソフトに読み込む手順が「格納」です。 いずれも時間がかかります。 この ETL を支援する データウェアハウス向けのソフトウェアを 専門に開発し、収益を上げている業者も いくつか存在します。 ここで、まちまちな形式で 保存されている文書の扱いを 考えてみましょう。 同じテキストであっても、 それが入っているファイルの形式は、 Word 形式や HTML 形式、 Eメール、PDF 形式など、 無数に存在します。 これらのテキストを利用したい場合、 必要となるのはすべてを共通の形式に 変換して同時に扱えるようにすることです。 たとえば、拡張子「.txt」の プレーンテキストも共通の形式です。 世界のあらゆる端末が 読み取れる優れた形式ですが、 問題は、時に重要な意味を持つ書式情報が 一切入れられないことです。 図表なども、もちろん入りません。 ならば、どんな形式がよいでしょうか。 テキスト主体で、 書式を設定できるコードを加えた マークダウン形式も1つの選択肢です。 このように、形式を統一するためには、 残すべき重要情報とそれ以外を 検討する必要があります。 一方、ビッグデータの世界では、 抽出や変換、格納という ETL の 仕組みが大きく変わりました。 Hadoop が生んだ変化です。 データの処理が Hadoop 内で 完結するため、 移動の必要がありません。 システム内のある部分から 別の部分に移動することはありますが、 全体としては同じシステム上にあるため、 従来のような抽出と格納のプロセスは 不要になったのです。 Hadoop はさらに、 複数のデータ形式に対応し、 各種の非構造化データも扱えるため、 変換プロセスも、 従来とは大きく異なっています。 このように、Hadoop では、 データの扱いが簡単になっただけでなく、 これまでのように抽出や変換、格納を 意識する必要が少なくなりました。…

目次