Apache Spark

Apache Spark
作者	Matei Zaharia
開発元	Apache Software Foundation, カリフォルニア大学バークレー校 AMPLab, Databricks
初版	2014年5月30日 (10年前)
最新版	2.4.0 / 2018年11月2日 (6年前)
リポジトリ	github.com/apache/spark;
プログラミング; 言語	Scala, Java, Python, R言語
対応OS	Microsoft Windows, macOS, Linux
サポート状況	Active
種別	データ解析, 機械学習アルゴリズム
ライセンス	Apache License 2.0
公式サイト	spark.apache.org
	テンプレートを表示

Apache Sparkはオープンソースのクラスタコンピューティングフレームワークである。カリフォルニア大学バークレー校のAMPLabで開発されたコードが、管理元のApacheソフトウェア財団に寄贈された。Sparkのインタフェースを使うと、暗黙のデータ並列性と耐故障性を備えたクラスタ全体をプログラミングできる。

日経BP社が発表した「ITインフラテクノロジーAWARD 2015」において、SparkはDockerに次ぐ準グランプリとされた^[2]。

概要

フォールトトレラントシステムで管理され、複数マシンのクラスタに分散されたデータ項目の読み取り専用多重集合であるRDD（resilient distributed dataset）と呼ばれるデータ構造を中心とするアプリケーションプログラミングインターフェイスを備えている。MapReduceは、分散プログラム上で特定の線形データフロー構造を強制するクラスタコンピューティングプログラミングパラダイムの制限に対応して開発された。MapReduceは、ディスクから入力データを読み込み、データ全体に関数をマップし、削減結果をディスクに格納する。SparkのRDDは、分散共有メモリの（意図的に）制限された形式で提供する分散プログラムのワーキングセットとして機能する^[3]。

RDDの可用性は、ループ内で複数回データセットを参照する反復法アルゴリズム、および対話型/探索型データ分析、データ反復のデータベースクエリの両方の実装を容易にする。このようなアプリケーションのレイテンシ（Apache Hadoopスタックでは一般的であったMapReduce実装と比較して）は、桁違いに低下する可能性がある。反復アルゴリズムのクラスの中には、機械学習のための訓練アルゴリズムがあり、Apache Sparkを開発の初期の刺激となった^[4]。

クラスタマネージャと分散ストレージシステムが必要であり、クラスタ管理のためにスタンドアロン（ネイティブのSparkクラスタ）、Hadoop YARN、Apache Mesosに対応している。分散ストレージの場合、Hadoop分散ファイルシステム^[5]、MapRファイルシステム（MapR-FS）^[6]、Apache Cassandra^[7]、OpenStack Swift、Amazon S3、Kudu、カスタムソリューションを実装できる。擬似分散ローカルモードも対応しており通常は開発やテスト目的でのみ使用される。分散ストレージは不要でローカルファイルシステムを代わりに使用でき、CPUマルチコアごとに1台のマシン上で実行される。

Spark Core

プロジェクト全体の基盤であり、RDD抽象化を中心とするアプリケーションプログラミングインターフェイス（Java、Python、Scala、R）を介して公開される分散タスクディスパッチ、スケジューリング、および基本I/O機能を実装している。（Java APIは他のJVM言語でも使用でき、Julia^[8]などの他の非JVM言語でも使用できる。）「ドライバ」プログラムは、関数をSparkに渡すことによってRDD上でmap、 filter 、reduceなどの並列操作を呼び出し、関数の実行をクラスタ上で並列にスケジュールする。 [2]これらの操作や結合などの追加操作は、RDDを入力として受け取り、新しいRDDを生成する。RDDはイミュータブルで遅延評価している。耐故障性は、データ消失の場合に再構成できるように各RDDの「系統」（生成操作）を追跡により達成される。RDDには任意の種類のPython、Java、Scalaオブジェクトを含められる。

RDD指向の機能的プログラミングスタイルの他に、共有変数の2つの制限形式がある。ブロードキャスト変数はすべてのノードで利用可能な読み取り専用データを参照し、アキュムレータは命令型プログラミングの削減をプログラムできる。

RDD中心の関数型プログラミングの典型例は、テキストファイルのセット内に出現するすべての単語の頻度を計算し、最も一般的なものを表示する次のScalaプログラムである。各マップflatMap（マップの変形）とreduceByKeyは、単一のデータ項目（または項目のペア）に対して簡単な操作を実行し、その引数を適用してRDDを新しいRDDに変換する無名関数をとる。

val conf = new SparkConf().setAppName("wiki_test") // create a spark config object
val sc = new SparkContext(conf) // Create a spark context
val data = sc.textFile("/path/to/somedir") // Read files from "somedir" into an RDD of (filename, content) pairs.
val tokens = data.flatMap(_.split(" ")) // Split each file into a list of tokens (words).
val wordFreq = tokens.map((_, 1)).reduceByKey(_   _) // Add a count of one to each token, then sum the counts per word type.
wordFreq.sortBy(s => -s._2).map(x => (x._2, x._1)).top(10) // Get the top 10 words. Swap word and count to sort by count.

Spark SQL

Spark Coreより上位のコンポーネントで、構造化データや半構造化データをサポートするDataFramesというデータ抽象化を導入した。Scala、Java、PythonのDataFramesを操作するためのドメイン固有言語（DSL）を提供しており、キャラクタユーザインタフェースとOpen Database Connectivity/JDBCサーバとのSQL言語サポートも実装している。DataFramesには、Spark 2.0のようにRDDによって提供されるコンパイル時型チェック機能はないが、強く型付けされたデータセットはSpark SQLでも完全にサポートされている。

import org.apache.spark.sql.SQLContext

val url = "jdbc:mysql://yourIP:yourPort/test?user=yourUsername;password=yourPassword" // URL for your database server.
val sqlContext = new org.apache.spark.sql.SQLContext(sc) // Create a sql context object

val df = sqlContext
  .read
  .format("jdbc")
  .option("url", url)
  .option("dbtable", "people")
  .load()

df.printSchema() // Looks the schema of this DataFrame.
val countsByAge = df.groupBy("age").count() // Counts people by age

Spark Streaming

Spark Coreの高速スケジューリング機能を活用してストリーミング分析を実行する。ミニバッチでデータを取り込み、RDD変換を実行する。この設計により、バッチ分析用に記述されたアプリケーションコードセットを使用できるため、ラムダアーキテクチャの実装が容易になる。しかし、この利便性はミニバッチ持続時間に等しいレイテンシのペナルティを伴う。ミニバッチではなくイベント別にイベントを処理するその他のストリーミングデータエンジンには、StormとFlinkのストリーミングコンポーネントが含まれる。Spark Streamingは、Kafka、Flume、Twitter、ZeroMQ、Kinesis、TCP/IPソケットに対応している^[9]。

MLlib Machine Learning Library

分散メモリベースのSparkアーキテクチャの大部分がApache Mahoutで使用されているディスクベースの実装の9倍速である、Spark Core上の分散マシン学習フレームワークである。多くの一般的な機械学習と統計アルゴリズムが実装され、大規模機械学習パイプラインを簡略化するMLlibに同梱されている。

GraphX

Apache Spark上の分散グラフ処理フレームワークを示す。不変のRDDに基づきグラフは不変であるため、グラフデータベースのようなトランザクション方式ではなく更新が必要なグラフには適していない。大規模並列アルゴリズム（ページランクなど）を実装するための2つの別個のAPI、Pregel抽象化、より一般的なMapReduceスタイルAPIを提供している^[10]。Spark1.6で旧式に廃止された旧型のBagelとは異なり、GraphXはプロパティグラフ（プロパティがエッジや頂点に付加できるグラフ）を完全にサポートしている^[11]。

HadoopディスクベースのMapReduceを利用したApache GiraphのSparkインメモリ版として見ることができる^[12]。

Apache Sparkと同様にUC BerkeleyのAMPLabとDatabricksで研究プロジェクトとして開始され、後にApacheソフトウェア財団とSparkプロジェクトに寄贈された^[13]。

脚注

^ “Spark Release 2.4.0”. 2018年12月27日閲覧。
^ 日経BP社、「ITインフラテクノロジーAWARD 2015」を発表。グランプリに「Docker」、準グランプリに「Apache Spark」
^ Zaharia, Matei; Chowdhury, Mosharaf; Das, Tathagata; Dave, Ankur; Ma,, Justin; McCauley, Murphy; J., Michael; Shenker, Scott; Stoica, Ion. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing (PDF). USENIX Symp. Networked Systems Design and Implementation.
^ Harris, Derrick (28 June 2014). “4 reasons why Spark could jolt Hadoop into hyperdrive”. 2017年10月17日閲覧。
^ Figure showing Spark in relation to other open-source Software projects including Hadoop
^ MapR ecosystem support matrix
^ Doan, DuyHai (10 September 2014). "Re: cassandra spark / pyspark". Cassandra User (Mailing list). 2014年11月21日閲覧。
^ https://github.com/dfdx/Spark.jl
^ “Getting Data into Spark Streaming”. sigmoid.com. Sigmoid (Sunnyvale, California IT product company) (17 March 2015). 7 July 2016閲覧。
^ Malak, Michael (1 July 2016). Spark GraphX in Action. Manning. p. 89. ISBN 9781617292521. "Pregel and its little sibling aggregateMessages() are the cornerstones of graph processing in GraphX. ... algorithms that require more flexibility for the terminating condition have to be implemented using aggregateMessages()"
^ “Finding Graph Isomorphisms In GraphX And GraphFrames: Graph Processing vs. Graph Database”. slideshare.net. sparksummit.org (14 June 2016). 11 July 2016閲覧。
^ Malak, Michael (1 July 2016). Spark GraphX in Action. Manning. p. 9. ISBN 9781617292521. "Giraph is limited to slow Hadoop Map/Reduce"
^ Gonzalez, Joseph; Xin, Reynold; Dave, Ankur; Crankshaw, Daniel; Franklin, Michael; Stoica, Ion (Oct 2014). GraphX: Graph Processing in a Distributed Dataflow Framework.

外部リンク

公式ウェブサイト

[1] “Spark Release 2.4.0”. 2018年12月27日閲覧。

[2] 日経BP社、「ITインフラテクノロジーAWARD 2015」を発表。グランプリに「Docker」、準グランプリに「Apache Spark」

[3] Zaharia, Matei; Chowdhury, Mosharaf; Das, Tathagata; Dave, Ankur; Ma,, Justin; McCauley, Murphy; J., Michael; Shenker, Scott; Stoica, Ion. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing (PDF). USENIX Symp. Networked Systems Design and Implementation.

[4] Harris, Derrick (28 June 2014). “4 reasons why Spark could jolt Hadoop into hyperdrive”. 2017年10月17日閲覧。

[5] Figure showing Spark in relation to other open-source Software projects including Hadoop

[6] MapR ecosystem support matrix

[7] Doan, DuyHai (10 September 2014). "Re: cassandra spark / pyspark". Cassandra User (Mailing list). 2014年11月21日閲覧。

[8] ttps://github.com/dfdx/Spark.jl

[9] “Getting Data into Spark Streaming”. sigmoid.com. Sigmoid (Sunnyvale, California IT product company) (17 March 2015). 7 July 2016閲覧。

[10] Malak, Michael (1 July 2016). Spark GraphX in Action. Manning. p. 89. ISBN 9781617292521. "Pregel and its little sibling aggregateMessages() are the cornerstones of graph processing in GraphX. ... algorithms that require more flexibility for the terminating condition have to be implemented using aggregateMessages()"

[11] “Finding Graph Isomorphisms In GraphX And GraphFrames: Graph Processing vs. Graph Database”. slideshare.net. sparksummit.org (14 June 2016). 11 July 2016閲覧。

[12] Malak, Michael (1 July 2016). Spark GraphX in Action. Manning. p. 9. ISBN 9781617292521. "Giraph is limited to slow Hadoop Map/Reduce"

[13] Gonzalez, Joseph; Xin, Reynold; Dave, Ankur; Crankshaw, Daniel; Franklin, Michael; Stoica, Ion (Oct 2014). GraphX: Graph Processing in a Distributed Dataflow Framework.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]