BigData基盤Hadoopの基礎についてまとめ
目次
こんにちは。
今回はBig Data分析基盤であるHadoopシステムについてまとめます。
この記事の目標
- Hadoopとは何か理解する
- MapReduceとは何か理解する
- Hive, Pigとは何か理解する
基本用語の確認
分散処理(並列処理)
一つのジョブを複数に分けて同時実行しながら進めることで実行時間を短縮する処理。
たとえば、マネージャがAさんに仕事(ジョブ)を与えたとき、Aさんがそのジョブを細分化して、5人の部下にそれぞれタスクを割り当てます。5人のタスクが完了したら、Aさんがその成果を統合してマネージャに報告します。これによって、本来Aさん1人だと2週間かかった仕事が、4日で完了させることができたとします。
この例と同じ仕組みでコンピューティングジョブ(計算)の実行時間短縮を行うのがHadoopとMapReduceです。
Hadoop
スケーラブルなデータストレージ+バッチデータ処理ができるシステム(フレームワーク)。
- 複数ソースからデータの取り込みと並列処理
- TB(テラバイト)~PB(ペタバイト)規模のデータ保存
- 数千のノード処理
- 耐障害性 ノードに障害が発生しても中断せず実行可能
- Hadoop以外への結果の出力(配信)
Hadoop Common
他のHadoopモジュールと共通のユーティリティ・ライブラリ。
Hadoop Distributed File System (HDFS)
データを保存する分散型ファイルシステム。
Hadoop YARN
データ処理をスケジュール実行するフレームワーク。
Yet Another Resource Navigator
の略。
Hadoop MapReduce
クラスターで大規模データを処理するYARNベースのシステム。
Apache Hadoopの概要
大規模データの分散処理を支えるOSSフレームワーク。
GoogleのMapReduce、Google File Systemに触発されたApacheのトップレベルプロジェクトで世界規模で使用されている。
HDFSの構成
ここではデータ保存に関する構成について見ます。
クライアントがネームノードに書き込みリクエストを発行すると、データブロックを書き込む場所を返す。内部的に、データブロックが割り当てられたデータノードに書き込まれる。
データブロックはデフォルトで128MB。Hadoopはデータブロックごとに3つのコピー(レプリカ)を保存します。
データノード
実際のビッグデータが保存されるサーバー
ネームノード
データが保存されている場所を示すマップが保存されるサーバー
ラックアウェアネス
Hadoop 2.xの機能。有効にすると、3つ目のデータブロックは最初の2つとは別のラックに保存し、耐障害性をアップする。
YARNの構成
ここでは並列処理を実現する構成について見ます。
YARNフレームワークがHadoopにおけるジョブの分散を処理する中間層としてはたらきます。
この分散処理にあたり、YARNはグローバルリソースマネージャ
とアプリケーションリソースマネージャ
を使用します。
- クライアントがジョブをYARNリソースマネージャに送信する。
- YARNリソースマネージャはネームノード内で実行されている。
- リソースマネージャはジョブを処理するデータノードを決定する。
- この決定はすべてのデータノードで実行されているノードマネージャデーモンと通信して判断される
- ノードマネージャはノード上のコンテナを監視し、コンテナの使用状況をリソースマネージャに報告する。
- リソースマネージャがこの報告内容からジョブとコンテナの可用性に基づいて、アプリケーションマスターを起動するノードを決定する。
- アプリケーションマスターがコードを実行する。
- コードのプロセスが完了すると、リソースが空き(利用可能)になったことをリソースマネージャに報告する。
ビッグデータのジョブタイプ
MapReduce
- 大規模データの並列処理
- 2つのフェーズ MapReduce
- 機能 パーティション、シャッフル、ソート
Hive
- DWHのインフラ
- HQLの提供
- 非構造化データをクエリ
- 要約、分析、アドホッククエリ
Pig
- データタスクのプログラミング環境
- Pig Latin : クエリ、データ操作、SQL+MapReduce
Hadoopのバージョン(1.xと2.x)について
データストレージはどちらもHDFS。
1.xはデータ処理・リソース管理にMapReduce V1
を用いていたが、2.xでは以下の構成。
- データ処理 : MapReduce V1
- リソース管理 : YARN
YARNを中間層として、ビッグデータ処理にMapReduce以外にもアプリケーションが使えるようになった。例は以下の通り
- MapReduce(バッチ)
- Hive(クエリ)
- Pig(スクリプト)
- HBASE(オンライン)
- Spark(インメモリ)
Hadoop 1.xの特徴
ストレージ(HDFS1)について
- ネームノードのメタデータがネームノード内のメモリに保存されているため、スケーリングに適さない。
- チェックポイントノード(セカンダリネームノード)というメタデータのバックアップ。コールドスタンバイなので、プライマリに障害が発生したらジョブが強制終了。再起動が複雑。
MapReduceジョブのみ実行可能。
- ネームノードのジョブトラッカーがジョブのすべてのスケジュールや管理を担当。
- 割り当てられたデータノード内のタスクトラッカーが、ジョブトラッカーの指示に従ってタスクの実行、Map、Reduceを担当。
Hadoop 2.xの特徴
2.x
は2013年リリース。
ストレージ: HDFS2
- ネームノード、セカンダリネームノードに加え、パッシブネームノード(スタンバイネームノード)で冗長化し単一障害点問題をクリア。
- データノードがアクティブとパッシブの両方を認識しブロックレポートを送信。(書き込みはアクティブが対象で、読み込みはアクティブ/パッシブどちらも対象にできる。)
- ネームノードフェデレーションによりクラスターで複数の名前を使用できる。組織内の異なるグループで異なるネームノードに関連付けてクライアントアプリケーションが同じネームノードにアクセスする必要がなくなり、スケーラビリティが向上する。
データ処理 : YARN
- YARNが中間に入りMapReduceに限らずアプリケーションを実行できる
- ジョブトラッカーデーモンを使用しないため拡張性あり。(スケーラビリティがあり、過剰負荷のデーモンが存在しない)
MapReduceとは
分散型データ処理のための並列処理ソフトウェアフレームワーク。
大量の非構造化データを並列処理するプログラムの作成が可能。
HDFSと並行して動作するよう設計されている。
MapReduceがない頃の問題点
- 数十万台のプロセッサーの個別管理と並列分散化
- ステータスとモニタリング
- 耐障害性の確保
- 効率的なI/Oスケジューリング
- 計算データをストレージからコンピューティングマシンに移動するための通信帯域確保
MapReduceが提供する解決策
- スケールアウトアーキテクチャ
- 構造化データ・非構造化データの処理
- マスターノードへの定期的なステータス報告(=耐障害性)
- マスターノードが最適な作業ノードへジョブを采配
- 優先順位に従った最適スケジューリング
- デベロッパーへの柔軟性(Java, Python, C#, C++などに対応)
- データ移動ではなく格納されたデータノードで処理
MapReduceによるデータ処理の段階(フェーズ)
MapReduceはキーバリューペアを入力として受け入れ、出力として生成する。
1. 入力
- 処理するデータをHDFSに配置する。
- 配置されたデータノードの集まりをHadoopクラスターという。
2. 分割
- データファイル内の各行がMapperインスタンスに渡される。
- データ行はKey=番号とValue=データで表現される。
3. Map
- データ行の要素が、1度に一つずつ読み込まれる。
- 入力要素を中間のキーバリューペアに変換する。
4. Shuffle
- Map出力をReducerに入力する
- すべての入力がKeyでソートされ、同じKeyが含まれるリストになる
5. Reducer
- 入力リストの値をまとめて集約する。
- 入力リストごとに1つの出力要素を生成する。
6. 出力
- 集約された出力要素を単一のリストに結合する
- 入力ジョブと出力ジョブはファイルシステムに保存される
MapReduceによる結合処理
以下の3タイプ
Mapサイド
Mapperで実行。高速だが制約あり。
- 同じキーでソートされる
- 同じ数のパーティション
- 同じキーを持つ全てのレコードが同じパーティションに存在
Reduceサイド
- Reducerで実行。
- 制約が少なく、非構造化。
- 効率性が低く、シャッフルが必要。
分散キャッシュ
- Mapサイド結合で使用。
- 結合前に小さなファイルをノート上のメモリにコピー。
- 効率的でReducerが不要。
MapReduceのコンバイナーとパーティショナー
コンバイナー
- Map後、Reducer前で実行するオプションのミニReducer。
- 帯域幅を最適化する。
パーティショナー
- KeyがReducerに割り当てられる方法を定義するアプリケーションコード
- デフォルトはキーの単純ハッシュ(ハッシュパーティショナー)で、ReduceタスクとPartitionの数は一致する必要がある。
MapReduceのインターフェイス
Mapper
- Mapフェーズでのデータ処理
map()
でキーバリューペアを中間キーバリューペアのセットにマップ- 入力と出力のキーバリュータイプを定義する4つのパラメータが必要
出力コレクター
- Mapperで出力された中間データの書き込み
Reducer
- データ集約
- Mapperの出力をキーバリューペアとして受け取る。
reduce()
で処理- 入力と出力のキーバリュータイプを定義する4つのパラメータが必要
MapReduceの使用例
- 世界中の病院がHadoopクラスターに感染症に関するデータを保存
- Javaで記述されたMapReduceプログラムを実行し、どの感染症が増加しているかなどのシンプルな質問を計算
- 感染症流行の可能性や時期に関する洞察を得られる
計算に何千個のノードを並列使用できるため、従来の計算よりも非常に高速。
Hiveとは
- DWH(データウェアハウス)
- MapReduceとHDFSを使用
- HQLを提供
Hiveの特徴
- レポート生成
- 要約しやすい
- アドホック分析
- 非構造化データを構造化データとして管理
- SQLスキルを活用できる
HiveとRDBMSとの比較
どちらかの代用ではなく、共存可能な別のものとして考える。
- Hiveは非構造化データも可能、RDBMSは構造化データのみ
- Hiveはデータサイズでスケールでき、高レイテンシーのクエリのみ対応(高速応答は無理)
- Hiveはスキーマオンリードポリシー(読み込み時に制約チェック)、RDMBMSはスキーマオンライトポリシー(書き込み時に制約チェック)
Hiveのワークフロー
- HQL文がドライバに送信
- ドライバによってコンパイラが呼び出される
- コンパイラが文をDAGに変換
- ドライバがDAGから個々のMapReduceジョブをエグゼキュータ(実行エンジン)に送信
DAGは順序付けられたMapReduceジョブの有向非巡回グラフ(Directed Acyclic Graph)
Hiveのデータアーキテクチャ
- データベース(テーブルとその他データを分離して名前競合を防ぐ名前空間のカタログ)
- テーブル(HDFS内のファイルで構成される論理概念)
- パーティション(ディレクトリ。Mapフェーズでのデータ読み取りとフィルタリングが減少し時間短縮できる)
- バケット(テーブルディレクトリ内のファイルで、テーブルデータを分割した管理しやすいパーツ)
Pigとは
- 大規模データセットを分析するためのスクリプト言語
- オープンソースの環境
- SQLに類似
- Javaプログラミングが不要
- Hadoopコンポーネントと連動(HDFS, MapReduce, YARNなど)
- コード変更なしでMapReduceジョブが実行可能
- Pig Latingという言語で記述する。
Pig Latinの特徴
- マルチクエリアプローチ
- UDF(ユーザ定義関数)
- ネストされたデータ型(タプル、バッグ、マップ)
- 構造化データと非構造化データ
- スキーマはフィールドの名前とタイプ。
- タイプは解析時間効率向上とエラーチェックに有効
Pig Latinのフロー
- LOAD : データの入力
- DUMP : 結果の表示
- STORE : データの保存
- CAT : ファイルの内容を出力
- PigDump : 人が読めるUTF-8のタプルでデータを保存
Pig の実行タイプ
- ローカルモード : 1台のマシンで実行
- MapReduceモード : MapReduceジョブに変換しHadoopクラスターで実行
Pig の呼び出しタイプ
- インタラクティブモード : Gruntを使用する手動コマンド、トラブルシューティングに有効
- バッチモード : スクリプトシェル(Pig Latin文のグループ)、本番環境で使用
AWSによるビッグデータ分析基盤のクラウド化
以下のサービスが対応します。
収集
- Amazon Kinesis Data Firehose (リアルタイム収集)
- AWS Snowball
保存
- Amazon S3 (オブジェクトストレージ)
- Amazon Kinesis Data Streams (リアルタイム)
- Amazon RDS (RDBMS)
- Amazon DynamoDB (NoSQL)
処理と分析
- Amazon EMR (Hadoop)
- Amazon Kinesis Data Analytics (リアルタイム)
- Amazon Redshift (DWH)
視覚化
- Amazon QuickSight (BIツール)
- Amazon Elasticserch Service (検索分析)
まとめ
というわけで、ビッグデータ分析の標準的なシステムであるHadoop、そしてそれを活用するMapReduce、Hive、Pigについてまとめました。
また、最後に関連するAWSのビッグデータ基盤についてもまとめました。
参考資料
今回のまとめの元となったものは、AWS Trainingから提供されているAWS Hadoop Fundamental
というデジタルトレーニングです。