Pig(ピッグ/ピグ)とは、オープンソースの大規模分散計算フレームワークHadoop上で動作するデータウェアハウス(DWH)向けのプロダクトです。
Hadoopに処理させたい内容をPig Latinという言語で記述することで、分散処理の実行が可能になります。Hiveと同じく、裏側ではMapReduce(大量のデータを高速に処理するための分散処理フレームワーク)の処理が実行されます。
Pig Latinでは、データのロードとストア、フィルタリング、結合およびソートいった処理フローを記述できます。
【Pig構文の例】
#Number of Accesses per Unique host
A = FOREACH www_access GENERATE host;
B = FOREACH (GROUP A BY host) GENERATE group AS host, COUNT($1) cnt;
OUT = ORDER B BY cnt;