目次

Search

  1. はじめに
  2. トランスフォーメーション言語
  3. 定数
  4. 演算子
  5. 変数
  6. 日付
  7. 関数
  8. カスタム関数の作成
  9. カスタム関数APIリファレンス

トランスフォーメーション言語リファレンス

トランスフォーメーション言語リファレンス

集計関数

集計関数

集計関数は、選択した複数のポートの非NULL値をサマリした値を返します。集計関数は以下のような目的に使用できます。
  • グループ内のすべての行に関して、ある1つの値を計算する。
  • Aggregatorトランスフォーメーションで各グループに対して1つの値を返す。
  • 選択したポートの特定の行に対して値を計算するようなフィルタを適用する。
  • 演算子を使って関数内で算術演算を実行する。
  • 同じソース列から得られた複数の集計値を1回のパスで計算する。
トランスフォーメーション言語には、以下の集計関数が用意されています。
  • ANY
  • AVG
  • COLLECT_LIST
  • COLLECT_MAP
  • COUNT
  • FIRST
  • LAST
  • MAX (Date)
  • MAX (Number)
  • MAX (String)
  • MEDIAN
  • MIN (Date)
  • MIN (Number)
  • MIN (String)
  • PERCENTILE
  • STDDEV
  • SUM
  • VARIANCE
PowerCenter統合サービス
をUnicodeモードで動作するように設定している場合、MINおよびMAXの戻り値は、セッションのプロパティで指定したコードページのソート順に従います。
集計関数は、Aggregatorトランスフォーメーションで使用できます。他の集計関数の中にネストできる集計関数は1つだけです。
PowerCenter統合サービス
は、最も内側の集計関数式を評価し、その結果を外側の集計関数式の評価に使用します。たとえば、次のように、IDでグループ分けして、2つの集計関数をネストしたAggregatorトランスフォーメーションを設定することができます。
SUM( AVG( earnings ) )
このとき、データセットには以下の値が格納されています:
ID
EARNINGS
1
32
1
45
1
100
2
65
2
75
2
76
3
21
3
45
3
99
戻り値は186です。
PowerCenter統合サービス
はIDでグループ分けし、AVG式を評価して3つの値を返します。次に、その値をSUM関数で追加して結果を出します。
式トランスフォーメーションでは、集計関数をウィンドウ関数として使用することもできます。Sparkエンジンでマッピングを実行するときに集計関数をウィンドウ関数として使用するには、ウィンドウ化のトランスフォーメーションを構成する必要があります。集計関数をウィンドウ関数として使用すると、式トランスフォーメーションがアクティブになります。