目次

Search

  1. はじめに
  2. Informatica Data Engineering Integrationについて
  3. マッピング
  4. マッピングの最適化
  5. ソース
  6. ターゲット
  7. トランスフォーメーション
  8. Pythonトランスフォーメーション
  9. クラスタワークフロー
  10. プロファイル
  11. 監視
  12. 階層データ処理
  13. 階層データ処理設定
  14. スキーマが変更された階層データの処理
  15. ブロックチェーン
  16. インテリジェント構造モデル
  17. ステートフルコンピューティング
  18. 接続
  19. データ型リファレンス
  20. 関数リファレンス

ユーザーガイド

ユーザーガイド

詳細オプション

詳細オプション

自動終了やオンデマンドインスタンスなどの詳細オプションを設定します。
次の表に、AWS Databricksクラスタに対して設定できる詳細オプションを示します。
プロパティ
説明
ローカルストレージの自動スケーリングの有効化
Databricksで、ワーカーノード上の使用可能なディスク容量を監視し、追加のEBSボリュームを自動的に追加できるようにします。
EBSボリュームタイプ
Databricksがクラスタノードに追加できるボリュームのタイプ。
このプロパティは、自動スケーリングを有効にするときに設定します。
ボリューム数
各インスタンスに対してプロビジョニングするボリューム数。0~10の範囲で値を入力してください。
このプロパティは、自動スケーリングを有効にし、EBSボリュームタイプを設定するときに設定します。
GB単位のサイズ
各EBSボリュームのサイズ(ギガバイト単位)。
このプロパティは、自動スケーリングを有効にし、EBSボリュームタイプを設定するときに設定します。
自動終了
クラスタの自動終了を有効にします。
自動終了時間
指定された分数、非アクティブだった後にクラスタを終了します。10~10,000の範囲で値を入力してください。これを設定しない場合、または0に設定した場合、クラスタは自動終了しません。
オンデマンド/スポット構成
オンデマンドノードの数。0~[全般オプション]で設定したワーカーノード数の範囲で値を入力します。残りのワーカーノードはすべてスポットインスタンスになります。
オンデマンドノードは常に使用可能です。スポットインスタンスは、使用不可になると、実行中のジョブを停止する場合があります。ドライバノードは常にオンデマンドノードです。
このプロパティは、
[オンデマンドにフォールバックするスポット]
を有効にするときに設定します。
デフォルトは1です。
オンデマンドにフォールバックするスポット
オンデマンドインスタンスをフォールバックとして使用できるようにします。
スポットインスタンスを使用しているときに、スポットインスタンスの市場価格がスポットの入札価格を上回った場合、AWSはそのスポットインスタンスを終了します。このプロパティを有効にすると、スポットインスタンスが終了したときにオンデマンドインスタンスが代わりに使用されます。
可用性ゾーン
AWSクラスタの可用性ゾーン。
デフォルトはus-east-1eです。
スポットの入札価格
スポットインスタンスに入札したオンデマンドインスタンス価格の最大割合(%)。
スポットインスタンスは、オンデマンド価格の割合(%)として価格付けされ、常に使用可能なわけではありません。
スポットインスタンスの市場価格がここで設定した入札価格を上回ったときに、
[オンデマンドにフォールバックするスポット]
を有効にしていない場合、AWSはスポットインスタンスを終了します。
デフォルトは100%です。
IAMロールARN
AWS IAM(Identity and Access Management)ロールに対応するインスタンスプロファイルのARN(Amazon Resource Name)。AWSコンソールから以下の形式で値をコピーします。
arn:aws:iam::<account-id>:instance-profile/<role-name>
IAMロールがあると、Databricksクラスタからデータにアクセスできます。Administratorツールで新しいIAMロールを追加します。
Spark設定
Databricks Sparkエンジンのパフォーマンス設定。key1='value1' key2='value2'の形式でキーと値のペアを入力します。キーと値のペアを含むファイルへのパスを指定することもできます。
環境変数
Databricks Sparkエンジンに対して設定できる環境変数。key1='value1' key2='value2'の形式でキーと値のペアを入力します。
クラスタタグ
トレースの目的でリソースに割り当てることができるラベル。<key1>=<value1>,<key2>=<value2>の形式でキーと値のペアを入力します。キーと値のペアを含むファイルへのパスを指定することもできます。
SSHパブリックキー
SSHを有効にしている場合にドライバおよびワーカーインスタンスにログインするためのSSHパブリックキー。Databricksコンソールから値をコピーします。
クラスタログ設定
長期ストレージ用のログを記録する場所。設定した場合、Databricks Sparkエンジンは5分間隔でログを記録します。
DBFSへのパスを指定します。
初期化スクリプト