目次

Search

  1. はじめに
  2. 詳細クラスタ
  3. AWSの設定
  4. Google Cloudの設定
  5. Microsoft Azureの設定
  6. セルフサービスクラスタの設定
  7. ローカルクラスタの設定
  8. 詳細設定
  9. トラブルシューティング
  10. 付録 A: コマンドリファレンス

詳細クラスタ

詳細クラスタ

AWS上の詳細クラスタのトラブルシューティング

AWS上の
詳細クラスタ
のトラブルシューティング

詳細クラスタ
の起動に失敗したのはなぜですか。
詳細クラスタ
が起動に失敗した理由を調べるには、Secure Agentマシンの次のディレクトリにある
ccs-operation.log
ファイルを使用します。
<Secure Agent installation directory>/apps/At_Scale_Server/<version>/ccs_home/
次のテーブルに、クラスタが起動しないいくつかの理由を示します。
理由
考えられる原因
クラスタオペレータはクラスタの更新に失敗しました。
AWSアカウントでVPC制限に到達した。
マスターノードの起動に失敗した。
マスターインスタンスタイプは、指定されたリージョンまたは可用性ゾーン、またはAWSアカウントではサポートされていません。
すべてのワーカーノードを起動できなかった。
ワーカーインスタンスタイプは、指定されたリージョンまたは可用性ゾーン、またはAWSアカウントではサポートされていません。
Kubernetes APIサーバーが起動できなかった。
ユーザー定義のマスターロールでエラーが発生しました。
これらの理由の少なくとも1つが原因でクラスタが起動に失敗すると、
ccs-operation.log
ファイルにBadClusterConfigExceptionが表示されます。
例えば、次のようなエラーが発生する可能性があります。
2019-06-27 00:50:02.012 [T:000060] SEVERE : [CCS_10500] [Operation of <cluster instance ID>: start_cluster-<cluster instance ID>]: com.informatica.cloud.service.ccs.exception.BadClusterConfigException: [[CCS_10207] The cluster configuration for cluster [<cluster instance ID>] is incorrect due to the following error: [No [Master] node has been created on the cluster. Verify that the instance type is supported.]. The Cluster Computing System will stop the cluster soon.]
クラスタでBadClusterConfigExceptionが発生した場合、エージェントはすぐにクラスタを停止して、追加のリソースコストの発生を防ぎ、潜在的なリソースリークを回避します。エージェントは、設定エラーが解決されるまで、クラスタの回復を試みません。
詳細クラスタ
を起動するジョブを実行しましたが、VPC制限に達しました。
クラスタの
詳細設定
でVPCを指定しないと、Secure AgentはAWSアカウントに新しいVPCを作成します。AWSアカウントのVPCの数が各リージョンで制限されているため、VPC制限に到達した可能性があります。
VPC制限に達した場合は、
詳細設定
を編集し、次のいずれかのタスクを実行します。
  • それぞれのリージョンを指定します。
  • 可用性ゾーンを削除します。次に、既存のVPCおよび使用するクラスタのVPC内の特定のサブネットを指定します。
クラスタでプロビジョニングされたクラウドリソースは、クラスタが新しいリージョンまたは既存のVPCで起動する場合に再利用されます。例えば、Secure AgentがVPC制限のエラーを受信する前にAmazon EBSボリュームをプロビジョニングしたとします。EBSボリュームは削除されず、次の起動時に再利用されます。
詳細クラスタ
を起動するジョブを実行しましたが、次のエラーが発生し、クラスタの作成に失敗しました。
Failed to create cluster [<cluster instance ID>] due to the following error: [[CCS_10302] Failed to invoke AWS SDK API due to the following error: [Access Denied (Service: Amazon S3; Status Code: 403; Error Code: AccessDenied; Request ID: <request ID>; S3 Extended Request ID: <S3 extended request ID>)].].]
Secure Agentが
詳細クラスタ
の作成に失敗したのは、Amazon S3がエージェントの要求を拒否したためです。
S3バケットポリシーが、クライアントによる暗号化ヘッダーを含む要求の送信を求めていない事を確認してください。
起動に失敗したKubernetes APIサーバーをトラブルシューティングする方法
Kubernetes APIサーバーの起動に失敗すると、
詳細クラスタ
の起動に失敗します。この失敗をトラブルシューティングするには、代わりにKubernetes APIサーバーログを使用します。
Kubernetes APIサーバーログを見つけるには、次のタスクを実行します。
  1. Secure Agentマシンからマスターノードに接続します。
  2. マスターノードで、ディレクトリ
    /var/log/
    にあるKubernetes API Serverログファイルを見つけます。
詳細クラスタ
のステージングの場所を更新したら、次のエラーが発生しマッピングに失敗しました。
Error while executing mapping. ExecutionId '<execution ID>'. Cause: [Failed to start cluster for [01000D25000000000005]. Error reported while starting cluster [Cannot apply cluster operation START because the cluster is in an error state.].].
詳細設定
でS3ステージングの場所を変更する前にステージングの場所に対する権限を変更すると、このエラーが発生してマッピングが失敗します。
ステージングの場所を更新する場合は、最初に
詳細設定
でS3ステージングの場所を変更してから、AWSのステージングの場所に対する権限を変更します。ロールベースのセキュリティを使用した場合は、Secure Agentマシンでステージングの場所に対する権限を変更する必要もあります。
エラーを修正するには、次のタスクを実行します。
  1. ステージングの場所の権限に対する変更を元に戻します。
  2. 詳細設定
    を編集してS3ステージングの場所を元に戻します。
  3. 設定を保存すると、クラスタが停止します。
  4. 設定のS3ステージングの場所を更新してから、AWSでステージングの場所に対する権限を変更します。
詳細クラスタ
のステージングの場所を更新したら、エージェントジョブログに次のエラーメッセージが表示されるようになった。
Could not find or load main class com.informatica.compiler.InfaSparkMain
このエラーメッセージは、クラスタノードがアクセス権限のためにステージングの場所からSparkバイナリをダウンロードできない場合に表示されます。
ジョブが使用するコネクタのタイプに基づいて、ステージングの場所のアクセス権限を確認します。
Amazonデータソースへの直接アクセスを持つコネクタ
詳細ジョブ
で資格情報ベースのセキュリティを使用する場合は、Amazon S3 V2およびAmazon Redshift V2接続の資格情報がステージングの場所へのアクセスに使用できることを確認します。
詳細ジョブ
でロールベースのセキュリティを使用する場合は、
詳細クラスタ
およびステージングの場所が同じAWSアカウント内に存在することを確認します。
Amazonデータソースへの直接アクセスがないコネクタ
ユーザー定義のワーカーロールを使用する場合は、ワーカーロールが
詳細ジョブ
のステージングの場所とデータソースの両方にアクセスできることを確認します。
デフォルトのワーカーロールを使用する場合は、Secure Agentロールが
詳細ジョブ
のステージングの場所とデータソースの両方にアクセスできることを確認します。
Secure Agentマシンを再起動したら、
詳細クラスタ
のステータスがエラーになりました。
Secure AgentマシンおよびSecure Agentが稼働していることを確認します。次に、Monitorで
詳細クラスタ
を停止します。AWS環境では、クラスタの停止に3~4分かかる場合があります。クラスタが停止したら、
詳細ジョブ
を実行してクラスタを再起動できます。
カスタムAMIを使用してクラスタノードを作成する前に行う必要があること
カスタムAMI(Amazonマシンイメージ)を使用してクラスタノードを作成する場合は、AMIにAWS CLIのインストールが含まれていることを確認します。
Secure AgentはAWS CLIを使用して、タグをAmazonリソースにプロパゲートし、ログを集計します。また、クラスタノードはAWS CLIを使用して初期化スクリプトを実行します。
カスタムAMIの使用方法については、Informaticaグローバルカスタマーサポートにお問い合わせください。