詳細クラスタ

前へ次へ

AWS上の詳細クラスタのトラブルシューティング

AWS上の
詳細クラスタ
のトラブルシューティング

詳細クラスタ の起動に失敗したのはなぜですか。

詳細クラスタ

が起動に失敗した理由を調べるには、Secure Agentマシンの次のディレクトリにある

ccs-operation.log

ファイルを使用します。

<Secure Agent installation directory>/apps/At_Scale_Server/<version>/ccs_home/

次のテーブルに、クラスタが起動しないいくつかの理由を示します。

理由	考えられる原因
クラスタオペレータはクラスタの更新に失敗しました。	AWSアカウントでVPC制限に到達した。
マスターノードの起動に失敗した。	マスターインスタンスタイプは、指定されたリージョンまたは可用性ゾーン、またはAWSアカウントではサポートされていません。
すべてのワーカーノードを起動できなかった。	ワーカーインスタンスタイプは、指定されたリージョンまたは可用性ゾーン、またはAWSアカウントではサポートされていません。
Kubernetes APIサーバーが起動できなかった。	ユーザー定義のマスターロールでエラーが発生しました。

これらの理由の少なくとも1つが原因でクラスタが起動に失敗すると、

ccs-operation.log

ファイルにBadClusterConfigExceptionが表示されます。

例えば、次のようなエラーが発生する可能性があります。

2019-06-27 00:50:02.012 [T:000060] SEVERE : [CCS_10500] [Operation of <cluster instance ID>: start_cluster-<cluster instance ID>]: com.informatica.cloud.service.ccs.exception.BadClusterConfigException: [[CCS_10207] The cluster configuration for cluster [<cluster instance ID>] is incorrect due to the following error: [No [Master] node has been created on the cluster. Verify that the instance type is supported.]. The Cluster Computing System will stop the cluster soon.]

クラスタでBadClusterConfigExceptionが発生した場合、エージェントはすぐにクラスタを停止して、追加のリソースコストの発生を防ぎ、潜在的なリソースリークを回避します。エージェントは、設定エラーが解決されるまで、クラスタの回復を試みません。

詳細クラスタ を起動するジョブを実行しましたが、VPC制限に達しました。

クラスタの

詳細設定

でVPCを指定しないと、Secure AgentはAWSアカウントに新しいVPCを作成します。AWSアカウントのVPCの数が各リージョンで制限されているため、VPC制限に到達した可能性があります。

VPC制限に達した場合は、

詳細設定

を編集し、次のいずれかのタスクを実行します。

それぞれのリージョンを指定します。

可用性ゾーンを削除します。次に、既存のVPCおよび使用するクラスタのVPC内の特定のサブネットを指定します。

クラスタでプロビジョニングされたクラウドリソースは、クラスタが新しいリージョンまたは既存のVPCで起動する場合に再利用されます。例えば、Secure AgentがVPC制限のエラーを受信する前にAmazon EBSボリュームをプロビジョニングしたとします。EBSボリュームは削除されず、次の起動時に再利用されます。

詳細クラスタ を起動するジョブを実行しましたが、次のエラーが発生し、クラスタの作成に失敗しました。

Failed to create cluster [<cluster instance ID>] due to the following error: [[CCS_10302] Failed to invoke AWS SDK API due to the following error: [Access Denied (Service: Amazon S3; Status Code: 403; Error Code: AccessDenied; Request ID: <request ID>; S3 Extended Request ID: <S3 extended request ID>)].].]

Secure Agentが

詳細クラスタ

の作成に失敗したのは、Amazon S3がエージェントの要求を拒否したためです。

S3バケットポリシーが、クライアントによる暗号化ヘッダーを含む要求の送信を求めていない事を確認してください。

起動に失敗したKubernetes APIサーバーをトラブルシューティングする方法

Kubernetes APIサーバーの起動に失敗すると、

詳細クラスタ

の起動に失敗します。この失敗をトラブルシューティングするには、代わりにKubernetes APIサーバーログを使用します。

Kubernetes APIサーバーログを見つけるには、次のタスクを実行します。

Secure Agentマシンからマスターノードに接続します。

マスターノードで、ディレクトリ

/var/log/

にあるKubernetes API Serverログファイルを見つけます。

詳細クラスタ のステージングの場所を更新したら、次のエラーが発生しマッピングに失敗しました。

Error while executing mapping. ExecutionId '<execution ID>'. Cause: [Failed to start cluster for [01000D25000000000005]. Error reported while starting cluster [Cannot apply cluster operation START because the cluster is in an error state.].].

詳細設定

でS3ステージングの場所を変更する前にステージングの場所に対する権限を変更すると、このエラーが発生してマッピングが失敗します。

ステージングの場所を更新する場合は、最初に

詳細設定

でS3ステージングの場所を変更してから、AWSのステージングの場所に対する権限を変更します。ロールベースのセキュリティを使用した場合は、Secure Agentマシンでステージングの場所に対する権限を変更する必要もあります。

エラーを修正するには、次のタスクを実行します。

ステージングの場所の権限に対する変更を元に戻します。

詳細設定

を編集してS3ステージングの場所を元に戻します。

設定を保存すると、クラスタが停止します。

設定のS3ステージングの場所を更新してから、AWSでステージングの場所に対する権限を変更します。

詳細クラスタ のステージングの場所を更新したら、エージェントジョブログに次のエラーメッセージが表示されるようになった。

Could not find or load main class com.informatica.compiler.InfaSparkMain

このエラーメッセージは、クラスタノードがアクセス権限のためにステージングの場所からSparkバイナリをダウンロードできない場合に表示されます。

ジョブが使用するコネクタのタイプに基づいて、ステージングの場所のアクセス権限を確認します。

Amazonデータソースへの直接アクセスを持つコネクタ: 詳細ジョブ
で資格情報ベースのセキュリティを使用する場合は、Amazon S3 V2およびAmazon Redshift V2接続の資格情報がステージングの場所へのアクセスに使用できることを確認します。

詳細ジョブ
でロールベースのセキュリティを使用する場合は、
詳細クラスタ
およびステージングの場所が同じAWSアカウント内に存在することを確認します。
Amazonデータソースへの直接アクセスがないコネクタ: ユーザー定義のワーカーロールを使用する場合は、ワーカーロールが
詳細ジョブ
のステージングの場所とデータソースの両方にアクセスできることを確認します。

デフォルトのワーカーロールを使用する場合は、Secure Agentロールが
詳細ジョブ
のステージングの場所とデータソースの両方にアクセスできることを確認します。