Hi, I'm Ask INFA!
What would you like to know?
ASK INFAPreview
Please to access Ask INFA.

目次

Search

  1. はじめに
  2. トランスフォーメーション
  3. ソーストランスフォーメーション
  4. ターゲットトランスフォーメーション
  5. アクセスポリシートランスフォーメーション
  6. アグリゲータトランスフォーメーション
  7. B2Bトランスフォーメーション
  8. チャンキングトランスフォーメーション
  9. クレンジングトランスフォーメーション
  10. データマスキングトランスフォーメーション
  11. データサービストランスフォーメーション
  12. 重複排除トランスフォーメーション
  13. 式トランスフォーメーション
  14. フィルタトランスフォーメーション
  15. 階層ビルダートランスフォーメーション
  16. 階層パーサートランスフォーメーション
  17. 階層プロセッサトランスフォーメーション
  18. 入力トランスフォーメーション
  19. Javaトランスフォーメーション
  20. JavaトランスフォーメーションAPIリファレンス
  21. ジョイナトランスフォーメーション
  22. ラベラトランスフォーメーション
  23. ルックアップトランスフォーメーション
  24. 機械学習トランスフォーメーション
  25. マップレットトランスフォーメーション
  26. ノーマライザトランスフォーメーション
  27. 出力トランスフォーメーション
  28. 解析トランスフォーメーション
  29. Pythonトランスフォーメーション
  30. ランクトランスフォーメーション
  31. ルータトランスフォーメーション
  32. ルール仕様トランスフォーメーション
  33. シーケンストランスフォーメーション
  34. ソータートランスフォーメーション
  35. SQLトランスフォーメーション
  36. 構造パーサートランスフォーメーション
  37. トランザクション制御トランスフォーメーション
  38. 共有体トランスフォーメーション
  39. ベクトル埋め込みトランスフォーメーション
  40. Velocityトランスフォーメーション
  41. ベリファイヤトランスフォーメーション
  42. Webサービストランスフォーメーション

トランスフォーメーション

トランスフォーメーション

詳細モードでのドキュメントの読み取り

詳細モードでのドキュメントの読み取り

詳細モードでは、ソーストランスフォーメーションはPDFファイルからテキストを読み取ることができます。
ソーストランスフォーメーションは、テキスト、テーブル、見出し、メタデータなど、ドキュメントの完全な構造を抽出します。請求書やレポートなど、ドキュメント構造が異なるドキュメントから、テキストの順序を保持した状態でテキストを抽出できます。
PDFを読むには、
[ソース]
タブをクリックし、
[ドキュメント]
を選択します。
データ統合
は入力タイプを自動的に[PDF]に設定します。
PDFのディレクトリを読み取るには、詳細プロパティの
[ソースタイプ]
[ディレクトリ]
に変更します。
[ファイル名のオーバーライド]
には、「
*.pdf
」を入力します。
[フィールド]
タブには、各PDFのテキスト、ファイルパス、ファイルタイプ、およびファイル名を保存するフィールドが表示されます。
テキストをダウンストリームのチャンキングトランスフォーメーションとベクトル埋め込みトランスフォーメーションに渡してRAG取り込みパイプラインを構築するか、テキストを処理して、そこから構造化データを作成し、JSONファイルに書き込むことができます。