Hi, I'm Ask INFA!
What would you like to know?
ASK INFAPreview
Please to access Ask INFA.

目次

Search

  1. はじめに
  2. トランスフォーメーション
  3. ソーストランスフォーメーション
  4. ターゲットトランスフォーメーション
  5. アクセスポリシートランスフォーメーション
  6. アグリゲータトランスフォーメーション
  7. B2Bトランスフォーメーション
  8. チャンキングトランスフォーメーション
  9. クレンジングトランスフォーメーション
  10. データマスキングトランスフォーメーション
  11. データサービストランスフォーメーション
  12. 重複排除トランスフォーメーション
  13. 式トランスフォーメーション
  14. フィルタトランスフォーメーション
  15. 階層ビルダートランスフォーメーション
  16. 階層パーサートランスフォーメーション
  17. 階層プロセッサトランスフォーメーション
  18. 入力トランスフォーメーション
  19. Javaトランスフォーメーション
  20. JavaトランスフォーメーションAPIリファレンス
  21. ジョイナトランスフォーメーション
  22. ラベラトランスフォーメーション
  23. ルックアップトランスフォーメーション
  24. 機械学習トランスフォーメーション
  25. マップレットトランスフォーメーション
  26. ノーマライザトランスフォーメーション
  27. 出力トランスフォーメーション
  28. 解析トランスフォーメーション
  29. Pythonトランスフォーメーション
  30. ランクトランスフォーメーション
  31. ルータトランスフォーメーション
  32. ルール仕様トランスフォーメーション
  33. シーケンストランスフォーメーション
  34. ソータートランスフォーメーション
  35. SQLトランスフォーメーション
  36. 構造パーサートランスフォーメーション
  37. トランザクション制御トランスフォーメーション
  38. 共有体トランスフォーメーション
  39. ベクトル埋め込みトランスフォーメーション
  40. Velocityトランスフォーメーション
  41. ベリファイヤトランスフォーメーション
  42. Webサービストランスフォーメーション

トランスフォーメーション

トランスフォーメーション

テキスト処理関数

テキスト処理関数

テキスト処理関数は、テキストの意味にとって有益な単語に焦点を当て、可変性を減らすことでNLPを支援し、ベクトル埋め込みのためにテキストデータをよりクリーンで、意味的により一貫性のあるものにします。RAGのユースケースでは、テキスト処理を行うことで、テキストがクリーンで一貫性を持つ状態となり、ユーザークエリと簡単に比較できるようになります。
テキスト処理関数によって、空白や発音区別符号などのノイズを削除してテキストをクリーンにし、単語を基本形にレンマ化することでテキストを標準形式に変換することができます。
次のようなテキスト処理関数を使用することができます。
テキストのクレンジング
余分なスペースとドットの連続を削除し、英字を小文字に変換することでテキストをクレンジングします。
発音区別符号の削除
文字の発音を変化させるアクセントなどの発音区別符号を削除します。例えば、
café
cafe
になります。
スペルチェック
データのコンテキストに基づいてスペルミスをチェックし、修正します。
レマタイズ
単語を基本形に変換します。例えば、
better
good
になり、
running
run
になります。
レマタイズ化によってデータのセマンティック精度が保持されるため、感情分析や機械翻訳を行う場合に役立ちます。
ストップワードを削除します。
代名詞、冠詞、前置詞、接続詞など一般的なストップワードを削除します。例えば、
This is a sample text
sample text
になります。
小文字への単語の変換およびストップワードの削除は、多くのNLPタスクに適用される、データの複雑さを軽減するためのシンプルかつ効果的な方法です。