HANAでも採用される「ベクトルデータベース機能」とは?
はじめに
ERPにAI機能が搭載され始めてから、はや数年が経過しました。
SAPに限らず、ERPとAIとの融合は今後のメジャーなアップデートになるはずです。
実際にSAPでも生成AIをサポートする機能が実装され始めています。
今回は生成AI関連機能のひとつである「ベクトルデータベース機能」を紹介します。
1.そもそもベクトルデータとは?
まず、ベクトルデータについて簡単に理解しておきましょう。
データベースにおけるベクトルデータとは、データを多次元空間のベクトルとして表現するデータのことです。
通常、数値のリストや配列として格納され、各次元は特定の特徴や属性を表しています。
このベクトルデータは、特に機械学習やデータサイエンスの分野で多く使用されます。
ベクトルデータは、データポイントを多次元空間の点として表現します。
たとえば、2次元ベクトルは平面上の点を表し、3次元ベクトルは空間内の点を表します。
これを一般化すると、n次元ベクトルはn次元空間内の点を表現します。
1-1.ベクトルデータの特徴
・多次元性: ベクトルは複数の数値で構成され、それぞれが特定の次元を表します。これにより、複雑なデータを多次元空間で表現できます。
・数値的表現: 各次元は数値で表され、これにより計算や解析が容易になります。
・距離計算: ベクトルデータは、ユークリッド距離やコサイン類似度などを使用してベクトル間の距離や類似度を計算できます。これにより、クラスタリングや分類などのアルゴリズムで利用されます。
1-2.ベクトルデータの応用例
・機械学習
ベクトルデータは、機械学習アルゴリズムの入力データとして広く使用されます。たとえば、画像認識では画像をピクセル値のベクトルとして表現し、自然言語処理では単語や文章を数値ベクトルに変換します。
・検索エンジン
検索エンジンは、文書やクエリをベクトルとして表現し、類似度計算を行って関連性の高い結果を返します。
・データベース管理
ベクトルデータを効率的に格納し、検索や解析を行うためのデータベースシステムやインデックス手法が開発されています。例えば、ベクトル検索エンジンやNoSQLデータベースなどがこれに該当します。
1-3.ベクトルデータのメリット
・効率的な計算: 多次元空間での距離計算や類似度計算が効率的に行えるため、検索や分類タスクに適しています。
・柔軟性: さまざまな種類のデータをベクトルとして表現できるため、画像、テキスト、音声など異なるデータ形式に対応可能です。
・スケーラビリティ: 大量のデータを扱う際にも、適切なインデックスやデータベース技術を使用することで、高速な検索や解析が可能です。
2.ではベクトルデータベースとは?
つぎにこれらベクトルデータを扱うベクトルデータベースを理解しておきましょう。
ベクトルデータベースは、画像、音声、文章などのデータを数値の配列で表現するベクトル形式でインデックス化し、高速に検索できるデータベースです。
このデータベースは、構造化データだけでなく、非構造データや半構造化データをも取り扱えます。
例えば、画像データでは、色、彩度、輝度などの特徴を数値化し、それを多次元空間で表現します。
ベクトルデータベースの特徴は、類似性の高いデータを効率的に見つけ出せる点です。
生成AI(人工知能)を活用するアプリケーションでは、大量のデータを学習した機械学習モデルであるLLM(大規模言語モデル)を使用します。
この機械学習モデルがデータを扱いやすくするために、画像や音声などの非構造データの特徴を数値化し、多次元で表現します。
生成AIの利用が増える中で、ベクトルデータベースの重要性も高まっています。
2-1.生成AIとベクトルデータベースとの親和性
生成AIからの回答の精度を高める手段として、RAG(Retrieval Augmented Generation、検索拡張生成)があります。
RAGは、LLMが回答を生成する際にユーザーのプロンプト(指示文)を受けて、外部の知識情報を参照する仕組みです。
この外部知識の検索で、ベクトル検索がよく使われます。
ベクトル検索では、テキストや画像などのデータを多次元の数値ベクトルで表現し、ユーザーの入力するテキストプロンプトもベクトル化します。
その後、ベクトル同士の類似度に基づいて検索結果を出力します。
したがって、「類似性の高いデータを効率的に見つけ出せる」というベクトルデータベースの特徴がマッチするわけです。
LLMの利用者は、大量のデータを高速に検索・処理したり、類似性の高い情報を効率的に見つけたりすることを求めています。
これらのニーズに応えるために、ベクトル形式でデータを格納・検索できるデータベースへの期待が高まっています。
2-2.普及機にあるベクトルデータベース
既存のクラウドサービスにもベクトル検索の機能が追加される動きが見られます。
例えば、Amazon Web Services(AWS)の「Amazon OpenSearch」、Googleの「Vertex AI Search」、Microsoftの「Azure AI Search」、Oracleの「OCI Search with OpenSearch」などがその例です。
これらのサービスは、ベクトルデータベースの利便性と高速検索能力を活用して、ユーザーのニーズに応えようとしています。
3.SAPにも実装された「ベクトルデータベース機能」
SAP ERPにもついに生成AI関連の機能が実装されましたね。
2023年11月28日の発表では、生成AIアシスタント機能を持つ統合開発環境「SAP Build Code」、や外部の生成AIと接続する「AI Foundation on SAP BTP」などが追加されました。
また、これら生成AI関連機能を支える技術として「ベクトルデータベース機能」も実装されています。
SAP HANAはインメモリデータベースという特徴を持ちますが、ついに最新のデータベース機能でもあるベクトルデータベースに対応します。
これにより、S/4 HANAに蓄積されたデータを活用した生成AIの利用の実装が可能になり、自社のデータが「付加価値の高い回答」として生成される環境が整うわけです。
まとめ
今回はSAP HANAに実装されたベクトルデータベース機能について解説しました。
SAPは生成AI関連の技術では最先端を行っているわけではありません。
しかし、AI関連機能を無償でアップデートしているため、現在利用中のユーザーに対して徐々に浸透していくでしょう。
生成AIに関する機能のアップデートはSAP ERP全体の付加価値を底上げするものになりそうですから、キャッチアップを忘れないようにしたいですね。