こんにちは。LayerX AI・LLM事業部でAi Workforceのプロダクトマネージャーを務めている稲生です。
Ai Workforce は、社内外に散在するドキュメントを活用し、抽出・分類・要約・生成などのタスクを自動化できる 横断型(Horizontal)AI プラットフォーム SaaS です。
今回は、最近力を入れているAi Workforceにおける 「精度評価」 の取り組みをご紹介します。
なぜ精度評価なのか
LLMを利用するプロダクトにおいて、その精度はとても重要です。
- LLMの進化は加速中
- OpenAIをはじめ、各社が次々と高性能なモデルを公開し、誰でも高精度な出力を得られる時代になりました。
- モデルの精度≠アプリケーションの精度
- 同じモデルを使っても、プロンプト設計やユースケース次第で最終的なアウトプットの質は大きく変わります。
- 低精度はUXとROIを損なう
- 人によるレビューや修正など、AIの精度を補う仕組みも必要ですが、シンプルにその精度が業務効率や投資対効果に直結することが多くあります。
だからこそ、導入前、導入後に一定以上の精度が出せているかを知ることが不可欠となります。
Horizontal SaaSにおける難しさ
Ai Workforceは様々な業界・業務でご利用いただけるプラットフォームですが、ユースケースごとに求められる評価指標も精度もまったく異なります。
- 見積書からの情報抽出・分類
- 主要指標:抽出・分類の正答率(Accuracy / Recall / Precision etc…)
- 評価方法:正解データとの比較
- 社内ドキュメントの調査
- 主要指標:意図理解・回答の妥当性(Hallucination / Relevance / Usefulness / Contextual Recall etc…)
- 評価方法:ユーザーフィードバック
データセット準備、正解作成、評価ロジックの設計はユースケースごとに異なり、個々の導入において人が方法を整備する必要があります。また、ワークフローなどのチューニングのたびに再評価が必要となります。
そのため、Horizontal SaaSにおいて、この作業量はどうしても膨らみがちです。
関連する課題として、AIエージェントがお客様のデータを利用するようなユースケースの場合、実際にお客様のデータが存在する環境で評価を行うケースもあり、セキュリティ観点のルールも遵守する必要があります。
見積書からの情報抽出・分類については、ちょうど先日プレスリリースを公開していますので、ぜひ併せてご覧ください。
私たちのアプローチ:仕組み化と標準化
- リリースから1年で見えてきたこと
- ここまで読んでいただいて、スマートに精度評価を行ってきたと思う方もいるかもしれませんが、とても泥臭く取り組んできています。
- 精度をExcelで集計したり、フィードバックとデータを手動で突き合わせたりと、人力な部分が多く存在しました。
- 仕組み化・標準化と聞くと当たり前感はあるのですが、様々なユースケースを扱う我々にとって、何を仕組み化すると、利用するお客様、導入を推進する我々に取って良いものにできるのかをこれまで決めきれていませんでした。
- この1年で多数のユースケースに取り組んだ結果として、我々のプロダクトにとってユースケースごとに共通する部分・しない部分や、パターンが徐々に見えてきました。
- そして、単純に評価指標の話だけでなく、導入や利用のプロセスに対して、評価をどう組み込むかが大切だと感じています。
- 泥臭さを脱却する基盤
- 大まかに2つのアプローチに取り組み中です。
- 自動評価
- テストデータ・正解データ・比較方法をシステム内で一元管理し、チューニングごとに自動評価できる仕組みの構築
- 繰り返しのチューニング作業の効率をあげることができることを目指します。
- ユーザーフィードバック
- ユーザーからのフィードバックを関連データと紐づけて管理・可視化する仕組みの構築
- お客様と我々がリアルタイムに同じものを見て、期待しない結果に対する原因の深掘りを効率的に行えることを目指します。
- ユースケースによってはこの2つを組み合わせる必要もあるかもしれません。
- そして、主にお客様の導入や利用において、どのタイミング・どの環境で精度を計測するのか、自分達にフィットする形を目指しています。
- 逆に初手としてまだやらないこともたくさんあるのですが、ここでは割愛します。
- 導入工数・リードタイムの短縮へ
- 精度評価の仕組み化・標準化を通して、チューニングを効率化したり、お客様の導入判断までを短縮できると考えています。
精度評価が拓く“次の価値”
精度評価を効率化・高度化するその先で、プロダクトをさらに成長させることができると考えています。
- AIの自己学習
- ユーザーフィードバックを AI が自律的に学習する際の判断に評価を利用
- モデル切り替え
- 新しいLLMモデルへ乗り換えるなど、再評価を手軽に実施可能
- 性能低下の検知
- 参照するデータの増加や、ワークフローなどの変更によって精度が劣化していないかをモニタリング
もちろんこれだけで成り立つものではないですが、使うほど賢くなるプロダクトの提供を目指して精度評価に取り組んでいきたいと考えています。
さいごに
最後までお読みいただきありがとうございます。
AI・LLM事業部では、こういった取り組みに一緒にチャレンジしていただけるエンジニアやPdMなどの職種でメンバーを募集中です。
少しでも興味を持っていただける方は、ぜひカジュアル面談からでもご応募いただけると幸いです。
Xの@LayerX_techアカウントではLayerXの様々な取り組みを発信していますので、是非こちらもフォローしてください。