こんにちは！LayerXのバクラク事業で機械学習・データ周りを担当しております、たかぎわ (@shun_tak) と申します。

みなさま、ChatGPTの登場に衝撃を受け、これを日々の生活やビジネスに活用されていることかと思います。わたしも社内でChatGPT活用の勉強会を開催したところ、大変大きな反響をいただきました。

tech.layerx.co.jp

ChatGPTの登場以来、AIを前提としたユーザー体験の構築、すなわちAI-UXの実現を目指すことがLayerX社内の共通認識になりました。LayerXは、プロダクトだけでなくあらゆるビジネスプロセスにおいて、ユーザー体験をAIを前提に再構築するAI Transformation (AX) を推進することで、生産性革命を実現しようとしています。

comemo.nikkei.com

AI-UXやAXの実現を通じて、仕事や暮らしの中にある摩擦を解消し、それぞれの創造性が発揮される優しいデジタル社会を実現していこうというのがLayerXの大きな方針です。この方針を実現するにあたり、社内やバクラク事業のデータをどう活用すべきか、そのためのデータ基盤をどのような方向性で構築し、進化させていくかを考えてきました。

データ基盤の進化に向けた実装はこれからですが、本記事では現時点での方針を共有したいと思います。

なお、7月はエンジニアブログがたくさん出る #ベッテク月間です。こちらのカレンダーに、これまでの記事と今後出る予定をまとめてます。よければぜひチェックしてみてください！

LLMの価値
マルチモーダル変換技術の進化
非構造化データから構造化データを生成
非構造化データのETLプロセスのサイロ化
LLM時代のデータ基盤
まとめ
関連する求人票

LLMの価値

ここは簡単に触れるにとどめますが、LLMの価値の本質は以下と考えています。

テキストに対する理解力、生成能力の高さ
大量のデータセットに基づく知識の広さと、様々なタスクに対する適応力の高さ
実行時間の速さ (ほとんどの人間より速い)

こういった能力があることで、例えば商談メモのようなテキストをLLMで解釈し、要約を作成したり、顧客の課題やビジネスプロセス、提案した商品、そのときの顧客の反応といった情報を抽出することができます。

マルチモーダル変換技術の進化

最近のLLMは画像を理解できるようになりつつありますが、これを支えているのがOCR (Optical Character Recognition) という画像からテキストに変換する技術です。

さらに、音声からテキストに変換するWhisperのようなAIや、動画、表、Webページ、プレゼンテーションといったファイルからテキストを抽出するAIも急速に発展しています。

LLMで処理可能なテキストデータを増やすための技術が進化することで、LLMを使うための環境も変化しています。

非構造化データから構造化データを生成

データを活用しようとする時、基本的にはビジネス課題や分析要求が先にあり、持っているデータの中からその要求を満たすものを探します。データが無い場合、データを用意しないと分析できないという課題がありました。

しかし、LLMの登場とマルチモーダル変換技術の進化により、商談の録音などの非構造化データから、ビジネス課題や分析要求を満たす構造化データを生成できるようになりました。

その事例として、私たちは「Sales portal」という社内サービスを新規開発し、まずは商談の文字起こしと要約を提供しています。

なお、Sales portalの実際の画面の一部が福島のnoteで紹介されています。

note.com

また、後からデータを生成することで、Salesforceへの手入力をかなり減らすこともできます。

こういった環境の変化があるため、商談の録音など、これまで扱いづらかった未加工のデータを捨てずに残していくことが重要になっています。

非構造化データのETLプロセスのサイロ化

バクラクは既に独自のOCR (image-to-text-to-structured-data) を開発・提供しており、画像からテキストへ、テキストから構造化データへの変換が可能です。一方で、バクラクOCRで利用している画像に対して、別の用途で収集・変換する開発が各所で進んでおり、処理プロセスがサイロ化し始めています。

これは、一部の組織で担っていた機械学習の開発がLLMの登場により民主化され、非構造化データのETL (Extract/Transform/Load : 抽出・変換・ロード) も自然と各所で実装されてしまったため進行したと考えられます。

サイロ化することで、様々な変換処理の実装が再発明されて大変ですし、その都度データウェアハウスへのロードも必要になります。単純なテーブルデータならいいのですが、Amazon S3に文字起こし結果が置かれている場合、それをロードするのも一苦労です。