LayerX エンジニアブログ

LayerX の エンジニアブログです。

LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間

こんにちは!LayerXのバクラク事業で機械学習・データ周りを担当しております、たかぎわ (@shun_tak) と申します。

みなさま、ChatGPTの登場に衝撃を受け、これを日々の生活やビジネスに活用されていることかと思います。わたしも社内でChatGPT活用の勉強会を開催したところ、大変大きな反響をいただきました。

tech.layerx.co.jp

ChatGPTの登場以来、AIを前提としたユーザー体験の構築、すなわちAI-UXの実現を目指すことがLayerX社内の共通認識になりました。LayerXは、プロダクトだけでなくあらゆるビジネスプロセスにおいて、ユーザー体験をAIを前提に再構築するAI Transformation (AX) を推進することで、生産性革命を実現しようとしています。

comemo.nikkei.com

AI-UXやAXの実現を通じて、仕事や暮らしの中にある摩擦を解消し、それぞれの創造性が発揮される優しいデジタル社会を実現していこうというのがLayerXの大きな方針です。この方針を実現するにあたり、社内やバクラク事業のデータをどう活用すべきか、そのためのデータ基盤をどのような方向性で構築し、進化させていくかを考えてきました。

データ基盤の進化に向けた実装はこれからですが、本記事では現時点での方針を共有したいと思います。

なお、7月はエンジニアブログがたくさん出る #ベッテク月間です。こちらのカレンダーに、これまでの記事と今後出る予定をまとめてます。よければぜひチェックしてみてください!

LLMの価値

ここは簡単に触れるにとどめますが、LLMの価値の本質は以下と考えています。

  • テキストに対する理解力、生成能力の高さ
  • 大量のデータセットに基づく知識の広さと、様々なタスクに対する適応力の高さ
  • 実行時間の速さ (ほとんどの人間より速い)

こういった能力があることで、例えば商談メモのようなテキストをLLMで解釈し、要約を作成したり、顧客の課題やビジネスプロセス、提案した商品、そのときの顧客の反応といった情報を抽出することができます。

マルチモーダル変換技術の進化

最近のLLMは画像を理解できるようになりつつありますが、これを支えているのがOCR (Optical Character Recognition) という画像からテキストに変換する技術です。

さらに、音声からテキストに変換するWhisperのようなAIや、動画、表、Webページ、プレゼンテーションといったファイルからテキストを抽出するAIも急速に発展しています。

LLMで処理可能なテキストデータを増やすための技術が進化することで、LLMを使うための環境も変化しています。

非構造化データから構造化データを生成

データを活用しようとする時、基本的にはビジネス課題や分析要求が先にあり、持っているデータの中からその要求を満たすものを探します。データが無い場合、データを用意しないと分析できないという課題がありました。

しかし、LLMの登場とマルチモーダル変換技術の進化により、商談の録音などの非構造化データから、ビジネス課題や分析要求を満たす構造化データを生成できるようになりました。

その事例として、私たちは「Sales portal」という社内サービスを新規開発し、まずは商談の文字起こしと要約を提供しています。

なお、Sales portalの実際の画面の一部が福島のnoteで紹介されています。

note.com

また、後からデータを生成することで、Salesforceへの手入力をかなり減らすこともできます。

こういった環境の変化があるため、商談の録音など、これまで扱いづらかった未加工のデータを捨てずに残していくことが重要になっています。

非構造化データのETLプロセスのサイロ化

バクラクは既に独自のOCR (image-to-text-to-structured-data) を開発・提供しており、画像からテキストへ、テキストから構造化データへの変換が可能です。一方で、バクラクOCRで利用している画像に対して、別の用途で収集・変換する開発が各所で進んでおり、処理プロセスがサイロ化し始めています。

これは、一部の組織で担っていた機械学習の開発がLLMの登場により民主化され、非構造化データのETL (Extract/Transform/Load : 抽出・変換・ロード) も自然と各所で実装されてしまったため進行したと考えられます。

サイロ化することで、様々な変換処理の実装が再発明されて大変ですし、その都度データウェアハウスへのロードも必要になります。単純なテーブルデータならいいのですが、Amazon S3に文字起こし結果が置かれている場合、それをロードするのも一苦労です。

LLM時代のデータ基盤

サイロ化の問題を解決するため、データ基盤で共通の仕組みを提供していくことになります。

文字起こし結果をデータウェアハウスから参照でき、LLMによる要約や情報抽出もデータウェアハウスに格納できるよう、画像や音声のETLプロセスを共通化していきます。これにより、データ基盤を通じて分析や機械学習モデリングが可能になります。

こうした標準プロセスをデータ基盤で提供することで、社内やバクラク事業のデータがより速く、より高い品質で活用できるようになります。その結果、分析や機械学習モデリングを通じて、新たなユーザー体験、顧客価値を提供していけるようになるでしょう。

まとめ

  • LLMとマルチモーダル変換技術の進化により、画像や音声のデータ活用ができるようになった
  • 画像や音声の活用が進む一方で、ETLプロセスがサイロ化している
  • LLM時代のデータ基盤では、非構造化データを集約し、そのETLプロセスを提供することで、データをより速く、より高い品質で活用できるようになる

LLM時代のデータ基盤はこれから作っていくフェーズです。あと、ぶっちゃけここに書いた内容が正解とは思ってません。ともに新しい正解を作っていく仲間を募集しておりますので、気になった方はぜひお気軽に、まずはカジュアル面談からご応募ください!お待ちしております!

jobs.layerx.co.jp

関連する求人票

open.talentio.com

open.talentio.com

open.talentio.com