こんにちは。バクラク事業部 機械学習・データ部 データグループの@civitaspoです。2024年6月3日から6日にかけてサンフランシスコで開催されたSnowflake Data Cloud Summit 2024に現地参加してきました。本記事では、その様子や感想をレポートしようと思います。
Snowflake Data Cloud Summit 2024 とは?
Snowflake Data Cloud Summit 2024(以下、Summit)は2024年6月3日から6日にかけてサンフランシスコのモスコーニ・センターで開催された、Snowflake社が年次で主催する最大のユーザーカンファレンスです。Snowflakeの最新技術やデータクラウドの未来を語る基調講演に始まり、450を超えるセッションやハンズオンが行われました。参加者は全体で約1万5000人にのぼり、日本からは250人が参加しました。
LayerXからは@civitaspoが1人で参加しました。バクラク事業部では現在、Snowflakeの導入を進めていますが、本格的な利用には至っていません。しかし、今後の利用拡大を見据えて、世界のSnowflake導入企業様の事例やノウハウを学び、他のSnowflake導入企業様とのつながりを作ることを目指して参加しました。
また、Snowflakeを導入するからには、コミュニティへの貢献も重要だと私は考えています。良いプロダクトやプラットフォームには良いフィードバックループがあり、そのフィードバックループを支えるのがコミュニティである、と考えているからです。そのため、コミュニティの皆さんと仲良くなり、私たちがどのように貢献できるかを考える、という目的も私個人としては持っていました。
Keynote: AI Data Cloudというブランドメッセージ
Keynoteでは今年CEOに就任したSridharから発された「The Era of Enterprise AI Is Here.」というメッセージに加え、「AI Data Cloud」というブランドメッセージが強調されていました。Snowflakeは単なるData Cloudではなく、AI Data Cloudである。そして、Enterprise-gradeのAIを創るためのプラットフォームとして、高い信頼性・高いパフォーマンスをもつAIを低コストで堅牢に創ることができるようになった、と。
このメッセージに続いて、Co-Founder兼President of ProductsであるBenoitからSnowflakeが持つ「One Product」の哲学について語られました。Data、Compute、AI、Security & Governance、そしてCollaborationの5つの要素が1つのプロダクトでシームレスに統合されているAI Data Cloudであるからこそ、企業はデータとAIを活用して新しい価値を生み出すことができる、と。
実は私は、この「One Product」の哲学をKeynoteで聞いたとき、その有効性について、しっくり来ていませんでした。特に、コンテナをホスティングするようなワークロードを、AWSやGoogle Cloud、Azureといったクラウドベンダー上ではなく、あえてSnowflake上で動かすことに関しては懐疑的な考えを持っていました。しかし、Summitで開催されていたAIプロダクトを作るハンズオンやセッションを通して考えが大きく変わりました。
AIの文脈において、大量のデータが存在していることは必須要件です。もし、Snowflakeへデータを置き、学習環境やアプリケーションホスティング環境に別のクラウドベンダーを選択した場合、データの移動が必要になります。このデータの移動には多くの困難が伴います。通信コスト、通信環境のセキュリティ担保、データ鮮度の担保、コンプライアンスの確認、などです。
しかし、すべてSnowflake上で実現できるならどうでしょうか。データの移動が発生しないため、多くの障壁をスキップして、AIの開発に専念することができます。データプロダクトを提供する場合も、考え方は同じです。大量のデータが存在する場所でロジックを動かすことが、事業スピードを上げることができるのです。
と、ここまで書いた文章を読み返すと「そんなの当然じゃないか」と思われる方もいると思います。SnowflakeがAI Data Cloudと語るシームレスな体験は「One Product」として高いレベルでのインターフェース設計も行われていました。開発体験が一貫しているので、環境構築時に迷うポイントが少なく、必要な環境をスピーディに構築することができました。つまり、データの移動が発生しないという意味での「One Product」だけでなく、全体を通して一貫した体験設計ができているという意味での「One Product」も実現されていたのです。私は今回のSummitを通じて、Snowflake上でAIプロダクトやデータプロダクトを実装することが顧客への価値提供の速度を上げられる確信を持ちました。
Keynoteでは、この「AI Data Cloud」を強化する新機能の発表が大量にありました。個人的には、AIの開発を加速させる機能(Snowflake Notebook / Snowflake AI & ML Studio / Feature Store / Internal Marketplace)と、データガバナンス・データディスカバリーを加速させるClassification関連の機能(Data Classification Interface / Custom Classification / Auto Classification / Automatic Tag Propagation)の発表が刺さりました。最後にお気持ちだけ発表された、可観測性向上のための機能であるSnowflake Trailもアツい発表でしたね。機能発表に関しては多すぎて書ききれないのでこれくらいにしておきます笑
セッションも最高だった
セッションも最高でした。私は、Snowflakeの開発者がSnowflakeの内部仕様を説明するセッションや、LayerXとは事業領域や事業規模が全く異なる企業様のSnowflake活用事例を聞くセッションを中心に回りました。
An Inside Look at Platform Performance Improvements at Snowflake
— キヴィタスポ(人工知能) (@Civitaspo) June 6, 2024
micro-partitioningのデータの持ち方やpruningの方法、最近の改善が超細かく説明されてて最高だった。こういう細部の話が聞きたかったのよ。#SnowflakeSummit #DataCloudSummit pic.twitter.com/pAHwwbCKXc
Under the Hood of Hybrid Tables. HTのストレージはNVMe接続したSSDで、foundationdbというOSSのKVSをVM上で動かして実現してる。更にパフォーマンスを出すため、出力ログ削減やメタデータ遅延同期、シングルプロセスでマルチクエリ処理など。超深くて面白かった。#SnowflakeSummit #DataCloudSummit
— キヴィタスポ(人工知能) (@Civitaspo) June 6, 2024
All You Need to Know About Network Security in Snowflake. Snowflakeに対するIngress/Egress通信を深掘りするセッション。Snowsightが別VPCでPeeringしてアクセスしてるのも、External accessのためにproxy立ち上げてるのも意識したことがなかった。#SnowflakeSummit #DataCloudSummit pic.twitter.com/6bRdy00wNz
— キヴィタスポ(人工知能) (@Civitaspo) June 6, 2024
特に感動したのは「Migrating from ElasticSearch to Snowflake: Best Practices from Sygnia」というセッションでした。Sygnia社はサイバーセキュリティ領域の会社で、大量のログをElasticsearhへ格納して検索機能を分析者向けに提供していました。しかし、Elasticsearhに対する運用面・金銭面の課題からSnowflakeへのリプレイスを実施しました。このリプレイスでは、Elasticsearhで実現できていた機能をSnowflake上で実現するため、涙ぐましい努力(全文検索のためにデータ構造を変換したり、Top-Kクエリの最適化のためクエリの書き方を変えたり…)が行われていました。結果として、35%のコスト削減、40%のサポートチケット削減、接続クライアントのキャパシティ上昇など、様々な改善が実現できたようです。
話はこれで終わりません。感動したポイントはここからです。なんとSnowflake社は、Sygnia社の直面した課題や同社へのヒアリングを通じて、Search Optimizationにおける全文検索の最適化やTop-K Pruningの最適化を行ったのです。Keynoteでも語られていましたが、Snowflakeが顧客の成功を重要視していることがよく分かるストーリーで、感動してしまいました。
Elasticsearch のワークロードを Snowflake 上で実現するために苦労した話、最終的に Snowflake に Search Optimization の機能が入ってめっちゃいい話だった。FULL TEXT Search で用途特化の関数(SEARCH_EMAIL,SEARCH_URL,SEARCH_FILE)が今後追加予定とのこと!#SnowflakeSummit #DataCloudSummit pic.twitter.com/4qeSvyn40I
— キヴィタスポ(人工知能) (@Civitaspo) June 5, 2024
現地参加して良かった!
Summitでは、現地参加することでしか味わえない体験が多数ありました。
Snowflake開発者との交流・出会い
まず、一番良かったのは開発者との交流です。SnowflakeにはDocument AIというLLMを使った文書処理機能があります。このDocument AIを担当するプロダクトマネージャーとディスカッションさせていただきました。LayerXが運営するバクラクでは、お客様からお預かりした請求書や領収書など、大量の文書を扱っています。その運用経験を基に、Document AIを改善するための運用課題の共有やフィードバックを行いました。
また、Developer AdvocateのFelipeとお話する機会も持てました。技術的に少し込み入った話をしたのですが、その後、X(Twitter)のDMでフォローアップのメッセージをくれました。Snowflakeが顧客の成功を重要視していることを改めて理解できました。
Snowflake Communityの方々との交流・出会い
Snowflake Communityとの交流も現地参加して良かったと思えるポイントでした。Summit期間中、参加者同士でコミュニケーションする機会が何度も提供されていました。様々な背景を持った方々と、良かったセッションやブースの共有、発表された新機能、といったSnowflakeの話題を中心にお話することができる機会は非常に貴重な機会でした。私が非常に貴重だなと思ったのは、単なるネットワーキングの場としてではなく、Snowflakeをどのように事業に活かしていくか、本気で考えている人たちと話せる場として機能していたからです。「データ」という特定領域に特化して話せるからでしょうか、文章からは伝わりにくいと思うのですが、熱量高く深い議論ができるので、普段得られない視点やアイデアを得ることができました。
おわりに
この記事では、Snowflake Data Cloud Summit 2024への参加レポートをお届けしました。実は、私自身、海外カンファレンスへの初参加であり、LayerXとしても海外カンファレンスへの参加はあまり例がなかったため、大きな不安とプレッシャーを感じていました。しかし、Summitの期間中に、Snowflake社員の方々が私に限らず、全ての参加者が良い体験を得られるよう尽力してくれたおかげで、有意義な参加となりました。この機会を借りて、改めて感謝の意を表明したいと思います。ありがとうございました。
LayerXでは一緒にデータ基盤を作ってくれる仲間を募集しています。ちょっとでも興味のある方は一度ぜひお話しましょう!
open.talentio.com open.talentio.com open.talentio.com
SnowVillageに参加しよう!
日本には、SnowVillageというSnowflakeコミュニティがあります。Snowflakeやそのエコシステムを学び、切磋琢磨するコミュニティです。Snowflakeを知りたいという方はぜひ参加しましょう。