LayerX エンジニアブログ

LayerX の エンジニアブログです。

バクラクシリーズの DevOps チームの取り組み~CUJ/SLI 策定のご紹介~

この記事は、6月から始まっている #LXベッテク月間 13日目の記事です。
昨日は @michiru_da さんの 【すぐできる】LayerX カスタマーサクセスチームのBet Technology施策でした 📝 CS チームの Bet Technology な取組みが紹介されているので見てない方はぜひご覧ください!


こんにちは、LayerXで バクラクシリーズ のインフラを担当している DevOps チーム の多田(@tada_infra)です。私が所属する DevOps チームは今年から組成されたことで、チームとして取り組みを推進できるようになりました。この記事では DevOps チームの直近の取り組みをご紹介します。

DevOps チームの役割とロードマップの作成

私達はチームが組成された当初にチームの役割・達成したいことからクオーターごとのロードマップを策定し、各テーマごとの取り組みを書き出していきました。ロードマップを引いたことで直近自分たちがどんな課題と向き合っていくのか、改善していくのかが明瞭化されました。

チームの役割

  • サービスインフラの開発・運用
  • 開発チームの支援
  • Bizチームの支援

チームが達成したいこと

  • サービスの開発速度を落とさない(アウトカムの最大化)
  • インシデントの予防(組織の人数が増えてきたのでオペミス等が起こらないように改めて体制やオペレーションの見直し)
  • お客様の体験を損なわない

直近クオーターのロードマップ図抜粋

お客様の体験を損なわないために

上述のように DevOps チームが達成したいことの中に「お客様の体験を損なわない」というのを掲げました。そのためにはシステムの現状を把握し、お客様に安定したサービス提供ができているかをウォッチする必要があります。システムの監視を入れているため、概況は把握できているのですが、特定の機能レベルのパフォーマンスやエラーレートのデータ収集といったことはできていませんでした。プロダクトの利用体験に影響する機能が安定しているかどうかを監視し、開発チームや社内の関係者にこのデータを提供していくことでプロダクトの開発に活かせる状態をチームとして目指していくことにしました。そこで、私達はこの目的を達成していくための手法として Service Level Objective(以下、SLO) を設定し、システムの現状を計測・運用していくことで、「お客様の体験を損なわない」状態の実現を図っていくことにしました。

チーム内の取り組みより抜粋

CUJ と SLI の検討

はじめに、バクラクシリーズにおける Critical User Journey(以下、CUJ)がどこかを選択するディスカッションしました。各プロダクト毎のユーザー体験で重要な機能ってどこだろうというところから各プロダクト毎にお客様の体験に影響を与えている部分を話し合い、ここで列挙した機能ごとに指標となる Service Level Indicator(以下、SLI) を決めていきました。また、チーム内での議論を踏まえ、開発チームに各プロダクトごとの指標を展開してフィードバックをもらいました。

CUJ と SLI 考慮過程抜粋

自チーム内の議論やフィードバックを踏まえて、プロダクト毎に指標に関するデータの収集と可視化を行っていってます。弊社では Datadog を監視に利用しており、Datadog の SLO 機能や各種ログ、メトリクスを活用してプロダクトごとの指標データをダッシュボードに表示していきました。各プロダクト毎にダッシュボードを整えつつ、表示したデータの経過を見ながら SLO の具体的数値を定めていく活動を今後実施していきます。

ダッシュボードイメージ例

まとめ

DevOps チームの直近の取り組みの中でも CUJ/SLI の検討過程について紹介させていただきました。SLO の数値を決めて実運用を行うのはこれからですが、バクラクシリーズを利用いただいているお客様の体験向上に資するデータを提供していけるようブラッシュアップしていきます。その模様もまた記事に書いていきます。

なお、本記事でご紹介した活動においては、下記のブログや資料を参考にさせていただきつつ進めました。

medium.com

We are Hiring!!!

弊社では共に世の中をバクラクにしてくれる仲間を絶賛募集中です!

open.talentio.com

open.talentio.com