【開催レポート】チームとコミュニティで監視を育てる 〜Mackerel Meetup #15 Tokyoを開催しました!

こんにちは、Mackerel CREチームの id:kmuto です。

2023年12月19日、「Abema Towers」セミナールームにて、Mackerel Meetup #15 Tokyoを開催しました。今回は「チームとコミュニティで監視を育てる」をテーマに、SRE、SLI/SLO、信頼性といったキーワードが飛びかい、大いに刺激的で盛り上がった集いとなりました!

mackerelio.connpass.com

会場の紹介

今回のMeetupは株式会社サイバーエージェントさまにご協力をいただき、同社の拠点ビルのAbema Towers、その10階のセミナールームを会場としてお借りしました。ありがとうございます!!

フロアはたくさんの会議室で構成されており、案内なしには迷ってしまいそうなほど。お借りしたセミナールームもとても立派です!

セミナールーム設営準備

グッズのセットアップ。Mackerelロゴ入りの長袖Tシャツのほかに、冷え込みが厳しくなる日々に合わせてオリジナルデザインのカイロとドリップコーヒー、そして現代人の疲れ目を癒すためのアイマスクを配布しました。

寒くなってきても安心のロングTシャツ
Mackerel Meetup #15限定グッズです

ノベルティデザインについて詳しくは下記の記事もぜひご参照ください!

mackerel.io

開催挨拶

皆さまをお席にお迎えして、いよいよMackerel Meetup #15、始まりです。

株式会社はてなでMackerelプロデューサーを務める渡辺起( id:wtatsuru )より、参加されたMackerelユーザーの皆さまが開発者と率直な意見交換する場としてMeetupを使ってほしいこと、今回のSREをテーマにしたセッションが楽しめるものになることを願って、開催の挨拶といたしました。

id:wtatsuruの開催挨拶

「Mackerelの2023年ふりかえりと今後のロードマップ」

最初のセッションは、開催挨拶から引き続いて id:wtatsuru が、今年のMackerelをふりかえり、来年2024年にどのようなことを目論んでいるかを語ります。

Mackerelの2023年をふりかえるid:wtatsuru

今年はMackerel Meetup #14 Tokyoや毎月恒例のMackerel Drink Up Tokyoといったユーザーと直接交流する機会を設けて皆さまの生の声をいただくとともに、「開発に勢いを出す」ことを目標としてきましたが、1年でなんと95件もの機能アップデートを実現しました。2023年も残すところあと数日ですが、こうなると100件を達成したいという欲も出てきますね!

95件もの機能アップデート!

大型の開発ロードマップとしては、(本ブログでもたびたび記事を掲載しておりますが)テレメトリーデータの業界標準であるOpenTelemetryメトリックへの対応、そしてMackerel利用ユーザーを多数抱える企業さま向けのSAML連携機能があります。

OpenTelemetry対応については、目下アラート機能の開発が進んでおり、現在のベータテストユーザー向けの早期の提供を見込んでいるほか、今後の展望として2024年前半に公開ベータの提供、そして2024年後半には正式なリリースを予定していることが発表されました。既存のMackerelのサービス・ロールとは違う、多様な切り取り方での新しいグラフ、メトリックの探索体験を提供していきたい、というのが私たちの目論見です。

SAML連携機能は、EntraIDやOktaなどのIdP(Identity Provider)のユーザー管理情報を使って、Mackerelのユーザー認証(シングルサインオン)やオーガニゼーションの参加・権限設定を実現するものです。こちらについても、やはり2024年後半には正式リリースの予定です。

2024年のMackerelの動きにぜひご注目ください!

speakerdeck.com

「アプリケーションの「信頼性」の育てかた」

続いては株式会社Topotal CTOの吉川竜太氏(@rrreeeyyy)の講演です。SRE as a Serviceというサービスを提供し、さまざまな会社のSREを支援されています。

株式会社TopotalでSRE as a Serviceを推進する吉川竜太氏

また、WaroomというインシデントマネジメントSaaSも運営されており、MackerelのアラートWebhookをイベントにインシデント化するインテグレーションを本Meetupに合わせて提供を開始したというサプライズ発表がありました!

docs.waroom.com

まずはSRE(Site Reliability Engineering)の概念、信頼性、SLI/SLO/エラーバジェットといった基本的なキーワードをおさらいした上で、SLI/SLOを設定すべき箇所の優先順位、 ユーザーの期待とメンテナンスを鑑みた妥当なSLOの決定、「ちゃんと運用する」ためのSLO違反のときのアクション合意・ドキュメント化、改善フィードバックの必要性、SLI/SLOをツールとして雰囲気でなく具体的な値で交渉に利用、と実践的な内容が語られました。

ロードバランサーの正常リクエスト率で安心するのではなく、そもそもリクエストが届いていないことも考慮して外形監視などと組み合わせるとよい、というのは「確かに!」と気づかされました。

実践的な内容に参加者の皆さまも目が離せません

SLOドキュメントをまず作り、素早く頻繁にフィードバックすることの重要性を吉川氏は強調します。さらに、ユーザー視点の監視も大事であるとして、バーンレートアラートのほうが単純なエラー数などよりも柔軟で納得感があり、見直しするタイミングもはっきりしているので推奨したいと述べました。

現時点でMackerelにはバーンレートアラートの機能が備わっていないなど、今回の吉川氏の発表内容をすべて実践しようとすると既存の機能やOSSなどを組み合わせて代替するという手段となりそうですが、ユーザーの声をいただきながらSLI/SLO運用をもっと容易に、使いやすくしていきたいですね!

speakerdeck.com

パネルディスカッション

セッション3つ目は、吉川氏に加えて、面白法人カヤックSREの池田将士氏(@mashiike)、はてなからはSREの古川雅大( id:masayoshi )という3人のパネリストを迎え、モデレーターにはHave Fun Tech LLCの曽根壮大氏(@soudai1025)の陣容で、SREをテーマに大いに語り合うというパネルディスカッションです。

モデレーターの曽根壮大氏
Topotalの吉川竜太氏
カヤックの池田将士氏
はてなのid:masayoshi

話題は、アラートが来たときのアプローチ、SREを立ち上げるにあたって会社の理解を得るヒント、障害対応のノウハウや経験、エラーバジェットが余っている状況への向き合い方、バッチシステムへのSLI/SLO適用、SLOドキュメントの着手方法、と多岐にわたります。これらにパネリストたちがそれぞれの経験・知見を述べ、会場の皆さまも思わず大きくうなずいてしまう場面が多く見られました。

パネルディスカッションはMackerel Meetup、Drink Up含めて初の試みでしたが、モデレーターとパネリスト陣の当意即妙な掛け合いが見事で、話題募集もその場で消化しきれないくらいたくさんいただくほどに盛り上がりました!

パネリストたちのユーモアと深い知見の披露で会場は大いに湧きました

本パネルディスカッションについては、改めて書き起こしレポートを本ブログで後日掲載予定ですので、お楽しみに!

ライトニングトーク

最後のセッションは2本のライトニングトークです。

「CloudNative Daysを影で支える、Observabilityチームの取り組み」

ライトニングトーク1本目は、株式会社IDCフロンティアの岡本泰典氏(@taisuke_bigbaby)。スタッフとして活動されているCloudNative Daysにおけるカンファレンス関連のAPM監視について、その苦労が語られました。

株式会社IDCフロンティアの岡本泰典氏

1年前にSelf-Hosted Sentryで構築したものの、リソース枯渇に始まり、悪戦苦闘と改善を経て、ようやく安定稼働にこぎ着けたそうです。

とはいえ、自己運用はやはり大変です。監視をするならMackerelのようなSaaSにしたい、という感想を吐露し、カンファレンスのいろいろなところを可視化したいと述べて、MackerelのOpenTelemetry対応に期待の言葉をいただきました。

OpenTelemetry対応は現在ベータテストの参加者を募集しています!

「クリティカルユーザージャーニーを利用したSLI/SLOの改善」

ライトニングトーク2本目は、はてなのMackerelチームSREテックリード、そして今回のMeetupでは大きなカメラ2台を持って撮影担当もしていた井口景子( id:heleeen )が、MackerelのSLI/SLOについて、従来のものからクリティカルユーザージャーニー目線に変更した背景を語りました。

はてなMackerelチームSREのid:heleeen

クリティカルユーザージャーニーは先の吉川氏の発表でも「重要なユーザージャーニー」として登場していたもので、ユーザーがサービスを利用して目的を達成するために行う作業一覧を洗い出し、その中でも特に重要な体験に注目します。Mackerelの場合はたとえば「ホストを登録する」という目的であれば当然「ホストが登録できること」が重要であり、指標としてはAPIの可用性を計測する、といった具合です。

クラウドネイティブの移行にあたってまずは作ってみるというところから始まったMackerelのSLI/SLOは、担当者やプロダクトオーナーの判断基準としては活用されていましたが、策定から年数を経て、ユーザーの目線よりも実装に沿っていてユーザーの体験を測れていないのではという疑念があり、信頼性に影響のある障害がSLIに現れなかったなど、再編の必要性を井口は感じていたと言います。

クリティカルユーザージャーニーに基づいてSLI/SLOを再編したことで、ユーザー影響が想定しやすくなりました。これで、ユーザーから見たときのMackerelの信頼性を確保しつつ、価値を届ける機能開発をよりうまく両立させていきたいですね。

「SLI/SLOは見直して育てていくもの。始めていなかったら課題感に気づいていなかったかもしれない」と最後に井口が結んだとおり、完璧に拘泥せずにまず始めてみるというのはとても大切だと改めて感じました。

speakerdeck.com

そして懇親会へ

最後は恒例の懇親会です。ご参加の皆さまがMackerelチームとカジュアルな交流をいただけるよう、手にとりやすい飲食を用意しました。

id:wtatsuruより乾杯の挨拶
手にとりやすく美味しいものを集めました

短い時間ではありましたが、皆さまといろいろなお話をさせていただき、ご要望についてもさまざまに頂戴いたしました。それぞれしっかりと受け止め、ご期待に応えていきます。

ユーザーやパートナーの皆さまとお話をさせていただきました!

ご要望コーナーでは開発者が相談に乗るとともに付箋を付けていただきました

今回ご来場いただいた皆さまには厚く御礼申し上げるとともに次回またお会いできることを、都合がつかなかったけれども本記事をご覧いただいて「今度は参加してみようかな」と思われた方々にはぜひ次回お目にかかれることを、Mackerelチーム一同、願っています!

またお会いしましょう!