【5/22追記】本日(5/21)発生した障害の報告と、暫定対応によるアラート通知失敗時の再送処理の停止について

5/22追記

本日14時(日本時間)にデーターベースのパラメーター調整をおこなうと共に、リトライ機構の再開をおこないました。その後のシステムの安定的な稼働を確認しておりますので、完全復旧したものとみてお知らせいたします。

この度はご迷惑をおかけして申し訳ございません。引き続き安定稼働に努めてまいりますので今後共Mackerelをよろしくお願いいたします。

本文

いつもMackerelをご利用いただきありがとうございます。

Mackerel開発チームディレクターの id:daiksy です。

本日(5/21)発生した障害についての経過報告と、暫定措置についてご報告させていただきます。

日本時間15時42分以降、MackerelのAPIサーバーが不安定な状態が続いていました。 現象としましては、APIサーバーに対するアクセスが失敗し、確率的に500番台のステータスコードが返されてエラーになるという状態でした。 APIサーバーの不調については、日本時間18時17分に復旧を確認し、ステータスページを更新しました。

障害の直接の原因としては、何らかの要因によりデーターベースサーバーが高負荷状態になるというもので、データーベースサーバーの高負荷状態の原因については未だ調査中です。

障害状況の切り分けの結果、アラート通知が失敗した場合の再送の処理に何らかの問題がある事がわかっており、障害対応の暫定処置として、アラート通知の再送処理を現在も停止しております。Mackerelは、アラート検知時の通知処理の際、通知先サービスの状態によってそれが失敗した場合に、リトライ処理を数回実行するという仕様になっており、そのリトライ処理を停止している状態になります。したがって通知処理そのものは現在正常に動作しております。

アラートの再送処理については、明日(5/22)中の復旧を予定しており、完全復旧までにはもう少しお時間をいただきたく思います。

この度はご不便をおかけして申し訳ありません。ご理解のほど、どうぞよろしくお願いします。

引き続きMackerelをよろしくお願いします。