2018年9月26日(水)に発生した障害について

いつもMackerelをご利用いただきありがとうございます。

本日 (9月26日) に発生した障害について報告させていただきます。

本日の日本時間10時51分より、APIサーバーのエラーレートが上昇し、不安定な状態が発生しました。

現象としましては、APIサーバーに対するアクセスが失敗し、確率的に500番台のステータスコードが返されてエラーになるという状態でした。

APIサーバーのエラーレートの上昇に伴い、誤報を防ぐための機構によって死活監視が停止しました。

その後不安定な状態が長時間に渡って継続。アプリケーションのパラメータ調整と、サーバーの増強により、日本時間16時20分に復旧を宣言しました。

直接的な原因については特定できておらず、引き続き調査を継続します。また、明日以降二次障害発生を防ぐためのオペレーションを実施します。オペレーション内容によっては、一時的にメンテナンスモード(サーバーへのアクセスを制限するモード)に切り替える可能性があることをご了承ください。

この度はご不便をおかけして申し訳ありませんでした。

引き続きMackerelをよろしくお願いします。