Mackerelサブプロデューサーの id:Songmu です。以前よりお知らせしていたメンテナンスを本日8/7(月)の14:30(日本時間)より開始し、18時に終了いたしました。ユーザーの皆様のご協力ありがとうございました。
本件の詳細について報告いたします。以降記載している時刻は全て日本時間となります。
アクセス停止時間帯
14:30-14:50 及び 15:30-15:33
上記時間帯にシステム全体がアクセス受付を停止していました。
データの消失に関して
今回のメンテナンスでは、本来は想定していなかったデータの消失が発生しました。ご迷惑をおかけして大変申し訳ありません。
メンテンス中の 14:30-15:31 の時間帯にMackerelのデータベース上に作成された時系列データ以外のデータが消失しました。具体的には、上記時間帯に登録された、アラートやホスト情報を含むデータが消失しています。
データ消失の原因と対応について
原因はメンテナンス時間中のデータベースの意図せぬfailoverにより、メンテナンス開始時からfailover時のデータが失われたことです。本来failover時にデータの消失は発生しないような構成をとっておりましたが、作業中の特殊な状態であったためデータが消失することとなりました。
当該時間帯のデータ復旧を試みましたが、failover後に更新されたデータとの整合性を取ることが困難であるため、復旧を断念しました。
failover後に改めてデータベースの冗長構成を精査し、同様の障害が発生しないことが確認できたため、復旧と判断しました。本件の技術的な詳細は改めて報告いたします。
(8/15 追記) 詳細情報公開しました。
システム移行メンテナンスにおける一部時間帯に更新されたデータが消失した原因のご報告 - Mackerel ブログ #mackerelio
データ消失期間中に登録されたホストに関する作業のお願いについて
上記 14:30-15:31 の時間帯にmackerel-agentにより新規登録されたホストに関しては、データを正しく投稿できておりません。大変お手数ですが、ホストの再登録処理をお願いいたします。
具体的には、idファイル( /var/lib/mackerel-agent/id
)の削除をおこない、その後、mackerel-agentの再起動をお願いいいたします。
カスタムダッシュボードの不具合に関して (8/8修正済み)
メンテナンス以降に作成、更新されたカスタムダッシュボードに関して、グラフが表示されない状況が発生しています。本件に関しては、8/8(火)に修正予定です。
(8/8 追記 ) こちら8/8(火)のリリースで修正済みです。
式監視の不具合に関して (8/8修正済み)
メンテナンス移行後に、いくつかのオーガニゼーションにて式監視の不具合の発生を確認しています。こちらに関しては、大変申し訳無いのですが、すぐの対応が難しい状況です。こちらは、当該オーガニゼーションのオーナー宛に個別にアナウンスさせていただきます。
(8/8 追記 ) こちら8/8(火)のリリースで修正・解決済みです。
ユーザーの皆様にはご迷惑をおかけして申し訳ございません。今後はさらなるサービス品質向上に努めてまいりますので、引き続きMackerelをご愛顧くださりますよう宜しくお願い申し上げます。