Mackerel ブログ #mackerelio

Mackerelの公式ブログです

メンテナンスの完了報告及びデータ消失とカスタムダッシュボード、式監視の不具合に関するお詫び

Mackerelサブプロデューサーの id:Songmu です。以前よりお知らせしていたメンテナンスを本日8/7(月)の14:30(日本時間)より開始し、18時に終了いたしました。ユーザーの皆様のご協力ありがとうございました。

本件の詳細について報告いたします。以降記載している時刻は全て日本時間となります。

アクセス停止時間帯

14:30-14:50 及び 15:30-15:33

上記時間帯にシステム全体がアクセス受付を停止していました。

データの消失に関して

今回のメンテナンスでは、本来は想定していなかったデータの消失が発生しました。ご迷惑をおかけして大変申し訳ありません。

メンテンス中の 14:30-15:31 の時間帯にMackerelのデータベース上に作成された時系列データ以外のデータが消失しました。具体的には、上記時間帯に登録された、アラートやホスト情報を含むデータが消失しています。

データ消失の原因と対応について

原因はメンテナンス時間中のデータベースの意図せぬfailoverにより、メンテナンス開始時からfailover時のデータが失われたことです。本来failover時にデータの消失は発生しないような構成をとっておりましたが、作業中の特殊な状態であったためデータが消失することとなりました。

当該時間帯のデータ復旧を試みましたが、failover後に更新されたデータとの整合性を取ることが困難であるため、復旧を断念しました。

failover後に改めてデータベースの冗長構成を精査し、同様の障害が発生しないことが確認できたため、復旧と判断しました。本件の技術的な詳細は改めて報告いたします。

(8/15 追記) 詳細情報公開しました。

システム移行メンテナンスにおける一部時間帯に更新されたデータが消失した原因のご報告 - Mackerel ブログ #mackerelio

データ消失期間中に登録されたホストに関する作業のお願いについて

上記 14:30-15:31 の時間帯にmackerel-agentにより新規登録されたホストに関しては、データを正しく投稿できておりません。大変お手数ですが、ホストの再登録処理をお願いいたします。

具体的には、idファイル( /var/lib/mackerel-agent/id )の削除をおこない、その後、mackerel-agentの再起動をお願いいいたします。

カスタムダッシュボードの不具合に関して (8/8修正済み)

メンテナンス以降に作成、更新されたカスタムダッシュボードに関して、グラフが表示されない状況が発生しています。本件に関しては、8/8(火)に修正予定です。

(8/8 追記 ) こちら8/8(火)のリリースで修正済みです。

式監視の不具合に関して (8/8修正済み)

メンテナンス移行後に、いくつかのオーガニゼーションにて式監視の不具合の発生を確認しています。こちらに関しては、大変申し訳無いのですが、すぐの対応が難しい状況です。こちらは、当該オーガニゼーションのオーナー宛に個別にアナウンスさせていただきます。

(8/8 追記 ) こちら8/8(火)のリリースで修正・解決済みです。

ユーザーの皆様にはご迷惑をおかけして申し訳ございません。今後はさらなるサービス品質向上に努めてまいりますので、引き続きMackerelをご愛顧くださりますよう宜しくお願い申し上げます。