(追記あり)【緊急メンテナンス】2月7日(木) 14時30分からデータベースメンテナンスのためシステムを停止します

いつもMackerelをご利用いただき、ありがとうございます。

【追記】

予定していましたメンテナンスですが、問題が解消しつつあるため中止します。 詳細は下記をご参照ください。

mackerel.io

【追記ここまで】

メンテナンスのため、以下の日程でシステムを一時停止させていただきます。 ご利用の皆さまにはたいへんなご迷惑をおかけしますが、ご理解のほどよろしくお願いします。

また、今回は急を要するメンテナンスのため、告知から実施までが極めて短期間である点について、お詫び申し上げます。

実施予定日時

  • 2月7日(木)14時30分〜16時30分
    • このメンテナンスウィンドウは最大時間です。メンテナンスの内訳は後述します。

実施内容

  • データベースメンテナンス

当日の影響

  • メンテナンス終了時刻は、最長ケースであり、メンテナンス作業終了次第メンテナンスは終了となります
    • メンテナンス開始後、しばらくの間Mackerelシステム全体が停止します
  • MackerelへのWebアクセスやMackerelエージェントのデータ投稿、APIアクセス(CLIツール含む)、アラート通知などができない状況となります
  • メンテナンス作業が終了し動作確認が取れ次第、メンテナンスを終了しその旨を告知します
  • mackerel-agentのメトリック投稿に関しては、メンテナンス中はmackerel-agent側でバッファリングがおこなわれ、メンテナンス終了後に再送されます
    • 正しく再送された場合、メンテナンス時間中のグラフも表示されます

実施理由

Mackerelが利用しているデータストアである、PostgreSQL (RDS)にて、autovacuumが正常に実行されていない状況が発生しております。 現状の状態ではサービス稼働に影響はありませんが、この状態がしばらく継続すると、トランザクションIDが枯渇してデータベースへの更新機能が強制的に停止します。そのため緊急のメンテナンスが必要と判断しました。

これに関しては、このような Bug Report ( https://www.postgresql-archive.org/found-xmin-from-before-relfrozenxid-on-pg-catalog-pg-authid-td6011810.html ) が提出されており、この問題は再起動によって復旧するとされております。

今回のメンテナンスではそれを試みます。また、事前の検証の結果 snapshot から復元したDBでは autovacuum が実行されることを確認しており、再起動によって復旧できなかった場合はそちらを実施することになります。

実施手順

  • システムの一時停止
  • RDSの再起動
    • ここで復旧が確認されればメンテナンス終了
  • snapshotから復元したDBと入れ替え
  • 復旧確認後、メンテナンス終了

メンテナンスウィンドウの最大時間2時間は、snapshotからの復旧までを見込んだ時間です。 再起動で復旧した場合はその時点でメンテナンスを終了します。

当日のお知らせ

ステータスページ( http://status.mackerel.io )、及び本ブログ( https://mackerel.io/ja/blog/ )にて、状況報告をおこないます。

補助的に、公式Twitter( https://twitter.com/mackerelio_jp )も利用いたします。

お問い合わせ

support@mackerel.io へメールでお問い合わせ下さい

今後ともMackerelをご愛顧くださりますよう、よろしくお願いいたします。