2020/06/04 の深夜から発生しましたインターメンテの障害について
この度は、インターメンテの長時間の障害・サービス停止にてご迷惑をお掛けして申し訳ございません。
本障害の最終の報告は、インターメンテ システム障害についてのお詫びとご報告に掲載しております。
最新の状況 (2020/06/06 15:00)
6/6 02:40 の時点で、インターメンテの基本的な機能については、復旧いたしました。
6/6 13:30 にて、朝の段階で制限のあったログインページも復旧いたしました。
監視画面へのログインは、
https://www.reudo.co.jp/intermainte/login/ (SSL対応の負荷分散ログインページ)
も含めて、従来どおりとなります。
一部のお客様において、設置いただいているインターメンテユニットが自動接続されていない状況が確認されました。
個別にご連絡をさせていただきますが、監視画面で未接続となっているユニットについては、現地にてリセットをお願いいたします。
昨日午後の時点での見込みより、大幅に遅れての復旧となりましたことをお詫び申し上げます。
障害の原因
インターメンテシステムのサーバを設置しているデータセンタの受電設備の故障
データセンタ全体で電源が喪失されており、インターメンテのサーバも停止しております。
影響範囲
- 障害中、一切のサービスが提供できませんでした。
警報メールの通知、開始画面へのログイン、外部サーバーとの連携など、すべての機能が利用できませんでした。
- 障害中に発生した事象は検知できません。
障害復旧後も、障害中に発生した警報などは遡っての確認はできません。
- 帳票作成機能、履歴機能をご利用いただいている場合、障害中のデータは欠落します。
- 復旧過程の 6/5 23:55頃から 6/6 00:45頃までは、記録された時刻が不正でした。
警報メールがこの間に送信されたものは、時刻が不正でした。
この間は、機器と通信できてい場合も履歴データは時刻の不正のため破棄されました。
- 一部のお客様(個別のご連絡をいたします)では、障害復旧後にインターメンテユニットの接続が自動的にされませんでした。
個別にご連絡をさせていただきますので、設置場所の電源およびネットワーク接続をご確認いただき、ユニットのリセットをお願いいたします。
なお、障害発生以前のデータ(履歴データや設定情報など)についての喪失はございません。
これまでの経緯
- 2020/6/4 22:56 システム自動監視により、弊社で障害を検知
- 22:42の段階では正常であったことを確認できており、実際の障害の発生は22:50前後と考えられます。
- 障害を確認後、23時頃より調査を開始しました。
- 2020/6/5 00:28頃
- データセンタ全体の障害であることを確認。
- 当初は弊社システムおよびネットワークを中心に調査をしていたことと、データセンタ側も混乱しておりオペレータと連絡が付かなかったため、データセンタ全体の障害を把握するまでに少々時間を要しました。
- この時点では「電源設備付近で火災報知器が作動したが、誤報の可能性が高い。」とのデータセンタ現地の認識でした。
- 2020/6/5 06:30頃
- データセンタからの報告で、電源設備の故障が原因と確認。
- この時点では故障の詳細までは特定できておらず、「本日中の復旧は難しい。」とのデータセンタ現地の認識でした。
- 2020/6/5 13:00頃
- データセンタからの報告で、故障箇所の特定でき復旧作業が開始されたことを確認。
- 受電基幹部分の故障による短絡が原因で、故障箇所をバイパスするとのことです。
- 故障箇所が特定されたため、本日中に電源が復旧できる見込みが生じました。
- 2020/6/5 16:00頃
- データセンタから、「本日18:00から19:00の電源復旧の予定。」との報告。
- 2020/6/5 20:00頃
- データセンタからの報告で、『「本日18:00から19:00の電源復旧の予定。」の作業に問題があり、21:00以降の再試行を予定している。』との状況です。
- 2020/6/5 22:00頃
- データセンタからの報告で、「電源の復旧が、22:30から23:00となる見込み。」となりました。
- 2020/6/5 22:40頃
- データセンタから、サーバセンタの電源が復旧したとの報告がありました。
- また、弊社設備にも給電されていることを確認いたしました。
- 引き続き、インターメンテシステムの立上げを行います。
- 2020/6/5 23:55頃
-
インターメンテシステムの立ち上げ開始。
電源喪失にともなって、サーバにアラートがあり、当初予定より立ち上げの準備に時間掛かりました。
- この時刻から、一部の機能は動作し始めましたが、以下のような問題を含めて不安定な状態でした。
- 6/6 00:45頃までは、時刻が不正でした。
(この影響で、警報メールに記載の時刻が不正、履歴データへの記録がされない、の問題が発生しました。
- 6/6 01:50頃までは、共通サーバでのログインページの表示、および警報メールからの自動ログインURLが正しく動作しませんでした。
- 2020/6/6 02:40
-
インターメンテの基本機能の立ち上げが完了を確認いたしました。
-
SSL対応共通・負荷分散のログインページ
https://www.reudo.co.jp/intermainte/login/ を除き、機能が正常に動作していることを確認しております。
- 2020/06/06 13:30
-
https://www.reudo.co.jp/intermainte/login/(SSL対応の負荷分散ログインページ)も復旧いたしました。
- 2020/06/06 15:00
-
障害発生前にサーバに接続されていたが、障害復旧後の接続が確認できないインターメンテユニットを確認し、監視画面での状態表示を「未接続状態」にいたしました。
-
該当のお客様には個別にご連絡をしております。 設置されている現地にてインターメンテユニットのリセットをお願いします。
また、インターメンテのサーバと同じく弊社業務サーバでも障害が発生しているため、早い段階でのホームページ等での障害報告、メール等でのご連絡ができませんでしたことも、お詫び申し上げます。
たいへんご迷惑をお掛けしており申し訳ございませんが、今後ともよろしくお願いいたします。