東証のシステム障害?
昼休みにテレビを見ていると、東証でシステム障害が発生しているとの報道があり驚きました。
東京証券取引所の株式売買システム「arrowhead(アローヘッド)」は絶対に止まらないシステムだと言われていたからです。
一体、何が起きたのでしょうか?
350台のサーバーの1台が故障しただけなら、バックアップシステムに瞬時に切り替えができるのが売りだったシステムです。それが、バックアップシステムへの切り替えも正常に行われなかったというのです。
2011年の東日本大震災の時でも正常に稼働していたシステムで、
以下のように東証も絶賛のシステムでした。
プロジェクトの上流工程で徹底的にバグを出す方針を打ち出すとともに、「要件定義は東証」「設計は富士通」と責任を明確にしました。そしてプロジェクトに参画した東証のメンバー80人と富士通の技術者300人の一人ひとりが、上流工程でのバグ出しを着実に実践。その結果、下流工程で見つかるバグは前回の10分の1にまで減少し、十分なテストを経た後に新arrowheadを稼働させることができました。細川氏は「稼働後に全く問題が出なかった経験は初めてです」と語り、プロジェクトのメンバーの健闘をたたえています。
2020年10月1日時点でサイバー攻撃は確認されていないということです。
原因は?
では何が原因だったのでしょうか?
サーバーの故障というのは、2台ある共有ディスク装置の1台のメモリーが故障したことです。通常はもう1台の共有ディスク装置に自動で切り替わるはずが何らかの原因で切り替わらなかったということで、切り替わらなかった原因を調査しているようです。
日々の取引額は3兆円を超えます。
その東証が今回、システムの開発元である富士通への賠償金は考えていないというのです。確かに「arowhead」は、要件定義は東証、設計は富士通という役割分担の下に開発されたシステムです。それでもハードの故障によりバックアップ機への切り替えがうまくできないということになれば、富士通の責任になります。
なぜ、富士通への賠償金を考えていないのでしょう?
2019年11月のシステム更新が原因?
arowheadは、2019年11月にバージョンアップしています。
FUJITSU Server PRIMERGY RX2540M4」400 台で構成されているということですが、今回の障害で発表されたのは「350台」のサーバーで数が一致していません。
それにメモリ上に配置したデータを、三重化された待機側サーバへ常時ミラーリングさせるとあるので、こちらも二重化ではなく三重化です。
東証側が運用サーバーを何らかの理由で減らしていたのでしょうか?
それともバージョンアップの際に何らかの障害要因が生じてしまったのでしょうか?
Nutanixが原因?
今回、相場情報の配信システムに障害が発生したということなので、Nutanix(ニュータニックス)が原因の可能性もあります。
東証は今回、取引系以外の情報系システムの全てのインフラ部分でニュータニックスの採用を決めた。情報系システムの中には新規上場企業の審査情報や、投資家への情報配信など、重要情報を取り扱うシステムも多くある。デスクトップ仮想化システムを皮切りに、3〜5年かけて全ての情報系システムのインフラに広げていく計画だ。
仮にハードウェア的には、バックアップ機への切り替えはできていたのに、Nutanix側の切り替えが正常に行えず、情報配信に影響が発生したということになると、これは富士通側に責任はなく、Nutanixを採用した東証側の責任になるので、富士通に対して賠償金は考えていないというコメントにも納得できます。
正直、この可能性が高いように思います。
Nutanixは、米オラクル、グーグルなどの出身のエンジニア3人が設立した、わずか10年ちょっとの米国のベンチャー企業です。
Nutanixのシステムを利用することで、多数のハードで回していたシステムが、小さなサーバー数台で運用でき、システム構成の変更も非常に短期間で行えます。ソフトとの互換性を確保できれば、ハードはどこのものでも構わないというので、東証とすれば富士通など外部に委託していた運用の95%を社内で行うことができるようになります。また、開発期間も大幅に短縮できるというので魅力的な内容です。
3年から5年で切り替えるということだったので、サーバーの数が350台に減っていたのもNutanixを採用したことによることなのかもしれません。