【IT】スパコンのバックアップ機能に不具合 約77TBのデータが消失 京都大学
■京都大学(2021年12月28日)
2021年12月14日 17時32分 から 2021年12月16日 12時43分にかけて,スーパーコンピュータシステムのストレージをバックアップするプログラム(日本ヒューレット・パッカード合同会社製)の不具合により,スーパーコンピュータシステムの大容量ストレージ(/LARGE0) の一部データを意図せず削除する事故が発生しました.
皆さまに大変なご迷惑をおかけすることになり,深くお詫び申し上げます.
今後,再びこのような事態の生じることのないよう再発防止に取り組む所存ですので,ご理解をいただきますよう,どうぞよろしくお願いいたします.
★ファイル消失の影響範囲
・対象ファイルシステム:/LARGE0
・ファイル削除期間:2021年12月14日 17時32分 ~ 2021年12月16日 12時43分
・消失対象ファイル:2021年12月3日 17時32分以降,更新がなかったファイル
・消失ファイル容量:約 77TB
・消失ファイル数:約 3400万ファイル
・影響グループ数:14グループ (うち,4グループはバックアップによる復元不可)
障害情報:【スパコン】ストレージのデータ消失について
https://www.iimc.kyoto-u.ac.jp/ja/whatsnew/trouble/detail/211216056978.html
★ファイル消失の原因
スーパーコンピュータシステムの納入会社である日本ヒューレット・パッカード合同会社によるバックアッププログラムの機能改修において,不用意なプログラムの修正とその適用手順に問題があったことで,本来は不要になった過去のバックアップログファイルを削除する処理が,/LARGE0 ディレクトリ配下のファイル群を削除してしまう処理として誤動作しました.
日本ヒューレット・パッカード合同会社から提出された報告書を掲載します.
Lustreファイルシステムのファイル消失について (日本ヒューレット・パッカード合同会社)
★今後の取り組み
現在バックアップ処理を停止しておりますが,プログラムの問題を改善し,確実に再発しない対策をした上で1月末までにはバックアップを再開する予定です.
ファイル消失後にバックアップが実行されてしまった領域のファイルの復元ができない状況となったことから,将来的にはこれまでのミラーリングによるバックアップだけでなく,1世代分の増分バックアップを残す等の機能強化を検討いたします.機能面だけでなく,再発防止に向けた運用管理についても改善に取り組みます.
一方で,機器故障や災害等によるファイル消失の可能性も含めて完全な対策は困難であるため,利用者の皆様におかれましても,重要ファイルについては別システムへのバックアップをお願い致します.
※全文は元記事でお願いします
https://www.iimc.kyoto-u.ac.jp/ja/whatsnew/information/detail/211228056999.html
ネット民のコメント
金を払え
HPの報告書わらた
ミス対応でこんな事普通は書けないぞ
京大の担当者なめられてるな
> 一方で,機器故障や災害等によるファイル消失の可能性も含めて完全な対策は困難であるため,利用者の皆様におかれましても,重要ファイルについては別システムへのバックアップをお願い致します.なんのためのバックアップだ!😡
地球が滅びた後、ネットの情報は見つからないんだよな
俺のAVコレクションに比べれば大した量じゃない。
リンク先からは
『日本ヒューレット・パッカード合同会社製』
の文字がないけど...
京都大学がHPに文句言われて消したの?コロナ感染力の計算しか使用されてないんだろ?
無駄
消えても無問題ただのミラーリングだけでデータ保全してたって事?
三方向でも不十分言われるのにちょっと、ザルだったんじゃね?ディレクトリを大容量ストレージとかファイルシステムとか呼ぶから新製品のSANストレージかと思ったぞ。
犯人は情報統合思念体。
これHPはやっちまいましたテヘペロで済むの?
契約はどうなってるんだろう
あとこれ部外の演算に回してたならそのデータについての権利関係はどうなってるんだろう
それで損賠起こされたときのHPの責任負担ってどんなのなのかな77TBなら、LTOテープで楽々バックアップできる
ばっかもーん!(スパコーン!)
長期シミュレーションならどんもなんないね
案外馬鹿なんだな
クラウドに預けておけば100TBでも数百万円ですむのに
ちな100TBのバックアップ装置導入したらどんなに安くても数千万円はする
hpだったらシステム構築費用もあわせて1億くらいがめそうだがwHPの筐体買ってHPをガリガリ削られるとわ・・・
この程度のものさえ扱えないのが京都大学。廃校してしまえよ。京都は大学が多いし一つくらい減っても誰も気にしない
使えるグループは限定されるから、容量の割には影響範囲は狭い、クローズされた世界だから備忘録代わりに使っている先生もちらほら、頭の中にだいたい残ってるから
データ消失なんて大学はなんとも思ってないよ。ただうちの責任じゃないって事だけを強調しておきたいだけ。裁判になれば大学側の責任もある程度認められるからそれを見越した対応でもある。
バックアップ性能を向上させようとしたら、プログラムミスで本来削除しちゃいけないものを消しましたってことかな。
> 機器故障や災害等によるファイル消失の可能性も含めて完全な対策は困難であるため,利用者の皆様におかれましても,重要ファイルについては別システムへのバックアップをお願い致します.
bashの挙動なんか知らなくても実行中のスクリプト上書きしたら危険だってことくらいわかれよゆとりw
どれかが止まっても順に入れ替えて(物理含め)演算を継続するから、基本的に機能停止まで止めることはないかと
ミラーリングはどっちもOUTになった時打つ手がなくなるからバックアップも結局とるようになるのが常w
記事にもログディレクトリ消すスクリプトのつもりがホンモンのデータ入ってるディレクトリ消したと書いてるしな