2008年6月 1日
P7K500バグ遭遇?
先日、このサーバが落ちた。落ちたというか妙な動作だった。
各種デーモンの簡単な応答だけはするので、死活監視(nagios)では検知できなかった。検知したのはボクがボク用のp2にアクセスしようとしたときに応答がなかった時だ。
調べてみると、/home がリードオンリーでマウントされている。「なんかエラーがあったのでリードオンリーでマウントしなおしました」というようなエラーメッセージが吐かれている。
/home は2台目のドライブ、HGSTの500GBをワンパーティションで使っている。つまり、/dev/sdb1 に割り当てている。
とりあえずリブートしてみると、/dev/sdb1 がぶっこわれているので fsck でなんとかしろと言われ、言われた通り fsck /dev/sdb1 をやったら何行か意味不明のメッセージをゲロゲロ吐いて終了した。ボクは fsck のエラーメッセージをまじめに読んだことがない。まじめに読んでも解決できそうにないし、とりあえずマウントして様子を見たいので読み飛ばしてしまう。
で、とりあえずマウントできたので放置してみたら、数時間でまたリードオンリーマウントしやがった。
しょうがないので近所のPCデポに買いに行った。秋葉原価格より高いがしょうがない。
dd でコピーするか、cp -a でコピーするか迷ったが、論理矛盾までもコピーしてしまう dd はよろしくないだろうから cp -a でコピーした。このときはエラーはでなかった。
どのファイルがぶっこわれているか未検証だが、これでとりあえず復旧できた。
壊れた原因だが、そういえば HGST のドライブで不具合情報があったような。やじうまWatchで見たような。と思って過去ログを見る。hdparm -I /dev/sdb で型番を調べる。HDP725050GLA360(P7K500) だ! おめでとう!! 原因が特定できました!!!
しかし、ddコマンドによる検証では問題はなく、本当にこれが原因だとは言い切れないのがツライところ。
ちなみに環境はは Dell SC430 に Debian 4.0。
このエントリーのトラックバックURL:
http://weblog.rukihena.com/mt/mt-tb.cgi/780