2008年6月 1日

P7K500バグ遭遇?

 先日、このサーバが落ちた。落ちたというか妙な動作だった。

 各種デーモンの簡単な応答だけはするので、死活監視(nagios)では検知できなかった。検知したのはボクがボク用のp2にアクセスしようとしたときに応答がなかった時だ。

 調べてみると、/home がリードオンリーでマウントされている。「なんかエラーがあったのでリードオンリーでマウントしなおしました」というようなエラーメッセージが吐かれている。

 /home は2台目のドライブ、HGSTの500GBをワンパーティションで使っている。つまり、/dev/sdb1 に割り当てている。

 とりあえずリブートしてみると、/dev/sdb1 がぶっこわれているので fsck でなんとかしろと言われ、言われた通り fsck /dev/sdb1 をやったら何行か意味不明のメッセージをゲロゲロ吐いて終了した。ボクは fsck のエラーメッセージをまじめに読んだことがない。まじめに読んでも解決できそうにないし、とりあえずマウントして様子を見たいので読み飛ばしてしまう。

 で、とりあえずマウントできたので放置してみたら、数時間でまたリードオンリーマウントしやがった。

 しょうがないので近所のPCデポに買いに行った。秋葉原価格より高いがしょうがない。

 dd でコピーするか、cp -a でコピーするか迷ったが、論理矛盾までもコピーしてしまう dd はよろしくないだろうから cp -a でコピーした。このときはエラーはでなかった。

 どのファイルがぶっこわれているか未検証だが、これでとりあえず復旧できた。

 壊れた原因だが、そういえば HGST のドライブで不具合情報があったような。やじうまWatchで見たような。と思って過去ログを見る。hdparm -I /dev/sdb で型番を調べる。HDP725050GLA360(P7K500) だ! おめでとう!! 原因が特定できました!!!

 しかし、ddコマンドによる検証では問題はなく、本当にこれが原因だとは言い切れないのがツライところ。

 ちなみに環境はは Dell SC430 に Debian 4.0。

Posted by rukihena at 02:27:33
トラックバックURL

このエントリーのトラックバックURL:
http://weblog.rukihena.com/mt/mt-tb.cgi/780

コメント