PowerEdge 2900復旧記

2018年8月8日

ある事情から某所のPowerEdge 2900を復旧しなければならなくなった。とは言っても、そもそも数年前にこの機種を選択したのは私なので、その責任をとらねばならなくなったのだが、しかし、いくら安いとはいえ、なぜこのようなものを購入してしまったのか悔やまれる。

なんと言っても、このマシンのすごいところは重量が50Kgもあるところだ。設置してある某所から送ってもらったのだが、当然宅急便などでは送れない。家財便だ。梱包を解くのも一苦労、少々移動するのにもそれなりの力がいる。

徹底的に掃除

まずはホコリがひどい状態なので、徹底的に掃除。

設置場所は海近くの場所なので、接点も悪くなってるらしく「メモリの構成がおかしい」などのエラーが出たりする、挿し直すと正常になったりする。

ウェブの書き込みを見てみると、「接点復活剤はやめとけ」という意見もあるようだが、いちかばちかで試してみる。使ったのはこれだ。

今のところ特に問題はでていない。

BIOSがおかしい

BIOSの設定状態を確認しようとして、起動時にF2やらF10やらを叩いてみるのだが、なかなか設定画面に入ってくれずイライラする。

さらにRaid Controllerの設定画面に入るには、CTRL-Rを押せばいいはずなのだが、何度もやってもだめ、ニ秒間隔で押してみたり、押し続けてみたりといろいろしてみたが、どんなにやってもだめだ。これは諦めることにした。–> 後から気がついたのだが、使っていたキーボードの左側のCtrlキーが効かないだけだった、間抜けなことに。ちゃんとRaidの設定画面に入ることができた。

起動画面を見てみると、Raid Controllerのバッテリーが使いものにならなくなっている模様。–>これは書き込みが遅くなるだけだし、バッテリーは一年半程度しか持たないようだ。ほうっておくことにした。

BIOSアップデートができない

DELLから最新BIOSをダウンロードして更新しようとこころみるも、なぜか「このマシンではできない」などと言われてしまう。導入しているCentOSのせいなのか何なのかわからないが、とりあえず諦める。

srvadminは使いものにならない

DELLの出しているsrvadminという管理ソフトはCentOSでも使えるので、これを導入してみるのだが、ほとんど何もできない。しかも、マニュアルも出来が悪く、ほとんどどう使えば良いのかわからない。

何とかRaidの状態を表示させることはできたが、状態表示だけである。これで、二番目のディスクがイカれていることがわかったくらい。もちろん前面ランプを見ればオレンジ色の点灯で不具合を示してはいたのだが。設置場所では何も気にしていなかったようだ。

Megaraid Storage managerを入れる

このRaidコントローラはPerc 5/iというものなのだが、MegaraidのOEMだ。かなり以前に同じことをやったことを思い出し、Megaraidのソフトを入れてみることにするが、しかし、srvadminと何らかの衝突をするので、srvadminはすべて削除する。

https://www.broadcom.com/support/download-search

でmegaraid linuxを検索する。出てくる以下をダウンロードする。

「12-05-03-00_Linux_MSM.zip」というファイル名になっている。これを解凍すると、以下のファイルが現れる。

64ビット用の後者を解凍する。以下のファイルが現れる。

あとはRunRPM.shを起動してインストールする。このリストにあるすべてのrpmがインストールされるようだ。

ウインドウ環境におけるインストールとともに何らかのエラーがあればウインドウ表示される。さらに、メニューに以下が追加されている。

Megaraid Storage Managerの操作

StartupUIを起動すると以下の画面になる。

この画面で面喰らうことは、このマネージャはローカルのみを管理できるわけではなく、一つでLAN内の複数のマシンを管理できることだ。
だから、ローカルについても、わざわざそのIPアドレスを登録しなければならないし、ローカルマシンに対して「ログイン」しなければならない。便利といえば便利なのだが。。。

ホストに接続すると以下の画面になる。

たしかにslot1のディスクがおかしいと言っている。

ディスクの調達と交換

ST373455SS というディスクなのだが、これは一般的に高価だ。73GBしかないのに1万から2万はするのだが、たまたま中古で安いものを見つけた。送料込みで2600円。

マシンを起動して、悪いディスクを取り外する。本当はOffline操作をしてからのようだが、いきなり取り外しても問題は無かった。そして新たなディスクを装着する。以下の表示になる。

このままではもちろん駄目のようで、Logicalタブの方を見てみる。

Assign Global Hot SpareでもDedicated Hot Spareでもこの場合はまるで同じはずなのでGlobalの方を選択する。以下の表示になる。

「Start Locating Drive」というのは、単純にどのドライブかわからない場合にランプを点滅させるだけの機能らしい。

Physicalに戻ってみると、以下の表示。

おそらくはこれでOKと思われる。

ログを見てみると以下のような表示。