80万円を掛けて投入した弊宅の旗艦ストレージであるDS1821+。そのRAID構築からわずか1ヶ月程度で、HDD1台が堂々退場となりました。
いや、運用1ヶ月で堂々退場されたらとても困るんですが…… というわけで本記事はじゃじゃ馬だったNASを落ち着かせる努力をするお話です。なお最後まで読んでも解決していません。
RAIDリビルド
深夜、突如としてRAIDの警告音が鳴り響き1台のHDDがRAIDから離脱しました。 ホットスペアを設定していたため自動的にリビルドが開始されました。
夜中の近所迷惑となるため警告音を停止させます。コントロールパネルの「ハードウエアと電源」の中に消音ボタンがありますのでここで切れます。
いったん、Dropboxとデータ同期していたCloudSyncを停止しリビルドに専念させます。 リビルド時間に1ヶ月掛かるという表示がでており、さすがに1台20TBとはいえ掛かりすぎのため設定を見直しました。
ここの設定でリビルドに割くリソースを設定できますので全力を出してもらいます。これでリビルド時間は1日になりました。
原因調査
リビルドと平行して離脱した原因を調査します。
まずエラーログとしては「HDDアクセス時にエラーが発生しました」の重大な状態表示です。
緊張感が漂います。HDDの状態を確認するためにSMART情報を確認します。 Synology上の簡易チェックは不良セクター等は0件でした。
HDDを取り外しWindows機に繋いでCrystalDiskInfoでSMART情報を確認しますが怪しそうなところはありません。
続いてWDが出している公式ツールでフルチェックを掛けます。フルチェックの場合丸一日かかりました。しかしこれでも問題は検出できませんでした。
WD Goldを購入したため5年間保証がありますのでリビルドして落ち着いたらRMAしようかと考えていました。
2台目の離脱
RAIDの復旧は順調に進み、障害発生後翌日にはRAIDリビルドが終了しその後自動でデータの整理と整合性チェックのData Scrubbingが走り正常状態に戻りました。
しかし正常状態になって2日後に別のHDDが同じエラーで離脱してしまいました。
こうなると偶々製造ロットが悪かったという可能性もゼロではありませんがHDDの故障とは疑い辛いです。
一次対応で前回離脱したHDDに再度リビルドを行いました。
2度目の原因調査
キャッシュSSDが悪い説
まずキャッシュSSDの不良を疑いました。サポート外品ですので相性が悪い可能性が考えられます。
今回キャッシュSSDは読込キャッシュのみで書込キャッシュには使っていないのでデータが悪くなってもHDD側に影響があるとは考えにくいのですが1度無効化してみました。
キャッシュSSDを無効化するとレスポンスが非常に悪くなり常にHDDはアクセス音を響かせる騒音発生器になりました。この状態での常用は難しそうです……
そして数日後にまたHDDが離脱しました。キャッシュSSDは犯人では無さそうです。キャッシュSSD設定は元に戻しました。
メモリが悪い説
Synology純正のメモリはECCの4GBだったのですが購入直後にNonECCの32GBに増設しています。メモリチェックもしてませんし、もしかすると我が家に宇宙線が降り注いでいる可能性があります。(宇推くりあは良いぞ!)
そこでメモリを純正の4GBに戻してみましたがこちらも効果が無く、しばらくするとHDDのエラーが出ました。
4GBで運用してみても不便は感じなかったため4GBのままで運用を続けています。
コンテナやVMを起動しないのであれば4GBで十分だったと思います。RAMキャッシュが弱いのが難点かもしれませんが。
HDDのどれか1台が悪い説
今回離脱したHDD以外が悪いという可能性もあります。1台悪いHDDが居るためにシステム全体が不安定になっている説です。
そのため全体のSMARTテストを回しました。
しかしこれでも結果は正常でした。
HDDのロットが悪い説
今回購入した20TB、8台のHDDすべてが不良ロットの可能性もゼロではないので別のHDDを付けてみます。
たまたま安く出ていたHITACHIのUltrastarがありましたのでこちらを購入しました。Ultrastarは現在ではWDブランドになっているため混ぜても使えるのではないか?というのも選定理由です。
HITACHIの息吹を感じて他のHDDも良くなれば良いという願いを掛けましたが願いむなしくWD GoldのHDDは次々離脱します。そうしてある日、Ultrastarもエラーが発生しました。
これでHDD原因説はほぼ消えたのではと思います。
SynologyのNASが悪い説
SynologyのNASが不良品だったという可能性もあるかもしれませんが、2ヶ月は問題無く稼働しておりエラーが出るベイもまちまちなため可能性としては薄いかと思っています。
薄いと思いたい、なぜならここがダメだった場合は交換調査が難しいからです。
Synologyさんへの問い合わせ
本来このような問題が発生した場合、Synologyさんに問い合わせれば内部ログとセットでサポートチケットを切っていただけます。
しかし公式HPにある互換性リストに乗っていない製品を使っていた場合はサポート外のため問い合わせできません。
互換性リストは製品のファームウェアバージョンまで指定されており、同じ型番で購入してもサポート外の事が多いため純正パーツ以外でサポートを受けるのは厳しいと思います。
しかし現在の状況についてサポートチケットを切る事はできなくても、OS仕様の質問として現在のアクセスエラーがどういったときに起きる物なのかを質問することは可能なのではという希望で問い合わせしてみました。
そうして頂けた回答として「Data Scrubbingを1度実行してみたらどうだ?」という事でした。
Data Scrubbing自体はRAIDリビルドしたときに自動で行われるため何度も実行している認識でした。
しかし手動でData Scrubbingを実行してみるとRAIDリビルドの時の3倍程度の時間をかけてData Scrubbingが行われました。
どうやらRAIDリビルド時の実行と内容が違っているような雰囲気がします。
そうしてData Scrubbingを行った後は2ヶ月ほど問題が起きませんでした。
なぜこうなったかを考える
Data Scrubbingを行うと治るということはRAIDのデータの整合性がとれてない可能性があると考えました。
なぜ整合性がとれてないのか初めて問題が発生した日、2回目以降問題が発生した日で共通点がないかと調べてみました。
そうすると頭の中におぼろげながら浮かび上がってきたのが水道管工事です。
ここ4-5ヶ月ほど掛けて自宅の周りの水道管を耐震水道管に置き換える工事が進んでいます。その工事の初日の夜がHDDエラーの初日でした。水道管の置き換え工事は毎回1-2日間行われそれが数ヶ月間5回ほど行われました。仮設水道管の工事などを行い水道利用者にサービスを止めない様にするためです。
水道管を工事するためにはアスファルトを外すため工事中に震度1程度の揺れが継続的に発生しています。
その小刻みな震動を受けてHDDとNAS側のSATA接続に不具合が生じてエラーが発生したという可能性が考えられます。
しかし震動が原因であれば工事最中にエラーが発生するはずで工事後の深夜に発生する理由が分かりません。
ただ問題が発生する日はなぜか水道管工事の後に起きる事が多いのも事実です。
なお仮に原因が水道管工事だったとしても、震災時に水道管が壊れる事を思えばNASが壊れたくらい些細なことです。
水道管の老朽化が叫ばれる昨今、自宅周りを優先的に工事して頂いたこととても有り難く思っています。
今後の対応
水道管工事は終わりましたし、Data Scrubbingも実行して安定感が出てきました。このまま現象は収束するのかもしれません。
しかしNAS自体の故障は天災等でいつでも起こりえる物です。なので前倒しでバックアップ戦略を実行することにしました。
理想は3-2-1バックアップ。3つのバックアップを2つのメディアに保存し1つは別の場所に保存するというものです。 しかし現在のデータ容量を考えるとすぐに3-2-1バックアップを実践するのは厳しいです。
そこで2-2-1バックアップということでクラウド上になんとかデータを保存することにしました。
しかし元々オンプレに回帰した理由がDropboxの容量無制限終了が理由なのでそのままクラウドに戻すことはできません。
そこで一番重い写真動画データはS3 Glacier Deep Archiveに保存しました。NASがクラッシュしてもすぐに取り出す必要はないのでなるべく値段の安さで選定しました。1TBを月1ドル程度で保存することが可能です。こちらに30TB預けました。
文章データ等、クラッシュ後も即時アクセスする必要があるデータはDropboxとGoole Workspaceで分散保存にしました。各5TBありますので合わせて10TB確保できる計算です。
VMのHDDやPCが利用するiSCSIに関してはソースコードさえあれば再構築可能なので古いNASを利用した2台NASのバックアップで対応しました。各種サーバー上に保存しておきたい需要データがある場合はちゃんとバックアップを実装するので問題もないでしょう。
これでNASのクラッシュが起きても時間を掛ければ環境再構築が可能になりましたので枕を高くして寝られるようになりました。
安心ですね!!
そして訪れる4月21日
2024年の4月21日、この日は新潟を旅行して程よい疲れとともに燕三条のホテルに辿り着きぐっすり夜を過ごしました。 そして翌朝、目を覚まし携帯電話の画面を見ました
本当にRAIDクラッシュしたよ……どうすんだよ……
続く