前回、新潟を旅行中に突如としてRAIDが崩壊しました。
構築したばかりのRAID、HDD1台堂々退場す。原因は水道管工事……?
しかし新潟に居る自分にはRAIDを復旧させることもできず、ただただ観光を楽しむしかない不甲斐なさを噛みしめました。
新潟名物のタレかつ丼は噛めば噛むほど中から甘辛い醤油ダレの味が楽しめ大変オススメです。新潟にお越しの際は是非へぎそばとタレかつ丼を噛みしめてみてはいかがでしょうか?
RAID崩壊時にできる事
今回環境としてはSHR-2(RAID6)でストレージを構成していました。2台までのHDD離脱であれば離脱したHDDをアクセス禁止にしてファイルアクセス時は他のドライブから読み出し処理が可能です。
では3台離脱した場合はどうなるでしょうか?
Synology OSとしてはすべてのアプリケーションが使えない状態になりますがWebコンソールとSMB、NFSだけは生きている状態になりました。
なのでエラーがあることを承知で離脱しているHDDも含めてアクセスが可能です。これがHDDの物理故障であればアクセスできないデータもあるのでしょうが今回HDD自体には問題はないようで100%データアクセスが可能でした。
前回RAIDクラッシュを想定してバックアップ戦略も詰めていたのでこのまま初期化しても良いのですが、念のため家中の外付けHDDやSSDをかき集めてデータを待避しておきます。
残念なのはiSCSIを提供してるSAN Managerが死んだためiSCSIのデータは取り出せなくなりました。うまくやればサルページできたのかもしれませんが基本的にはゲームインストールデータなどを入れていたので再度取得可能ですし諦めます。今後はiSCSIのバックアップ戦略を考えなければならなくなりました。
仮想化基盤のデータ待避
崩壊したNASにはNFS経由でProxmoxで構築された仮想化基盤がマウントされてました。稼働してるVMのシステムディスクなどが置かれておりNASがリードオンリー状態になったためI/Oエラーが発生しました。
読込は可能だったためProxmoxノードの内蔵HDDにデータを移動しました。
移動後書込が可能になるとVMを再起動せずとも正常挙動になりました。今時のOSのエラー制御は驚きです。絶対クラッシュすると思っていました。
初期化
SynologyのUI上でボリュームを削除しようとしたのですが削除実行して1日経過しても終わりませんでした。ディスクアクセスも発生してないので処理が長時間かかっているようでもなさそうです。
どうせ初期化しますので諦めてシャットダウンします。
正しくボリュームを削除できていない状態ですのでHDDをすべて取り出してクイックフォーマットを掛けます。Synologyはボリューム構築時にゼロフィルされますのでクイックで問題ないでしょう。実機UbuntuのGPartedですべてのパーティーション情報を吹き飛ばしました。
8台すべてのパーティーション情報を初期化したらしっかりと取り付けます。(水道管工事で緩んでるかもしれないので祈りを捧げつつしっかり入れ込みます。)
パーティーション情報を初期化済みのため新規セットアップと同様に設定可能です。
データの復元
各種バックアップからNASにデータを書き戻します。一部クラウドにデータを置いていたため再配置に1ヶ月かかりました。
序盤帯域制限を掛けずに復元作業をしていたため同じマンションに住んでいる人に迷惑が掛かったかもしれません……。Cloud Syncの設定で帯域制限可能ですので設定しておいた方が無難です。
帯域制限は各種Cloud Storageの設定項目にありますのでここで1ファイルあたりの帯域制限を設定します。
並列数の設定はCloud Syncの全体設定にあります。デフォルトは3並列です。
設定を変えたところ
SSDキャッシュ
元々容量の50%をキャッシュ割り当てしていたのですが60%に拡大しました。SSDは大量にデータがあると読込速度が遅くなるため保守的に50%制限にしていましたが60%に拡大してみたところ速度低下は感じずにキャッシュヒット率が上がったため快適になりました。
Btrfs圧縮の廃止
Btrfsにはファイルシステムレベルでデータ圧縮サポートがあり、大量のドキュメントデータが存在する場合は有意に効果があります。しかしRAIDの崩壊の要因になってた説があるかもしれないと考え無効化しました。これを有効にするだけで1-2TBほど圧縮効果がありましたので無効化するのは惜しいですが空き容量が十分あるため安全に倒しました。
NASの新設
データ損失に備えて16TBのHDDを追加で2台購入しました。これを旧Synology NASであるDS215jに導入して重要なデータは日次バックアップするようにしました。
10年前の製品であるため性能は非常に低いですがバックアップ用途としては問題ないかなと考えています。ただ10年物なのでコンデンサー等が劣化していると思われ年内に同じグレードの製品で置き換えようと思います。
まとめ
復旧期間約1ヶ月で正常状態に持って行けました。そして復旧後1ヶ月たちましたが今のところ問題は起きていません。
果たして崩壊の原因はなんだったのか、恐らく水道管工事の振動で何かしらの訂正不能なエラー状態になってしまった。が有望そうですが確定することは無さそうです。
願わくはHDDの物理故障以外で今後エラーを吐くことがないように祈りたいところです。