16TB的raid1存储池从降级到损毁

您所在的位置:网站首页 群晖raid1更换硬盘 16TB的raid1存储池从降级到损毁

16TB的raid1存储池从降级到损毁

2023-09-07 21:52| 来源: 网络整理| 查看: 265

告警

2月5日晚上八点,我正吃完晚饭在洗完,突然听到了群晖发出了嘟嘟嘟的告警声,我靠近一看,有一个硬盘位亮了黄灯。

这个群晖是双盘位的DS220+,我使用了两个16TB的硬盘组成了raid1的存储池,里面存储了我多年来的照片,以及扇宝从出道至今的所有录播,总占用空间大概是7TB。

无法登入管理界面

在确认是硬盘问题引起告警后,我第一时间打开群晖的WEB管理界面查看具体信息,然而,群晖的登入页面打开异常,页面错误显示“系统正忙”:

疑点之一是这个页面底部时间居然是2019年,我对这个错误产生了疑惑。因为显示的是“资源不足”,我想到的第一个操作是重启群晖,我长按群晖的电源按钮,这会让群晖进行软重启,然而事与愿违的是,群晖始终无反应。

令我疑惑的另外一个点是,群晖中运行的docker应用以及ftp和ssh服务均正常,在我ssh连接上群晖后,里面的文件也都在。

我通过开发者工具看到,群晖接口报告的错误信息并不是“系统正忙”,而是502状态码,状态码中包含了某个文件不存在的错误。这时候我意识到问题所在——群晖的系统文件损坏了。

我通过国内外的搜索引擎搜到了一些类似的案例,这些案例的解决方式是将群晖官网的最新安装包解压,然后将损坏的文件替换。然而群晖对近期的系统安装包进行了加密,普通人无法进行解密。

我又了解到群晖有一个命令行工具可以更新系统,在我花费了好一番功夫把最新的系统安装包上传到群晖中后,群晖的更新系统命令直接报了500错误。原来群晖这货的命令也是调用管理API实现的,在系统文件损坏的现在,管理API也无法使用了。

降级的存储池

我直接将群晖断电,拔下故障的硬盘2,然后重新接上电源,期望群晖能够恢复正常——因为我的存储池是raid1,少一个硬盘也没什么大不了的。然而,群晖启动后,管理界面依然是相同的报错。我迷糊了,难道群晖的硬盘故障搞错了?我试着把拔掉的硬盘2插回去,然后拔下正常的硬盘1,继续重启,这时候群晖居然能够正常登入了?!

这是什么情况?坏硬盘2是好的,好硬盘1反而是坏的!

登入系统后,存储池处于损毁状态,我在未断电的情况下插上那块“正常的硬盘1”,重建了存储池,现在,存储虽然是“已降级”的状态,但我仍然能够读写存储池。

群晖提示,我需要把“故障的硬盘2”替换掉才能恢复整个存储池。我又看了一下系统日志——硬盘2在故障时断点连接了超过一千次,暂时不清楚故障原因。

损毁的存储池

我以为群晖系统现在恢复正常了,我拔下“故障的硬盘2”,再进行重启,群晖依然进不去系统,看来“正常的硬盘1”才是真正坏掉的那个。我继续断电,插上硬盘2,再重复上面的操作,但是这时候群晖告诉我,存储池已经损毁,并让我求助于数据恢复公司。

我顿时傻眼了,我什么都没干,就是拔插了一下硬盘,怎么整个存储池坏掉了?我不甘心,继续断电重复上面的操作,这次在重建存储池后,显示存储池处于只读状态,文件能够正常读取出来,我暂时放心了。

故障总结

未知原因导致硬盘2掉盘是这次问题的直接原因

群晖在硬盘2掉盘之后发生了系统文件损坏导致无法登入管理系统的情况

只要拔插一下硬盘,这个盘就直接废了,raid必须重建,对于双盘位的raid0组的群晖,如果存储池进入只读状态,除了再买一个块盘来备份后重新初始化存储池外,没有任何办法

我选购群晖的原因是这是一个较为专业的nas,对比自建nas有着开箱即用无需折腾的优势,并且我也不需要做后续的运维工作,然而这次故障之后,我发现群晖并不靠谱,相比自建nas以外没有任何优势:

我花了大量时间备份和恢复这7T的数据,并且群晖对我来说是一个黑箱,在群晖发生故障之后,我无法利用我多年的linux使用经验排查问题,我无从下手,这会让我花费更多的时间。

群晖的稳定性令人堪忧,我自建的linux服务器能够全年365天稳定运行,然而群晖呢?至少在我这里,它做不到。这里仅指的是我个人的情况,因为你没遇到那是你运气好,我遇到了是因为我运气差。我不想把数据交给这么一个不可控的东西来管理。

浅谈nas的选择

我的群晖系统炸了这肯定是一个小概率事件,但在我通过搜索引擎搜索的时候,发现这并不是发生在我一个人身上的事情,国外也有几例和我的群晖完全相同症状的小伙伴。

在这次事件之后,我不再信任这些消费级的nas方案,比如群晖、威联通这些,威联通先不提,群晖是出了名的硬件配置差、性价比低 。

我现在有两种选择:

一种是usb接口的外界硬盘阵列盒,原本我看中了一款下了单,但想到,如果raid硬件损坏了,我的数据还能回来吗?raid硬件可不是我一个程序员敲敲linux命令就能搞定的事情。所以我放弃了这种。

另外一种是自己给linux接几个sata的大硬盘,通过软raid,或者定时任务同步硬盘的方式来做,这相对靠谱一点,但门槛很高,不过对于我来说倒是不复杂,至少比群晖那个黑盒玩意儿要少花好多时间。

我在京东选购了一些硬件,计划在周末将这套自建的存储搭建起来。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3