关于香港某节点服务器磁盘故障说明

Thursday, February 9, 2017

尊敬的客户,

 

---------------------------02/10  10:55 更新 -----------------------------------------------------

       

       自本周三(02/08)上午11点,迅科互联香港某节点服务器出现磁盘意外损坏,引发严重的服务器故障,导致服务不可用。问题一开始,我们的技术人员和服务器供应商即联手检查、抢修,尽管我们经过 1天1夜 的努力,尝试通过多种方法修复或者导出数据,但非常遗憾的是,由于磁盘已经损坏,无法修复,存储在盘内的客户数据也已丢失,且无法找回。

 

       我们的服务器使用 LSI 硬件阵列卡做 RAID5,确保数据安全性,这种阵列方式允许在同一时间损坏一块硬盘而不影响数据。在 2月8日 发现硬盘掉线和性能低的情况后,我们即第一时间安排工程师从深圳获取新的 1TB Intel SSD 硬盘前往香港机房更换,遗憾的是,在更换后的 Rebuild 过程中,发生了第二块磁盘掉线的问题,此时系统中 2 块硬盘同时丢失,我们经过多次尝试,并邀请供应商方面前往香港机房协助检查,并进行了 RAID 卡、SAS 线更换,但操作均告无效,最终也没有挽回数据丢失的局面。

 

       对于这次意外事故,我们对受影响的用户们,表示深深的歉意。

       目前,我们可以为您直接开通新的机器使用。同时,为您 补偿 3个月 使用时间。联系 在线客服 为您开通即可。

       我们深知,无论如何补偿,都无法弥补已经对您造成的伤害。归根到底,还是我们对硬盘和数据没有做到万无一失的保护,我们对此深表愧疚。

 

       其实,自2016年年底开始,我们已经着手 OpenStack 技术的自主开发,目前已经取得阶段性的突破,预计本月底即可正式上线。OpenStack上线后,我们所有的云服务器将支持分布式存储、快照备份,将有效杜绝此类事件的发生。

 

       再次,致以深深的歉意。请求大家谅解。


      -----------------------------------------------------------------------------------------

 

       您好!因香港某节点磁盘阵列问题,自昨天(02/08)下午,部分香港云服务器客户网站出现访问故障,无法正常使用。目前我公司正在加紧处理,并将尽快告知最新处理进度。

 

       昨日(02/08)上午11点,我们的监控显示香港某节点服务器性能变低,经过进一步检查发现,该节点所使用的RAID5阵列中一块硬盘丢失,同时机器内部出现少量IO错误。为保证客户数据安全,我们将服务器关闭,同时立即安排从深圳调货(Intel 1TB SSD硬盘),并于晚间22点左右到达香港机房并安排更换。

 

       硬盘更换后初步正常,我们随即为部分客户重新启动机器,但不到10分钟,服务器开始出现IO错误,技术人员对RAID检查后看到第二块硬盘丢失,并且新插入的硬盘也一起丢失。面对两块硬盘同时丢失的严重问题,技术人员决定再次关闭服务器以确保数据安全。

 

随后我们的工程师对RAID进行了强制上线并重新更换新的硬盘,但尝试2次后发现,新更换的硬盘每次都在Rebuild不到5分钟即掉线。

 

我们怀疑是机器内阵列卡或者线路出现问题。但此时已经是凌晨00:45分,服务器供应商已经无法提供技术支持。经过紧急协商,供应商将在今天(02/09)前往香港机房协同检查解决问题。为确保数据安全,我们已关闭机器,目前服务器处于关闭状态。

 

截止今日10:15,服务器供应商已经出发前往我们的数据中心协助检查处理该问题,我们会尽快告知您任何新的处理进度。

同时,我们当前可以为您直接开通新的服务器用于使用。

 

因服务器故障给您带来不便,我们深表歉意!