造梦工厂|校花梦工厂游戏老版本下载|

用6000字,来一次数据安全与灾备漫谈

时间:2019-05-15 栏目:

编者按:本文为“千字千金!中国首届灾备行业征文大赛”参赛作品,本文作者是一对父女,父亲为知名IT厂商客户服务总监,女儿为在校大学生,从一名乙方技术的角度,介绍了灾备演变的历程,这些内容,不仅涵盖了灾备技术的发展,也有一些相对应的解决策略。以下为文章正文。


?#34892;?#20107;是令人憧憬的,雨夜读书便是一例。窗外雨潇潇,灯下书香飘。不求浪漫,只为心?#26657;?#20026;日间忙碌后的那份安适与恬淡。可?#26412;?#30340;雨越来越珍贵了,常常一连?#29238;?#26376;不见雨水。南方雨水充沛,可以去江南,上海南京都好。

 

这日,商旅上海,恰逢雨天。有意早起,在陆家嘴一家咖啡馆中独坐,边喝咖啡,边读新闻,享受沪上雨天的闲暇时光。不久,一位学者气质的男士进门来,目光偶然对视时,竟然是位熟人。我赶忙起身打招呼,口称周总。自然的世界很大,人们都想去看看。人间的世界太小,时常不期而遇。

 

周总如今自己创业,之前是一家大型外资银行数据中心的总经理,在金融电?#26377;?#24687;领域是位具前瞻眼光的实干家,职业生涯伴随着国家金融信息电子化的发展与技术进步,是数据安全、灾备行业的先行者。多年间,他甲方、?#20057;?#26041;,一起经历过几次险情,也建立了彼此信任的工作友谊。正巧我在写一篇数据安全与灾备方面的稿子,一番寒暄后我们就在咖啡馆里聊起这个话题。

 

我先开场的,抛砖引玉。我说:“十几年前,国家就有标准,对数据中心的灾备技术做了规范?#28798;?#24341;,记得是《信息系统灾难恢复规范》。规范明确了四种方式:冷备、暖备、热备和双活。四种方式分别对应无设备的临时搭建、手工切换方式的主备中心、自动切换的主备中心,以?#26696;?#36733;均衡方式下的双活中心。具体选哪种方式取决于业务需要和财务预算。”

 

周总插话道:“国家标准是数据安全大厦的基石。要认真看,照着做,?#27604;?#20063;要与?#26412;憬!?/span>

?#21307;?#30528;说:“数据是组织的血液。灾备忙什么?数据是关键。”

“数据安全有两个含义:一是数据本身的安全,二是数据防护安全。”周总打断我,“数据本身的安全涉及?#29992;堋?#35299;密、保密、身份认证、数据完整性等技术。数据防护安全涉?#25353;?#30424;阵列RAID、备份和容灾技术。”

我喝了口咖啡,接过?#23433;紓骸凹用堋?#35299;密、认证这些理论还是留给数学家和大学教授吧。灾备最前沿、最有实际价值的是数据中心。数据中心更侧重数据备份和容灾实践。”

周总点头,望向窗外说:“是的。把成熟技术用好最有现实意义。”

我?#23454;潰骸?#24744;是这方面的专家,见多识广。可否梳理?”

周总往椅背上靠了靠,目光依然望着窗外,若有所思地说道:“我把过往的数据防护技术架构分成四代。划代的标准对应着数据存储设备的技术发展。”

我说:“那就先从第一代开始谈?”

 

  • 第一代灾备

 

周总说道:“第一代灾备方案没有专用的存储设备,数据保存在主机的磁盘里,备份到磁带中。磁带是数据防护的关键载体。人们开玩笑说‘命悬一带’。”

 

【第一代灾备故事:火灾中抢救磁带的年轻人】

周总大学毕业后在一家国有银行的省行工作。一天,机房电?#33539;?#36335;,引起火情。人们慌忙外逃,唯独一位年轻人逆着人流往里跑,冲进机房,抱着一筐磁带撤出去。事后,这位年轻人因抢救国?#20063;?#20135;受到表彰。表?#27809;?#19978;,他说:“一旦机房不幸焚毁,我们可以凭这些磁带里的数据恢复业务系统。”



几年后,这位年轻人因工作出色职务晋升,成为那?#20057;?#34892;全国最年轻的信息科技处副处长,并主持处里工作。据说行里为了让他主持工作,有意没调派正处长。

 

当年的那位年轻?#21496;?#26159;现在坐在我面前的周总。这故事我是从别人那里听来的。周总告诉我:“表?#27809;?#21518;,行领导说数据丢不起,更不想小周有闪失,数据安全不能以人员不安全为代价,让我们多买些磁带,备两份儿,分放两栋楼,同时研究新的灾备方案。”

 

  • 第二代灾备

 

我说:?#30333;?#29992;存储设备的出现用不着您冒生命危险了。”

?#25353;?#20648;个头比主机还大,即便想搬也没人能搬动。”周总一笑,“数据防护安全技术发展到第二代,专业存储设备不仅把数据的保存和访问从主机中独立出来,而且内部的重要部件都是冗余设计,可靠性高多了。”

我说:“但不可奢望100%的可用?#30465;?#24744;给电视台准备公告的那件事儿,我印象深刻。”

 

【第二代灾备故事:给电视台的新闻稿都准备好了】

最初认识周总时,我们两家公司关系属于客户-厂家?#28798;省?#25105;在一家IT厂商供职,他当时担任一家国有银行某省?#20013;?#30340;信息科技部总经理。他?#20146;?#34892;已经完成了业务数据上收,建立了全国集中的数据中心,省?#20013;?#30340;前置机支撑省域内营业网点、ATM机和POS机等业务。

 

一个周日的下午,前置机中的存储设备发生了宕机,好在当时营业网点的业务服务时段临近结束,对网点的影响程度相对小一些,但该行全省范围内的ATM机、POS机都不能使用了。情况紧?#20445;?#20154;员备件同往。我们到达现场时,周总已经等在楼门口,神态镇定,表情凝重,像是盼等援军的将军。镇定是为军心稳定,凝重只因战事紧急。

 

故障很快查明了,存储设备中冗余设计的一对板卡?#32676;?#22833;效,中间间隔?#29238;?#23567;时,第二块板卡失效后设备宕机,数据访问中断。更换部件后,设备硬件很快恢复了,接着是文件系统、数据库管理系统完成一致性校验和修复,最后业务系统恢复了。至此未完。由于异常宕机,多个RAID盘组需要重建(“rebuild”)。重建由人为发起,由存储后端自动完成,优先级低于前端I/O访问,耗时长。在RAID盘组重建过程中,人们心里不踏实,担心重建异常突然影响业务系统。除非重建成功完成,否则紧急状态不敢取消。感觉时间过得太快,网点开门营业的时间正在临近,重建还在进行……

 

按?#23637;?#23450;,营业网点不能正常提供服务时,银行需要提前向社会公告,避免因不安情绪引发?#33539;一?#32773;其它混乱。客户和厂商双方人员一直呆在监控室里,我没留意周总何时离开的,他回来时手上拿着一页纸。那是准备发给电台、电视台的公告。他要在预设的最后时点发出。黑色的文字,红色的公章,纸张很轻,心情很重。

 

在大地迎来黎明的曙光时,我们也迎来了盘组重建完成、一切恢复正常的幸福时刻。公告没有发出,网点已经营业。我走出大厦,迎着明亮的阳光,没?#34892;?#22859;地如释重负。望着?#21644;?#36710;水马龙的街道,我不由?#28798;?#22320;举臂伸腰,消解疲劳。加之?#38498;?#24320;始的根因分析,我连续二十多个小时无眠无?#22330;?#21378;家犹如此,客户何以堪?

 

虽说往事如烟,但?#20004;?#26356;加认为:有备无患,方为上策。我在纸?#38386;?#19979;两行字,边递边说:“这是我在省行故障排除后的那天晚?#38386;?#19979;的句子,也是?#19994;南?#24448;。”

周总看后点点头,说:“用在数据安全与灾备上挺合适。令人向往的境界啊!”

 

第二代灾备方案的关键是存储设备。通过一系列的针对性设计,比如板卡冗余、RAID冗余盘组、高速缓存CACHE的电池、冗余电源模块,以?#30333;?#29992;的存储操作系统等,存储的数据可用性是非常高的。在维护达标的情况下,有的厂商还?#20449;?#25968;据100%可用性。但这一代灾备方案难以实现完全的业务连续性。上文前置机的故障,既有偶然性,又有必然性。想消除这种必然性,有两大障碍。一是硬件,有?#27604;?#20313;部件未及维修双失效或者某些部件不冗余;二是微码(固件),冗余部件之间的调度和协调机制失灵。面对这两座大山,单机方案几乎不可能翻越了,解决的希望寄托在双机上。

 

  • 第三代灾备

 

此处请允许我先做个科普。在数据容灾领域有两个重要的指标:恢复点目标RPO (Recovery Point Objective)和恢复时间目标RTO (Recovery Time Objective). 前者讲的是服务恢复后,恢复得来的数据所对应的时间点。一个业务系统往往有很多数据,可用的数据需要具备一致性。也就是说,所有数据都必须是某个时刻的“快照?#34180;?#21542;则,数据就可能因为不一致而不可用。但数据的备份和传输需要时间,实时数据与备份数据之间有个时间差。这个时间差就是RPO. 如果备份数据是在中断时刻之前15?#31181;?#30340;完整备份,RPO就是15?#31181;印?#32780;RTO讲的是企业可以容许服务中断的时间长度。如果灾难发生后30?#31181;?#20415;需要恢复,RTO就等于30?#31181;印?/span>

 

聪明的读者已经明白,这两个指标越小越好,最好都为零。确实如此,实?#19990;?#38590;在于灾备预算多少。预算不只包括搭建灾备环境所需要的一次性?#24230;耄?#36824;包括确保数据同步所需要的网络传输费用、人员管理、维护费用?#21462;PO和RTO越小,预算越大。周总单位当时前置机就只有一台存储设备,一旦发生故障,RTO就失控了,时间长得令人煎熬。

 

我问周总:“前置机系统故障后,听?#28783;?#21160;了紧急采购。”

“是的。我之?#25353;?#25253;告申请存储双机,预算一直没批。那件事之后,很快就批下来了。当时预?#25004;?#24352;,?#36710;?#20102;其它项目。”周总道,“吃一?#25285;?#38271;一?#24688;?#34892;里在数据安全及防护的认识方面上了一个台阶,甚?#37327;?#20250;汇报的次序都做了调整,行领导要优先听数据安全方面的内容。”

我问:“后来呢?”

周总:“后来上了存储双机方案,加强了故障监控,之后多年没再出过险情。”

 

再后来,我们两人的工作都有变动。我去了另外一家IT厂商,周总去了一家大型外资银行的数据中心,担任总经理,手下几百人。这?#20057;?#34892;的数据防护已是第三代存储技术。设备是从?#19994;?#26102;供职的那家公司采购的,俗称?#25353;?#20648;双机?#34180;?#36824;建立了同城灾备中心,一旦生产中心的数据不可用,业务系统可以切换到同城灾备中心的设备上继续运行。

 

第三代灾备的技术先进程度,远非第二代的单机架构可比。大型银行客户或者业务关键的其他行业客户不仅建立了两中心,还建有异地灾备中心,俗称“三中心?#34180;?#21516;一份数据同时有三个备份。万一发生诸如地震等重大灾害,即使同城的两个中心受损严重,但?#23545;?#24322;地的灾备中心还有一份数据。可谓高枕无忧了。

 

绝对的安全是没有的,只是遇险的概率大小。周总的数据中心?#25353;?#20648;双机”方案虽然RPO为零,但RTO会达到一个多小时,因为其中涉及服务器、网络、业务系统等一大堆的切换,文件系统需要装载(“mount”)备份卷。这一个多小时内,业务系统不可用。实际运行中,如果不是遇到火灾、供电异常或者建筑物损毁一类大的事故,而仅仅因为存储设备故?#26247;?#20999;换到灾备中心,这还是很令决策者纠结的。毋容置疑,决策者主观上还是希望尽可能在无需灾备切换的情况下排除险情,这样对业务系统的影响最小。

 

【第三代灾备故事:报功与报?#30149;?/span>

事有凑巧,周总的数据中心遇到过?#25353;?#20648;双机”架构中一台存储设备?#20013;?#21578;警,一个物理盘柜中几十块磁盘都在报错,好在业务系统仍可正常运行。工程师们忙了两天,险情?#30913;?#38500;。

 

公司派?#19994;?#29616;场全权指挥并协调国外研发中心的专家支持。周总很谨慎,叮嘱我任何进展?#35748;?#20182;通报,不要越过他报给他们的中国总部。故障发生第五天时,出现转机,异常的磁盘仅剩两块。笼罩人们心头多日的雾?#37096;?#22987;散去,疲惫的脸上有了笑容,沉闷的耳畔传来笑声。未到?#30002;?#30456;告时,已见喜鹊正飞来。

 

我分别向周总和我公司总部报告了最新进展。不久之后,被周总叫去谈话。本以为是谈下一步安排,不?#19978;氡慌?#22836;盖脸地指责了一顿。我一头雾水,不明就里。原来,周总认为故?#21414;?#26377;完全消失,原因没有查明,向其总部汇报时机不成熟。偏偏他?#20146;?#37096;的领导获知了进展情况,反过来向他核实。总部领导的突然过问,令他被动和?#24352;?#29978;至推测我公司存在越级汇报问题,于是诘问我是否“急于报功?#34180;?/span>



?#20063;?#27979;有人并无恶意地传播了消息。面对盛怒的周总,我不急不缓地说:“先前?#20057;?#21521;公司的有关同事强调了您的嘱咐,不可以越级报告贵行总部。我相信不会有人故意违反,你我分别查查?#30331;欏?#25253;功的可能性没?#26657;?#22240;为没有功劳可报。但人们愁闷了多日,不排除有人急于报喜的可能。”也许误解消除了,也许不快已过去,此话一出,周总便平静下来,换了话题。后来事情彻底解决了,业务系统未曾切换。自此之后,与周总的工作友谊加深了,遇有双方会议,他都指名邀请我参加。

 

从此事的经过可?#28798;?#36947;,业务系统可用率非常重要,时刻耿耿在?#22330;?#36935;有设备故障,上上下下都很关注,心情难免紧张,焦虑也属正常。焦虑缘于系?#31243;被?#30340;严重后果。知名企业的IT系统宕机?#24405;?#26102;常见诸报端。2011年,韩国农协银行系?#31243;被荊?#26381;务中断了三天,数据丢失严重。2016年达美航?#23637;?#21496;六个小时的宕机造成了一亿多美元的成本损失。即使在云技术时代,依然难以避免。2016年、2019年阿里云的“I/O不响应”影响大片地域。IT系统的脆弱性令人心悸,业务系统的可用性高度敏?#23567;?/span>

 

正因如此,灾备切换时常面临两难选择:切换不切换都担心。一个多小时的RTO令数据中心的切换决策犹豫不决,不到万不得已,不愿下达切换的指令。症结在于RTO仍是灾备架构的软肋,要克服就要等第四代灾备?#36866;?#20102;。

 

  • 第四代灾备

 

当第四代灾备技术?#36866;?#21518;,我最先介绍给周总。被称为“双活存储集群”的第四代技术容忍整台存储设备宕机,业务系统不受宕机影响。跨同城两数据中心的存储集群可以做到存储设备级别的“双活”(active-Active)?#26696;?#36733;均衡,通常也配置主机集?#28023;?#23384;储设备宕机对业务系统是透明的,RTO接近为零。内置于存储设备之内的高性能、高弹性、自动化、一体化的数据复制技术是当今最先进的灾备技术架构和方案,是数据中心关键业务系统的福音。

 

工欲善其事,必先利其器。周总长期在数据中心工作,深知先进灾备技术对业务系统暨银行生产安全的重要性。在其积极推动下,他们中心成为第四代灾备技术的早期客户之一。灾备演练完全自动化,系统运行基本没感知。关键业务系统受惠于最可靠的灾备架构和设施,宕机风险?#24230;?#20102;。

 

  • 灾备对策

 

外面的雨依然下着,我们的话题继续聊着。周总说:?#30333;?#20174;上了第四代灾备,多年来从?#20174;?#36807;的踏实。那种感觉棒极了,局外人很难理解。”

 

我说:“一切就完满结束了?”

周总:?#23433;换帷!?/span>

我说:“还有什么挑战?”

“?#34892;?#24819;法。不是学术,纯属聊天。”周总接着说,“可能遇到的一些风险和艰难包括国?#24335;?#36816;、自然灾害、人为破坏、设备故障、供电故障、网络故障以及误操作。”

我?#23454;潰骸?#26377;什么建议?”

周总略一停顿,说道:“这几类风险成因不同,影响范围和程度各异,对策也不同……”他说了很多,似乎经过了深思熟虑,不吐不快。摘其大要,列为三条。

 

第一、对于国?#24335;?#36816;这一类风险是全?#20013;?#30340;,需要政府、行协和企业心无?#30007;业?#20570;准备。政府和行协可以建立IT设备博物馆,把淘汰下来的旧设备保存好,最好是硬件、软件、应用程序、使用手册等配套保存。定期加电,使之处于随时可以使用的状态。可以参考某些国家保存淘汰的军事装备的做法。一些国家把淘汰下来的旧装备并不丢弃,而是有计划地保存起来。一旦新装备消耗完又得不到及时补充时,旧装备就可投用,虽不先进,但比没有要好很多很多。

 

除了政府和行协,企业层面也要有所作为。制定“利旧”计划时,预案要假定长期禁运的可能性。据此制定保持既有灾备水平的年限、降级灾备水平的年限、直至没有灾备的年限?#21462;?#20854;实,“利旧”不仅适用于国?#24335;?#36816;,也适用于其它突发?#24405;?#25454;传闻,美国“911”?#24405;?#21518;,有的公司在全球范围内搜罗某厂家停产多年的小型机,好坏不限。过去这些年份,我国处于经济增长高速期、中速期。一旦进入低速期,业务数据量增长降速,IT系?#31243;?#36895;扩容的需要下?#25285;?#26356;新换代的资金和预算就不会如今天这般的充裕,延长设备使用期限必将会常态化,我们需要整体谋划,?#20174;?#32504;?#36873;?/span>



第二、对于地震、水灾等自然灾害,或者恐袭?#28909;?#20026;破坏这一类风险,异地灾备中心最?#34892;В?#23545;于设备故障、供电故障、网络故障一类的风险,要?#23458;?#22478;或异地灾备中心;对于误操作,就要靠数据中心自动化?#26723;?#38544;患,并依?#23458;?#22478;或异地灾备中心应对。现有的第四代灾备方案可以较好地应对。关键是提?#30333;?#22909;预案,临事不慌。

 

第三、数据防护、数据安全的管理尤其重要,管理得好可以充分发挥和发掘既有方案的效能和潜能。管理是技术的?#23545;?#22120;,数据安全的风?#23637;?#29702;也不例外。管理的对象主要是人员。数据中心的管理人员和技术人员很专业、很可敬,服务商的技术人员遵经验、守规范,但长年累月地、多年如一日地不?#22797;?#20960;乎是不可能的。“?#23601;?#21407;理”中的短板随时可能出现,任何一个短板都可能带来大的麻?#22330;?#26085;常运营中需要避免松懈和疏忽,措施需?#34892;В?#35686;钟要长鸣。

 

?#21307;?#36825;些记录下来,写成此文,希望能对读者有所启发和借鉴。经过三十多年的发展,我国数据安全与灾备技术越来越成熟,风?#23637;?#29702;越来越规范。一路走来,有困苦有艰难。回头再看,更多的是敬意和点赞。微信聊天、网上?#20309;鎩?#31227;动支付这些?#31350;?#35265;惯的生活新方式,都是各自的数据中心在起关键作用。各行各业的数据中心为国?#19994;南?#20195;化、为经济发展、为民生的便利做出了巨大的?#27605;住?#20551;如没有这些数据中心,我们的工作方式和生活方式无疑将后退多年。不夸张地说,方方面面皆已电子化、信息化的现代社会高度依赖不为众人知的数据中心。数据安全没有一时不关键,数据中心的灾备没有一刻可或缺。

 

行文至此,我又想起了多年前在省城的那个夜晚写下的句子。那是?#19994;南?#24448;、周总的向往,也是更多人的向往。录在此处,作为结?#30149;?/span>

 

屋瓦固,任春雨纷纷,淡定凭栏观雨景;

窗棂坚,料秋风阵阵,悠然?#26032;?#21548;风铃。

 

【后?#24688;?#26412;文引用的灾备故事由真人真事改编而来。人物姓氏用了化名,任何的对号入座都是不合适的。作者选取故障场景作为切入点,是为了借此点明技术架构的薄弱所在,那也是技术方?#29238;?#26032;换代的关键所在。实际生产中,设备故障总会?#26657;?#20294;不可误以为“都是故障?#34180;?#21307;院多见病患,周围众?#36234;?#24247;。是同样道理。

及时响应,快速服务,为您保驾续航

立即注册

销售咨询:400-0078-655
紧急报修:021-61735936
投诉热线:021-61679076
技术QQ?#28023;?32148075
欢迎加入!
隐私声明
当您在本网站进行合作伙伴注册登记,本网站将收集您的相关信息,并保存记录。本网站收集的个人信息包括但不限于:姓名、地址、公司、所在地区、电话号码以及电子邮件地址?#21462;?#24744;主动提供的信息越多及越准确,我们就能够更好地为您提供有关服务。
咨询·购买
造梦工厂