一舟集团

首页 > 服务支持 > 一舟案例

焦点 IT抗灾

焦点 IT抗灾

来源:江南体育官网    发布时间:2023-12-09 19:29:59 1
“黑天鹅事件”,还是“灰犀牛事件”,面对各种突发的自然灾害和事故,从国家到地方,从企业到个人,该怎么样有效应对,尽可能的避免和减少损失呢? 郑州的大雨让我们反思,在数据中心运营、容灾备份

  “黑天鹅事件”,还是“灰犀牛事件”,面对各种突发的自然灾害和事故,从国家到地方,从企业到个人,该怎么样有效应对,尽可能的避免和减少损失呢?

  郑州的大雨让我们反思,在数据中心运营、容灾备份、业务连续性管理、碳中和等方面,我们还需要逐渐完备和优化。

  郑州大雨,千年一遇!据官方统计,7月17日20时至20日20时,郑州三天的过程降雨量达到617.1mm,而郑州常年平均全年降雨量为640.8mm,相当于这三天下了以往一年的量。从气候学的角度分析,通过分布曲线拟合来看,这次的大雨千年一遇。消息一出,许多科技公司都积极行动起来,不仅捐款捐物,而且有的还派出了应急和服务团队,为受灾地区的客户提供服务支持。不管是“黑天鹅事件”,还是“灰犀牛事件”,面对各种突发的自然灾害和事故,从国家到地方,从企业到个人,该怎么样有效应对,尽可能的避免和减少损失呢?

  7月20日,海腾郑州BGP机房发布了重要的公告称,因郑州近日连降暴雨,城市内道路积水严重,交通供电通信等公共基础设施遭到重大影响,很多区域停电,包括机房所在区域市电中断已超过1个小时。由于机房采用柴发带载,附近油站因道路积水暂时无法供油到机房,自身存储油量有限,同时考虑到供油及市电恢复不可控等因素,建议用户紧急备份数据,或可先远程关机。海腾已启动应急响应,后续会及时通报进展情况。

  7月20日晚,晋江文学城也公布消息称,由于晋江文学城主要网站业务所在的异地骨干机房在郑州市,而机房因暴雨停电,暂时依靠备用发电机供电,部分线路可能会出现不稳定的情况,假如慢慢的出现暂时无法访问的情况,建议用户先重启设备试试。

  由于郑州地理位置比较特殊,当地的许多大型数据中心一直是国内互联网重要的枢纽和关键节点。若由于大雨而导致某些重要的数据中心停服,可能会造成一连串不利的影响甚至是巨大损失。

  7月22日下午,记者联系到了景安网络的一名工作人员。据他介绍,景安网络的机房并没有遭遇水淹,50%左右的电力和网络正在恢复中,整个机房正在由大型柴油发电机供电,网络保持正常。如果接下来天气转好,可能几天内机房运营就会全面恢复正常。

  据了解,还有多家企业的数据中心机房因大雨而导致停电,被迫采用柴油发电机供电,造成部分业务异常运行。

  众所周知,数据中心运维管理最重要的就是做好四件事——“风火水电”。哪一项处理不好,都可能会让数据中心基础设施遭受灭顶之灾。郑州这场千年一遇的大雨,对于数据中心的建设、运营和管理,是一次特别的检验,同时也是一次警醒。

  数据中心对运行环境有着极其严格的要求。若发生漏水事故,有很大的可能性造成设备损坏和信息丢失。因此,对于数据中心来说,防洪之事不可小觑。那么,面对水灾,数据中心里的隐患到底有哪些呢?

  数据中心通常会面临以下主要“水患”:机房在建筑物顶层,由于屋内漏水,造成水灾;机房在建筑物底层,由于上下水管道堵塞易造成水灾;机房内暖气系统漏水;由于水冷系统设计不当或损坏也会造成漏水;空调系统排水管设计不当或破损导致漏水;机房区内水源检修阀漏水;机房内有卫生间,由于下水管道或地漏堵塞也有出现水患的风险;再有就是像洪水侵袭等。

  数据中心标准联盟提出,在建设机房时,为避免水害应注意以下方面:若机房地处建筑顶层,屋面一定要经过严格的防水处理,防止雨水渗漏进入机房;机房由于使用恒温湿装置,正常的情况下应不使用暖气系统,若一定要使用暖气时,应在暖气下设立防水槽,或者采用钢串片式暖气片,管道全部采用焊接,以防止漏水;若机房内有水管通过,应采取保温措施,且管道阀门不应设在机房内;有上下水的房间和卫生间应远离机房;机房内一定得安装水源时,应加强管理,防患于未然;机房选址一般在大楼中间层,大楼机房外的楼层和房间一般都采用水喷淋灭火,机房上部楼层的水喷淋灭火系统给机房的安全留下很大隐患,一旦有火情发生,水喷淋系统启动,水就会渗漏到机房内,从而威胁到机房的安全。

  上文已经介绍了一些数据中心防水防洪的基本常识和做法。UCloud优刻得的专业的人介绍说,数据中心防范水灾问题,一般可从以下几个方面入手,进行预防和处理。

  首先是机房选址问题。机房在选址时,应考虑自然地理条件、配套设施,以及旁边的环境、人文气象,乃至政策环境等因素,选择足够高的海拔、历史降雨量少和不易水淹的位置。例如,UCloud优刻得乌兰察布数据中心所在地海拔1400米,年度降雨量保持在150mm-450mm,干旱少雨,周边也无大流量河流,而且历史上没有过洪涝灾害。

  其次是设计施工方面的问题。从机房设计施工的角度看,机房内部水平面应高于户外水平面600mm,排水管网高度为-2.5米,这样室外水难以进入和倒灌入机房内部,并且排水管网有多处主排水口,即使数据中心园区内有积水,也能够迅速排入到市政排水管网中。

  最后是数据中心的运维管理问题。防洪工作是数据中心日常运维的关注重点。运维团队应定期组织专人进行户外防排水的专项排查,并检查并核对防洪物资种类、数据。针对洪涝灾害,UCloud优刻得的运维团队已经制定了相应EOP紧急处理预案,每日运维晨会中包括气象汇报内容,及时做好水灾预防措施。

  从对外公布的信息来看,在这次郑州大雨中,一些数据中心能够及时通报情况,并采取积极有效的应急措施,避免了更大损失的产生。

  进入夏季,本来就雨水多发,除了郑州以外,国内还有多个城市受到雨水侵袭。北京市气象局就在7月26日23时10分启动了重大气象灾害(暴雨)Ⅲ级应急响应。北京有多个数据中心聚集区,比如亦庄经济技术开发区、望京、中关村等。面对重大气象灾害,数据中心应如何提早防范呢?

  2020年初,在新型冠状病毒肺炎疫情出现后,中金数据位于武汉的数据中心就经历了严峻的考验。平时严谨的工作作风,疫情期间全面及时的应急响应,以及扎实的工作,让中金数据位于武汉的数据中心,不仅安全度过疫情最困难的时期,而且为当地的抗疫防疫工作提供了尽可能多的支撑。

  今年7月11日北京市气象台发布暴雨黄色预警信号后,中金北京数据中心就统一按照提前部署,启动《中金北京数据中心防汛工作紧急预案》,在公司统一领导和各部门的积极配合下,严防死守,确保了北京数据中心零事故。

  据了解,中金北京数据中心运行管理中心层层落实防汛工作,制定并执行24小时值班制度;同时开展了对公司园区场地的电气设施、各房间电路、库房、油库、变配电室的全面防汛检查活动,做到防患于未然;成立由各部门业务骨干组成的应急救援队,按时进行检查、定期更换已损物资,并保持联络畅通,按照应急预案的要求,全员随时做准备,服从命令听指挥。

  中金北京数据中心已连续稳定运行16年,而安全是数据中心稳定运行的前提和保障。中金北京数据中心对重大自然灾害做到提前预警,提前部署,严密防控,常抓不懈,严格保障了北京数据中心客户人身财产“双安全”。

  对于数据中心来说,从选址到建设再到运维,无论哪一个环节都应该充分考虑到自然灾害或人为操作失误可能带来的损害,做到事前有预案,事中快速有序响应,事后及时恢复,这样才可以让数据中心用户放心、安心。

  上文已经提到,在郑州大雨期间,许多数据中心服务商及时发布了重要的公告,通知用户对数据来进行紧急备份,以避免损失。许多数据备份、容灾厂商也在第一时间发布了有关备份和容灾的策略和指导意见,提醒并协助用户做好容灾和恢复工作。

  还记得2001年的美国“9·11”事件吗?它让“灾备”这个词深深地刻在了人们的头脑中。备份是数据安全的一道重要防线。尤其是收到像水灾、地震等重大灾难的预警时,用户一定要提前做好备份,防止数据丢失。而一个完善、高可用的灾备系统,对公司从灾难中及时恢复也是必须的。

  同城容灾、异地容灾、两地三中心,容灾建设一直在持续推进中。此次郑州的水灾,从一个侧面提醒我们,重要系统的异地容灾是重要且必要的。其实,无论是从政府层面,还是行业层面,都对容灾建设提出了明确而具体的要求。我国《信息系统灾难恢复规范》(GB/T 20988-2007)就提出,建设异地灾备数据中心,距离必须在300公里以上,同时还必须做到“不在同一火山地震带,不在同一水系,不在同一电网”。

  《公共安全业务连续性管理体系要求》(GB/T 30146-2013)为策划、建立、实施、运行、监视、评审、保持和持续改进一个文件化的业务连续性管理体系规定了要求,用以实施保护,减少中断事件发生的可能性,以及当中断事件发生时准备、响应并恢复。中国人民银行于2018年8月15日正式对外发布了《云计算技术金融应用规范 容灾》(JR/T 0168—2018)。这是一个金融行业的容灾标准,它对金融领域云计算平台的容灾提出了具体实际的要求,包括云计算平台容灾能力分级、灾难恢复预案与演练、组织管理、监控管理、监督管理等内容。此标准适用于金融领域的云服务提供者、云服务使用者和云服务合作者等。

  随着企业对业务连续性和实时性的要求逐步的提升,人类对于容灾建设的需求更加迫切。而新技术的快速迭代和演进也为容灾建设提供了更好的支撑。

  不可否认,异地灾备是一种理想的容灾模式。在国内很多监管严格的行业,比如银行、证券等金融行业,以及电商、云计算等领域,许多客户已经部署了多中心异地互备,并成功落地应用。英方软件是一家专注于数据复制的基础软件企业,致力于动态文件字节级复制、数据库语义级复制、存储层变长块级复制及其他信息化技术的研发与推广,其产品已大范围的应用于灾备、数据保护、云数据管理等领域,帮助各类用户打破数据孤岛,实现数据互联互通。

  英方软件指出,提供异地数据中心服务,需要投入大量人力和财力,而要实现生产中心到灾备中心的成功切换(业务级),这中间存在很多挑战,其中最关键的一点是业务切换过去,灾备中心能否平滑实现故障接管。对于IDC运营商而言,这一切换过程会存在很多不确定性,如果实施不当,严重的可能会造成数据丢失。因此,容灾的运营比建设更重要。

  中科热备的热备云HotStandy Cloud,可以为私有云、公有云、混合云、主机系统做保护,同时应用边缘计算技术,可提供云平台、虚拟机、系统、数据库、文件等的备份和容灾。中科热备致力于持续简化私有云、公有云和混合云环境中关键工作负载和数据的保护和安全性,同时大幅度降低云中保护成本,在轻松应对企业面临的各种数据安全合规问题的同时,为企业做好面向未来的准备。

  容灾是一种有效的安全保护机制。郑州的大雨再次提醒人们容灾的重要性。其实,自然界的灾害以及许多意外事故,都是容灾重点防护的内容。

  2021年3月,欧洲云计算巨头OVH位于法国斯特拉斯堡的机房发生严重火灾,导致占地500平方米的SBG2数据中心被烧毁,1.5万名客户的资料可能受一定的影响,其中部分客户的数据完全丢失且没办法恢复。容灾机制可以在灾难发生时,实现快速及时的恢复,保证数据完整性以及业务的连续性。

  河南遭遇极端强降雨,根据《国家防汛抗旱应急预案》有关法律法规,国家防总于7月20日20时启动防汛Ⅲ级应急响应。城市应急机制是指在应对突发事件中,对政府行政权力进行应急配置而形成的权力运行机制。城市应急机制作为行政应急权运作的社会现实通道,是行政应急权的权能充分的发挥的社会体制平台。行政应急权目标实现过程中人、财、物的调动能够被统一支配,因而实现行政应急权最大的权能效益。

  通常来说,应急管理机制最重要的包含应急领导和指挥体制、应急管理日常办事机构、突发公共事件应急指挥中心、编制应急预案、应急管理专家咨询组织、预警信息系统、应急管理信息网络、应急管理保障系统、应急管理资金、应急机制建设发展规划、应急管理政策法规体系、应急管理宣传教育和培训演练,以及应急管理的科学研究和人才教育培训等。建立城市应急机制,会跨越多个层级,涉及诸多部门,涵盖许多环节,关键是统一目标管理,确保责任落实,有效保障城市的正常运行,保障人民生命财产的安全。从政府到企业再到个人,都应该树立牢固的“有灾无灾作有灾打算,小灾大灾作大灾准备”的理念,这样才可以做到防患于未然,即使在灾害发生时,也能做到有条不紊,及时有效处置。有有经验的人指出,此次郑州大雨的应对处置与以前发生的汶川地震一样,在应急处置、业务连续性管理(BCM)等方面有许多经验要总结。

  BCM是一项综合管理流程,它使企业认识到潜在的危机和相关影响,进而制订响应、业务和连续性的恢复计划,其总体目标是为了更好的提高企业的风险防范能力,有效地响应非计划的业务破坏,并减少不良影响。当前,ICT系统已成为企业不可或缺的生产工具和核心资产,都应该纳入到BCM的范畴之中。BCM既支持企业业务连续性管理活动,也支持技术灾难恢复活动,最重要的包含项目规划和管理、人员配备、计划、预测、预算编制、研究和开发、资源管理、通信、会议、教育活动、宣传和促销活动、活动网站、绩效评估活动、按天做处理查询和许多其他活动。有经验的人指出,BCM主要是针对企业自救的应急方法。郑州的这场大雨对企业的BCM能力是一次实战考验。

  从目前情况看,银行在BCM制定和执行方面做得不错,这也得益于严格的行业监督管理,比如在应对水灾、火灾、停电和交通中断等方面,确实做到了有章可循。据记者了解,郑州当地某银行一位负责IT的高管曾经获得了CBCP认证,在这次大雨来临之时,他所学的BCM知识有了用武之地,在抗灾过程中一直按照BCM的规定进行响应和处置。但是还有很多行业和企业,并没有建立完善和适合本行业和企业的BCM规范,在大灾来临之时难免会手忙脚乱,不知从何下手。

  无论是城市应急管理,还是BCM,都仰仗基本法律制度、信息制度、公共服务保障体系的建设和完善,在政府和行业的监管下,企业要有危机意识,将应急管理、BCM纳入到日常管理中,并且要加强危机教育,掌握自救、救护,以及快速处置的方法,这样才可以将危害降低到最小程度。

  一场大雨为何会牵涉到碳中和这样的一个问题?据分析,美国、加拿大两国的山火,德国的水灾,以及国内多地强降雨、台风带来的影响,其实都与近些年全球气候的异常变化有关。

  事实上,全球气候问题正在掀起一场碳中和与新能源的革命。当前,碳达峰碳中和工作领导小组已经成立,正在制定碳达峰、碳中和时间表、路线+N政策体系。

  2021年5月26日,国家发展改革委、中央网信办、工业与信息化部、国家能源局联合印发《全国一体化大数据中心协同创新体系算力枢纽实施方案》,明白准确地提出布局全国算力网络国家枢纽节点,启动实施“东数西算”工程,同时推动数据中心绿色可持续发展。在国家提出“双碳”目标后,数据中心行业的能耗问题再次引发广泛关注。

  7月27日,北京市发改委印发了《关于逐步加强数据中心项目节能审查的若干规定》(以下简称《规定》),从源头上规范引导数据中心实现高水平质量的发展,持续提高能效碳效水平,强化全生命周期节能管理,促进全市碳减排碳中和。《规定》中明白准确地提出,将对数据中心实际运行PUE值执行《数据中心能源效率限额》(DB11/T1139)的情况做节能监察,对于超过标准限定值(PUE值1.4)的数据中心,将按照《北京市完善差别电价政策的实施建议》中超过单位产品能耗限额的情形,确定执行差别电价单位的名单。

  对于PUE1.4且=1.8的项目,执行的电价加价标准为每度电加价0.2元;对于PUE1.8的项目,每度电加价0.5元。

  据国家有关机构测算,如果实现中国碳中和目标,大体需要136万亿元的投入,这将是一个巨大的市场。从企业的角度讲,要主动布局,创新新业态,开发新产品,应用新技术。

  亚马逊云科技致力于成为可持续发展的推动者和变革者,希望从基础设施的运营可持续、云服务产品的可持续,以及赋能客户和合作伙伴网络成员实现可持续,推动中国向绿色低碳的可持续社会转型。首先,运营可持续,是以环境友好的方式运营基础设施。

  第三方报告数据显示,亚马逊云科技的基础设施能源效率是一般数据中心的3.6倍,比传统本地数据中心的碳足迹减少88%。其次,产品可持续,即亚马逊云科技的云服务产品本身就是高能效、低能耗的。最后,赋能可持续,亚马逊云科技致力于帮助客户和合作伙伴网络成员实现他们的可持续发展目标。

  一场大雨引发了我们对数据中心运营、容灾备份、业务连续性管理、碳中和等的深入思考。声明

评论一舟