首页 2021年数据中心运维操作统一标准及作业流程

2021年数据中心运维操作统一标准及作业流程

举报
开通vip

2021年数据中心运维操作统一标准及作业流程数据中心运维操作标准及步骤郑州向心力通信技术股份二零一八年1机房运维管理前期准备1.1管理目标机房基础设施运维团体应和业主管理层、IT部门、相关业务部门共同讨论确定运维管理目标。制订目标时,应综合考虑机房所支持应用可用性要求、机房基础设施设施等级、容量等原因。目标宜包含可用性目标、能效目标、能够用服务等级协议(SLA)形式展现。不一样应用可用性目标机房,可设定不相同级机房基础设施运维管理目标。1.2参与数据中心建设过程机房运维团体应充足了解自己将要管理场地基础设施。对于新建机房,应尽早参与机房基础设施建设过程,方便...

2021年数据中心运维操作统一标准及作业流程
数据中心运维操作 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 及步骤郑州向心力通信技术股份二零一八年1机房运维管理前期准备1.1管理目标机房基础设施运维团体应和业主管理层、IT部门、相关业务部门共同讨论确定运维管理目标。制订目标时,应综合考虑机房所支持应用可用性要求、机房基础设施设施等级、容量等原因。目标宜包含可用性目标、能效目标、能够用服务等级协议(SLA)形式展现。不一样应用可用性目标机房,可设定不相同级机房基础设施运维管理目标。1.2参与数据中心建设过程机房运维团体应充足了解自己将要管理场地基础设施。对于新建机房,应尽早参与机房基础设施建设过程,方便将运维阶段需求在 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 、设计、建造、安装和调试等过程中得到充足考虑;同时为后期做好运维工作打下基础。1.2.1应参与计划设计机房计划设计是一个谨慎和严谨过程,需要全部参与机房建设相关方共同完成,才能确保计划和设计有效性、实用性等要求。其中,基础设施运维团体应提出运维要求,从运维经验、实际运维难度、提升运维可易性等方面对计划和设计过程进行配合。1.2.2应参与相关供给商遴选机房基础设施运维团体应参与机房基础设施设备供给商选择全过程,立即地了解多种产品及服务品牌、型号、规格等关键参数,使之更能满足运维要求。并就在安装、调试过程中注意事项等提出提议,还需要对后续设备保修等服务提出要求。1.2.3应参与建造管理机房基础设施运维团体应主动参与机房基础设施建造工作,并帮助做好建设项目标项目管理工作,着重关注工程建造中如材料使用、工序、建造过程等工作,关键关注隐蔽工程安装工艺和质量。机房基础设施运维团体应充足了解施工过程中工艺。对于新建数据中心,从施工质量和以后运维方便性出发,尽早发觉施工过程问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 ,立即纠正,方便以后运维和节省以后整改成本。1.3测试验证机房基础设施投产前测试验证是确保机房基础设施满足设计要求和运行要求关键步骤。1.3.1时间和预算机房业主应设置测试验证专题预算,预算应包含外部测试验证服务提供商相关费用,和在测试验证阶段产生电费、水费、油费等相关费用。应制订测试验证工期计划,以更正确地估计机房基础设施交付投产日期。1.3.2测试验证参与方项目建设管理部门可作为测试验证工作主体责任单位;运维管理部门可作为测试验证工作主体审核单位;第三方测试服务商可作为测试验证实施单位及整体组织工作协调单位。但运维管理部门应要求测试服务商预先提供测试方案,在运维管理部门审核后方可进行。机房基础设施运维团体可参与测试验证工作,在此过程中熟悉设施和设备,可建立相关运维技术文档库,为后期运维工作做好准备。机房关键设备提供商及工程总包商,应主动配合测试验证工作,应在供给商协议中对此项有明确要求。1.3.3测试验证内容验证应覆盖全部关键子系统和设备应含有功效和关键操作程序,确保满足设计要求,必需时可做故障情景模拟来检验。测试验证中发觉设计或建设阶段问题,应该在汇报中充足表现;能够改造部分,应要求建设单位进行改造;不能改造或临时不需改造部分,应作为风险点在运维过程中给予尤其重视,并制订相关预案。1.3.4设施健康评定当接手已在运行机房基础设施运维工作前,运维团体应对设施情况进行健康评定,了解潜在风险点,其中能够改造部分,应该申请给予优化改造。不能改造部分,应该作为风险点在运维中给予尤其重视,并制订相关预案。1.4技术文档完整并正确技术文档是后期运行、维护、维修、故障诊疗、优化改造基础。运维团体在开展运维工作前,应从施工单位得到场地基础设施全套相关文档,包含但不限于:机房计划设计资料及完工图纸、全套设备清单及相关操作文档和保修保养资料、机房自动操作系统逻辑图及说明文档、监控系统点表、验收测试文档、机房所在建筑建筑设计资料、完工图纸。整体文档应在限定时限内进入运维管理知识库,并根据质量管理原理和要求设定文档起草、变更、审核、同意、保留、分发等职责权限。1.5管理边界为了明确管理责任,机房基础设施运维团体应将可能影响机房基础设施运维目标达成外界原因整合成管理边界汇报,提交业主管理层并组织研讨,形成明确决议,制订完整协调沟通机制及权责界限。这些原因包含但不限于:不归本部门负责,但可能对于本部门有重大影响供电、供水、供暖、制冷、消防、安防、监控、运行商线路接入等系统。2安全管理和质量管理提议2.1人员安全机房基础设施运维团体要编制正式机房生产环境(工作场所)安全方针,设定严格安全生产规范;并依据安全方针制订有效、明确安全计划,来教授和培训安全标准、危险识别、纠正缺点和控制风险。并加强对于该部分规范合规度培训、考试和审核检验,以确保机房运维人员人身安全。相关安全生产规范关键包含:●机房生产环境安全管理规范;●机房基础设施各系统安全管理手册;●机房基础设施包含安全应急预案;●机房基础设施管理过程包含技术方案中安全管理策略。机房基础设施中和电气相关工作存在着固有危险。设施运维团体应该创建一份正式电气安全计划,以最小化全部工作人员受到电气伤害风险,确保现场电气系统达成相关法规标准。电气安全计划中条款应要求电气工作人员在有资质和含有合理安全工作步骤前提下才能进行操作,并应利用防护设备和其它控制手段,如上锁挂牌设备。此计划创建意在预防职员受到电击、烧伤、电弧和其它潜在电气安全隐患,同时要求其遵遵法规标准。相关国家、行业规程包含但不限于:●GB26860电力安全工作规程发电厂和变电站电气部分;●DL408电业安全工作规程。2.2物理环境安全应了解周围社会环境信息,评定潜在安全风险并制订预案。这些信息宜包含但不限于:周围交通路况、医院、供油站、消防站、变电站、供水、供电、供气、网络通信线路等。可建立周围社会环境管理资料库。应了解机房所在地历史自然灾难情况。包含但不限于GB50174及TIA-942中提到全部评定机房选址外部原因,并制订对应管理预案。应建立并实施严格机房设备、人员、车辆进出 管理制度 档案管理制度下载食品安全管理制度下载三类维修管理制度下载财务管理制度免费下载安全设施管理制度下载 。应设置不一样安全区等级(参考ISO27001信息安全管理中物理安全控制)并制订访客管理制度,用以有效管理访客。2.3质量管理在机房基础设施运维过程中建立完善质量管理体系,是保障以上机房基础设施运维趋于卓越关键原因和手段。机房基础设施运维团体全部关键工作应包含以下质量管理要素:2.3.1质量确保●过程制订;●程序制订;●过程审核和同意;●过程和程序培训。2.3.2质量控制●事件回顾;●质量检验和检验;●定时质量审核。2.3.3质量改善●故障分析;●经验教训;●优化及创新计划。3人员管理提议3.1组织及人员3.1.1组织架构机房运维团体应有清楚组织架构,同时对各岗位有明确岗位职责说明并在计算机化维护管理系统(CMMS)中实现权责匹配,同时更新。中大型数据中心场地基础设施运维团体中除现场责任人外,可根据工作内容分设以下多个关键职能岗位:●运维巡检团体关键职责:对基础设备设施进行巡检,担任值班工作,第一时间发觉故障或问题,并作为管理程序实施者。●技术管理团体关键职责:对机房基础设施提供运维技术支持,处理技术问题,负担机房基础设施通常性优化改造工程项目管理工作,宜包含电气、空调、弱电等系统技术人员。●物理环境安全管理团体关键职责:对物理环境安全进行管理,进行安全巡检等工作。3.1.2人员配制机房基础设施运维人员配置应依据运维管理目标或SLA来确定。中高等级机房,可根据7X24运行要求配置运维人员。上岗人员应含有国家要求对应资格证书。应在运维管理程序中明确要求资质等级和操作权限一致性。高等级和含有一定规模机房,每个班组应配置含有电力、暖通、弱电专业能力运维人员,以达成“即时应急响应”工作状态。等级相对低机房,每个班需要最少配置一人,达成“即时报警”工作状态。运维团体关键岗位应有些人员备份和贮备。机房基础设施运维管理团体关键管理人员或关键岗位人员在正常运维工作开展中应采取A、B角色配置,日常工作中应注意角色分配和工作配合。其它岗位人员宜建立良好循环机制,人员可进行岗位轮换和交叉培训,使全部些人员掌握全方面基础知识。3.1.3绩效管理为了提升机房运维人员技术技能、职业素养和提倡团体合作精神,专业地、高效率地运行和维护机房基础设施,有必需建立人员关键绩效指标,定时对全部些人员短期和长久绩效进行评定,奖优罚劣,推进整个运维团体技术和素质发展和改善。3.1.4人员管理制度为了保障机房基础设施运维团体创新性、稳定性、连续性,应经过建立合理人员管理制度,约束人员工作态度、行为规范,提升人员工作热情、工作效率和实施力,激发人员正面影响,使团体一直保有活力来共同努力达成服务等级协议要求,运维团体应该建立运维人员各项管理制度。这些管理制度应该关键包含(但不限于):●《日常活动管理制度》;●《人员安全操作制度》;●《运维人员基础素质养成管理制度》;●《安全运行奖惩制度》;●《节能运行奖惩制度》;●《技术创新奖励制度》;●《人员晋升制度》;●《人才贮备制度》;3.2培训及认证3.2.1职员培训及资格认证计划对于机房基础设施运维团体新职员应进行完整及严格培训,以确保其立即含有岗位需要之知识及能力。培训内容应包含机房基础设施全部系统工作原理、操作步骤、应急预案、和管理制度等。对于全部运维人员宜设定以知识更新、技能提升为目标年度培训及认证计划。宜要求运维人员不停提升理论知识,方便于在缺乏操作程序应急状态下进行正确处理。可借助行业第三方专业培训及职业技能判定平台,主动开展运维人员任职资格评定工作。3.2.2历史事件分析学习运维团体应将机房基础设施历史事件总结分析作为培训关键素材,进行全员培训;对于新职员应在上岗前给予培训,以避免相同事件再次发生。3.2.3组织学习运维团体管理者应主动参与行业交流,了解行业最好运维管理实践,并从行业故障案例中总结经验,做好本身整改。3.3运维外包服务商3.3.1基础设施运维外包服务商选择机房基础设施属于关键性设施,选择外包运维团体时应考察其机房基础设施运维服务资质、能力和经验。如机房作为商业物业一部分整体外包运维,应要求外包运维机构针对机房基础设施设施部分设置专门有机房基础设施运维经验团体,并严格按机房基础设施运维规程规范实施。3.3.2运维外包服务商管理对于外包服务商职员管理标准应该参考运维团体内部职员相同要求,相关人员只有在进行培训并得到相关认证后才能从事相关工作。外包服务商需要严格遵照数机房基础设施既定操作步骤和安全守则。机房基础设施运维管理最终责任负担者是机房管理者,责任无法外包。所以,机房应保留运维关键管理人员,对于外包团体工作进行审核、监督和绩效评定管理。4设施管理提议4.1资产数据库数据中心应建立完整及实时更新资产数据库。数据库应包含全部关键基础设施设备清单,还应统计设备设施运行情况、事件情况、变更情况、维护保养频次等信息。资产数据库应最少包含以下信息:资产ID:每个资产唯一标识号种类:一级分类(如电气、制冷、消防系统)子类:二级分类(如UPS、电池、PDU等)描述:资产文字说明制造:资产制造厂家型号:制造厂家产品型号规格:资产规格或标称值位置:位置ID(房间或区域)购买人:资产维护责任人序列号:制造厂家序列号安装日期:资产投产日期保修期限:保修到期日期更换:估计资产更换日期维护频次:年检、季检、月检等4.2预防性维护4.2.1预防性维护计划预防性维护是为了延长设备使用寿命和降低设备故障概率而进行有计划维护。其目标是经过定时检验和保养,使设备一些缺点或隐患在变得更严重之前被发觉。运维团体应依据系统设备情况和供给商进行沟通,根据供给商提议提前制订年度、季度、月度预防性维护计划。各专业运维人员需根据各设备系统特征、维护步骤及规范,立即、完整地落实维护工作,并形成客观实际统计和汇报给予存档。运维团体还应定时对设备运行状态数据进行统计和趋势量化分析,对于异常趋势,做出报警及相关预案。预防性维护包含并不限于以下系统设备或内容:●冷水机组、精密空调;●UPS,开关、和发电机组;●消防系统和监控系统检验;●蓄电池放电测试;●配电装置(高低压配电装置)绝缘性定时试验;●二次保护定值试验;●每十二个月雨季之前进行数据中心防雷接地装置测试等。4.2.2工单管理运维团体应建立预防性维护及保养工单管理系统,工单应列出工作内容、完成对应工作需要工具及备件、工作估计完成时间、工作责任人等信息。计算机化维护管理系统应该对每份工单从产生到完成进行全程跟踪。4.3操作步骤机房基础设施全部操作,均应事先制订具体操作步骤,经过审核后存档并在后期运行阶段严格实施。4.3.1维护作业程序MOP对机房关键基础设施设备每次维护、维修、安装操作,全部应事先制订一份MOP。可要求设备供给商提供MOP提议,但对于MOP最终确定审核责任在于运维团体,同意责任在于运维管理团体。4.3.2标准操作步骤SOP全部关键基础设施设备在多种情况下全部能实施常见操作全部应制订标准操作步骤SOP。比如手动开启发电机组操作步骤,或将UPS转换到旁路操作步骤等。4.3.3应急操作步骤EOP应急操作步骤适适用于有可能发生严重故障情况。以下为部分严重故障例子:●一路市电供电时中止;●双路市电供电时同时中止;●单个精密空调时故障停机;●全部精密空调全部故障停机;●单台UPS时故障停机。4.4工具及备件管理运维团体应依据资产分类清单及其分类制订最低备件库存清单并立即补充备件。测试分析仪器仪表方面可配置进行电气性能参数测试、电池测试、接地电阻测试、绝缘性能测试、设备运行温度测试、风速测试、环境温度测试、噪音测试等仪器仪表。仪器仪表应该定时校准。应制订相关要求对操作工具、仪器仪表实施人员负责制或交接班负责制等管理制度。备件和工具应定时进行盘点。4.5供给商管理应该根据机房基础设施运维资质、以往经验、业界口碑等原因,以重视预防性和估计性维护和提升可用性相同标准来选择合格供给商。全部供给商抵达机房实施维护程序之前,应经过机房相关规程培训,取得机房运维团体和运维管理层同意。在实施维护活动过程中要严格遵照操作步骤。操作时需由运维团体人员陪同并监督统计步骤实施情况。供给商每次机房维护活动全部应该提交现场服务汇报并存档。运维团体应该建立供给商绩效评定方案,并定时对供给商进行绩效评定。应设置供给商管理文档,统计全部供给商联络方法、服务承诺(SLA)、工作范围、针对设施培训和认证情况等信息。4.6生命周期管理应基于设施设备合理生命周期,结合风险评定,制订设备维护、升级或更换计划及预算,立即汇报给运维管理部门。风险评定关键评定内容包含:●资产关键性识别;●资产威胁识别;●资产脆弱性识别;●风险值计算;●在评定更换设备方案时,可综合考虑原有设备维护费用和新设备在能效方面改善,做好综合投资回报分析;●对于冗余设备宜设置轮换运行机制,以延长整体设备生命周期。4.7运维管理系统机房可建立自动化维护管理系统(MMS),集中实现资产管理、维护调度、信息安全、文档管理、工单管理职能并统计全部运维工作任务及完成情况。5运行管理提议5.1运行管理制度机房基础设施运维团体应建立并严格实施运行管理制度,包含:5.1.1巡检相关管理制度●日常巡视巡检管理制度;●值班管理制度;●交接班管理制度;● 通知 关于发布提成方案的通知关于xx通知关于成立公司筹建组的通知关于红头文件的使用公开通知关于计发全勤奖的通知 矩阵。5.1.2工作步骤相关管理制度●工单处理步骤;●例会制度;●工作总结汇报制度(日、周、月、季、年总结汇报);●交付管理规范;●运维质量管理措施文档管理制度;●工含有件管理制度。5.1.3安全相关管理制度●机房出入管理制度;●机房现场管理制度;●机房卫生管理制度;●信息安全相关管理制度。5.1.4故障处理管理制度●设备操作管理制度;●设备故障处理步骤;●应急准备和应急响应步骤;●维护作业计划管理制度;●故障隐患跟踪反馈管理制度;●紧急事件汇报步骤。5.1.5经营相关管理制度●职员行为规范;●考勤管理制度;●人员管理考评制度。5.2设施监控、巡检、及交接班管理应配置环境、动力、安防等监控系统方便于运维人员立即了解设施各系统及设备运行状态和立即发觉异常情况。应要求对应运行人员对设施运行状态巡视频次、巡视工作内容及规范。运行人员交接班时应对当班实施操作、变更及观察到任何异常数据或现象进行交接和签收。5.3机房清洁管理应划定保洁区域,定时做好机房保洁工作,确保地板及地板下无尘状态。关键区域进行保洁工作时应有运维人员现场监督和指导。5.4标签标识管理应建立针对数据中心场地基础设施设备和物理环境完整、清楚标签标识管理系统。应最少包含:●设备标识:包含设备名称、型号、编号、资产编号等;●线缆标识:包含起始端信息、终止端信息、设备名称等;●警示标识:如“设备已带电/危险”、“严禁合闸”、“严禁分闸”等;●物理环境标识:如位置标识、区域标识等;●系统图展板标识:如电气、暖通、消防、弱电系统图展板。这类标识便于运维人员清楚、快捷地掌握区域及整个数据中心系统配电、制冷、消防、弱电原理及关键点位。5.5变更管理任何对于设施运行状态变更应进行预先风险分析,并基于风险等级,设定对应等级事前审核步骤。在变更方案及变更时间窗口确定后,应进行对应范围通知。变更结束后,应向对应范围部门通报变更结果。5.6事件管理应制订事件管理步骤,明确不相同级事件下对应处理步骤。5.6.1事件等级定义通常事件:任何没有达成机房设计和运行标准异常事件;严重事件:任何没有达成机房设计、运行标准事件,且对提供服务造成中止事件;重大事件:任何没有达成机房设计、运行标准事件,且对提供服务造成中止,且影响范围大事件。5.6.2事件升级当事件临时无法排除,需要逐层汇报,进入事件升级步骤。如遇特殊情况,和直接主管联络不上时,可越级向上一级主管汇报。5.7应急响应5.7.1设施应急预案演练运维团体应针对应急操作步骤EOP进行定时演练工作,关键包含:●沙盘演练:参与演练运维人员集合,并分别口述在发生紧急情况下本身所应负担职责及将会实施方案及步骤;●跑位演练:参与演练人员跑位到模拟故障现场,模拟处理故障,参与人员应清楚地说出故障处理方案及步骤。应急演练演练标准是:尽可能靠近真实情况,在条件许可情况下尽可能真实地处理故障。在运行中部分特定场景下也能够进行应急演练,如发电机带载试验等。5.7.2人员安全应急步骤机房基础设施运维团体应针对影响运维人员健康人身事故制订应急步骤并定时演练。应急步骤可包含设置现场抢救包和联络当地医疗抢救机构方法等。5.8容量管理容量管理可包含但不限于以下方面:5.8.1空间容量●IT设备摆放空间;●基础设备设施摆放空间;●综合布线线路空间,配线架管理。5.8.2能力容量●电力供给容量;●空调供给容量;●综合布线信息点容量;●互联网接入容量。设施运维团体应和IT部门定时沟通,动态了解IT需求估计,并通报设施容量使用情况。可制订3个月至36个月周期IT需求及设施可用容量二者对比分析表。当机房基础设施不能满足IT增加需求时,应提前制订并上报扩容或新建机房计划。5.9能效管理5.9.1能效监测机房基础设施运维团体应了解并统计机房在不一样工况及不一样外界气候条件下电力使用效率PUE改变情况,从中发觉趋势,以不停优化运行方案。5.9.2了解IT设备运行特征机房基础设施运维人员应含有一定IT设备相关知识,了解服务器、网络、存放等设备运行特点和功耗情况。还应了解用户或用户业务基础情况,了解IT设备运行峰谷期。应和用户或用户相关部门做好沟通,针对高密度IT负载布署做出估计,并制订相关应对方案。5.9.3管理气流组织应封堵设施建筑全部可能漏风口,维持设施正压。应疏导设施内气流流向、封堵全部可能漏风口、对机柜内全部空闲U位安装盲板、关闭无须要出风口、确保冷空气最好使用效率。5.9.4运行阈值设定应基于安全性及运行效率综合考虑,建立运行阈值设定指南,设置监控报警阈值、空调回风温度等。5.10预算管理运维团体应做好运维财务预算,上报主管领导及财务部门,并做好预算必需性沟通解释工作。预算应包含但不限于以下内容:●基于SLA人力预算;●备件及工具、仪器采购费用;●应急维护材料费用;●专业外包维保和应急服务费用;●政策性等强制检测服务费用;●整改或节能改造预算;●突发问题备用金。
本文档为【2021年数据中心运维操作统一标准及作业流程】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_179289
暂无简介~
格式:doc
大小:26KB
软件:Word
页数:0
分类:建筑/施工
上传时间:2018-09-18
浏览量:20