发布时间:2021-01-21
2021年(nian)1月18日晚上8点22分,北方广(guang)电网络公司运(yun)行保障中心IT支撑组负(fu)责(ze)人(ren)杨健(jian)离(li)开(kai)核(he)心机房后,终于松了(le)一(yi)口(kou)气(qi)。当天,他在不依赖厂家技术人(ren)员指(zhi)导的情况下,独立排(pai)除硬件故障并成功修复了(le)损坏系统,为公司节(jie)省15000余元的修复费用。说起这次系统故障,时(shi)间还要倒退到11个(ge)小时(shi)之前。
1月18日上(shang)午9点,北方广电网络(luo)公(gong)司(si)运营支撑(cheng)监(jian)控系(xi)(xi)统(tong)(tong)突(tu)然报警,供应(ying)商(shang)管理系(xi)(xi)统(tong)(tong)出现故障。作(zuo)为公(gong)司(si)官方网站一级(ji)页面的重要(yao)组成内容,供应(ying)商(shang)系(xi)(xi)统(tong)(tong)停(ting)止工作(zuo)会导(dao)致(zhi)公(gong)司(si)网站部(bu)分功能缺失(shi),影响(xiang)公(gong)司(si)采购项目信息的公(gong)告公(gong)示,使供应(ying)商(shang)无法按时上(shang)传审核材(cai)料。如(ru)果不及(ji)时修复(fu)故障,会对公(gong)司(si)品牌形象(xiang)造成严重的负面影响(xiang)。
“从系统(tong)的(de)损坏程度判断,已经不具备远(yuan)程服(fu)务(wu)的(de)条件。”杨健说,受新冠疫情及换(huan)修硬件采购时间(jian)等因素影响,厂家(jia)提供(gong)有偿上(shang)门维修服(fu)务(wu)至少要一天(tian)以后才能进行。此时,面(mian)对紧迫的(de)抢修任务(wu),他决定先自行开展维修工作。
杨(yang)健根据(ju)(ju)(ju)多年的运(yun)维工作经验判断,故障初(chu)步原因是(shi)硬件RAID板(ban)(ban)卡(ka)(ka)损(sun)坏。如果直接(jie)更(geng)换(huan)RAID板(ban)(ban)卡(ka)(ka),需(xu)要联系厂(chang)家进行(xing)(xing)购买,采购周期时间长,服务(wu)器内的数据(ju)(ju)(ju)也会有(you)丢(diu)失(shi)的风险。为(wei)了尽快完(wan)成维修(xiu),确保数据(ju)(ju)(ju)安(an)全,首选方(fang)案(an)是(shi)修(xiu)复RAID板(ban)(ban)卡(ka)(ka)。杨(yang)健先从其它(ta)(ta)备件中拆卸(xie)并更(geng)换(huan)了RAID板(ban)(ban)卡(ka)(ka)中损(sun)坏的原件,将修(xiu)复好的RAID板(ban)(ban)卡(ka)(ka)安(an)装(zhuang)在(zai)其它(ta)(ta)测(ce)试服务(wu)器上(shang)运(yun)行(xing)(xing),成功恢复了5块硬盘(pan)的正常阵列信息。通过系统安(an)装(zhuang)光盘(pan)引导(dao)计(ji)算机,访(fang)问到硬盘(pan)阵列中的原始数据(ju)(ju)(ju)。他深知数据(ju)(ju)(ju)的重要性,不能莽撞(zhuang)行(xing)(xing)事。为(wei)避(bi)免给公司造成更(geng)大的损(sun)失(shi),他用最(zui)原始的外(wai)部存储(chu)方(fang)式备份(fen)数据(ju)(ju)(ju)。受单线程命(ming)令及外(wai)部存储(chu)接(jie)口(kou)速率的限制(zhi),全部文(wen)件的分析及备份(fen)工作历时6个多小时。
数据安全了,悬着的(de)心(xin)(xin)终于落地(di)。但在随后的(de)检查中(zhong)杨健再次发现新问题:服务器操作(zuo)(zuo)系统(tong)(tong)文件(jian)损坏非(fei)常严重(zhong),已无(wu)法(fa)正(zheng)常运行。“操作(zuo)(zuo)系统(tong)(tong)核(he)心(xin)(xin)数据损坏,最有效的(de)方式就是(shi)重(zhong)新安装系统(tong)(tong),但这需要厂商的(de)配合才(cai)能完成(cheng)。”而此时并不具备这样(yang)的(de)条(tiao)件(jian),杨健只能在现场独立(li)修复(fu)受(shou)损的(de)系统(tong)(tong)。系统(tong)(tong)文件(jian)相互调用,结构复(fu)杂(za),杨健只能在摸(mo)索(suo)中(zhong)一点点进(jin)行。
历时(shi)(shi)11个小时(shi)(shi),当(dang)日(ri)晚上8点,杨(yang)健终于排除硬(ying)件故障并成功修复了损坏系(xi)统,供应商(shang)管(guan)理系(xi)统重新恢复运行。
打破厂商技术限制,自主完成设备优化
杨(yang)健2008年(nian)入(ru)职(zhi)于北方广(guang)电(dian)网络公司,先(xian)后就职(zhi)于运营支撑(cheng)部、运行(xing)保障(zhang)中心,长期从事硬件(jian)架构(gou)设计、软件(jian)开发部署(shu)、设备运行(xing)维(wei)护等工(gong)(gong)作。他(ta)责任心强(qiang),不(bu)(bu)惧困难(nan),乐于专研。不(bu)(bu)满足只做好(hao)本职(zhi)工(gong)(gong)作的(de)杨(yang)健,通过坚持不(bu)(bu)懈的(de)努力学习(xi)和在技术一线(xian)的(de)工(gong)(gong)作实践,使(shi)他(ta)对运维(wei)工(gong)(gong)作有了(le)更全面和深入(ru)的(de)认识。
杨健工作照
对于运维(wei)工(gong)作(zuo)(zuo)来说,“稳(wen)(wen)”是工(gong)作(zuo)(zuo)的(de)(de)核心,而“变(bian)(bian)”意(yi)味着(zhe)要(yao)打(da)破(po)常规,突(tu)破(po)规则,“稳(wen)(wen)”和“变(bian)(bian)”看似是对立矛(mao)盾(dun)。但在杨健看来,“稳(wen)(wen)”和“变(bian)(bian)”并不(bu)矛(mao)盾(dun)。随着(zhe)公(gong)司5G业务的(de)(de)逐步(bu)(bu)开(kai)展(zhan),对运维(wei)人员技术能(neng)力(li)、管理水平等多方面都(dou)提(ti)出了更高(gao)的(de)(de)要(yao)求,如果运维(wei)工(gong)作(zuo)(zuo)按部就班(ban),不(bu)以发展(zhan)趋势而创(chuang)新(xin),在技术上止(zhi)步(bu)(bu)不(bu)前(qian),习惯依赖于外部的(de)(de)技术支持,那(nei)么(me)我们只能(neng)为此付出高(gao)额的(de)(de)“学费(fei)”。“公(gong)司作(zuo)(zuo)为创(chuang)新(xin)技术型企业,更需(xu)要(yao)稳(wen)(wen)中(zhong)应变(bian)(bian),变(bian)(bian)中(zhong)求进,牢(lao)牢(lao)掌握(wo)工(gong)作(zuo)(zuo)的(de)(de)主动权。”杨健说。
几年(nian)前(qian),全省(sheng)BOSS系统(tong)(tong)(tong)整合后遇到了性(xing)能瓶颈。如果按照厂商(shang)(shang)提(ti)供(gong)的(de)(de)(de)技(ji)术(shu)改造方案,公司将(jiang)付(fu)出高额的(de)(de)(de)服(fu)务(wu)费(fei)用。为了打破(po)厂商(shang)(shang)技(ji)术(shu)和(he)价格(ge)的(de)(de)(de)垄断(duan),经公司领导(dao)商(shang)(shang)议后决定自主进(jin)行升级改造。当时(shi)国(guo)内可供(gong)参考的(de)(de)(de)技(ji)术(shu)资料(liao)非常有限,仅有两三(san)篇技(ji)术(shu)资料(liao)和(he)厂商(shang)(shang)提(ti)供(gong)的(de)(de)(de)宣传技(ji)术(shu)概(gai)念(nian)。杨健(jian)根据丰(feng)富(fu)的(de)(de)(de)知识储备和(he)多年(nian)从事运(yun)维(wei)系统(tong)(tong)(tong)维(wei)护的(de)(de)(de)经验,悉心研究架构,最终达到了既定优(you)(you)化目的(de)(de)(de),成功(gong)实施(shi)了BOSS系统(tong)(tong)(tong)的(de)(de)(de)优(you)(you)化和(he)割(ge)接。每年(nian)为公司节省(sheng)系统(tong)(tong)(tong)服(fu)务(wu)费(fei)50余(yu)万元,系统(tong)(tong)(tong)运(yun)行至今未购买维(wei)保服(fu)务(wu),间接节省(sheng)运(yun)维(wei)成本200余(yu)万元。
北(bei)方(fang)广电网络公(gong)司多(duo)功能展(zhan)厅是(shi)公(gong)司举办(ban)大型活动、对外展(zhan)示公(gong)司前沿业务(wu)(wu)和产品的重要场所。杨健深知保障多(duo)功能展(zhan)厅各项(xiang)设备平稳运行,即(ji)是(shi)工作(zuo)任务(wu)(wu),也是(shi)政(zheng)治责任。
杨健接(jie)手展厅(ting)(ting)设(she)备(bei)维(wei)护工作时,距展厅(ting)(ting)建(jian)成已有4年的时间(jian),部(bu)分(fen)(fen)设(she)备(bei)早以过了(le)维(wei)保期,故障率较高。在一次(ci)高规格接(jie)待任务(wu)前夕,展厅(ting)(ting)OTN网(wang)沙盘展示区(qu)播(bo)放控制(zhi)(zhi)端主机发生故障,送修(xiu)后被告知无法修(xiu)复(fu)。杨健通过逆(ni)向分(fen)(fen)析控制(zhi)(zhi)端程序了(le)解其运行(xing)机制(zhi)(zhi),将其移植到(dao)一台(tai)笔(bi)记(ji)本(ben)电脑上,实(shi)现了(le)控制(zhi)(zhi)功能。
还有一(yi)次(ci),他在调试投(tou)(tou)影(ying)设备(bei)时发现5台(tai)(tai)投(tou)(tou)影(ying)设备(bei)中有1台(tai)(tai)投(tou)(tou)影(ying)发生故障,导致投(tou)(tou)影(ying)画面不完整。这种高端投(tou)(tou)影(ying)设备(bei)单(dan)价(jia)高达20万元,沈阳当地没(mei)有授权维修(xiu)(xiu)机构,只能送(song)修(xiu)(xiu)北京。为确保第(di)二天的(de)接待工作顺利进行,杨健连夜加班(ban),查找问题,最终修(xiu)(xiu)复了(le)设备(bei),圆满的(de)完成(cheng)了(le)当次(ci)接待任务。
以上只是(shi)他(ta)平凡(fan)工(gong)作(zuo)(zuo)中(zhong)的(de)(de)缩(suo)影(ying)。杨(yang)健就是(shi)这(zhei)样一位(wei)秉承工(gong)匠精(jing)神、严谨(jin)认真、精(jing)益(yi)求精(jing)、有(you)责(ze)任(ren)心、有(you)专业技能、肯钻研的(de)(de)运保人(ren)。作(zuo)(zuo)为(wei)一名共产党(dang)员,他(ta)时刻不(bu)忘发(fa)挥(hui)先(xian)锋模范作(zuo)(zuo)用、任(ren)劳任(ren)怨,突(tu)破传统思维在(zai)其工(gong)作(zuo)(zuo)中(zhong)做出了卓越的(de)(de)贡(gong)献。
(运行(xing)保(bao)障(zhang)中心)