【IDCC2019】京东数科姚秀军:机房巡检的新方向与探索
2019年12月18-19日,第十四届中国IDC产业年度大典在北京国家会议中心正式召开。作为数据中心云计算产业内知名的盛会以及IDC企业、电信运营商、互联网、金融、政府和厂商等产业上下游的高效沟通平台,与会嘉宾包括政府领导,行业专家和企业代表数千人。 以“智能运维与安全”为主题的分论坛于19日下午举行,京东数科智能机器人业务部总经理姚秀军出席本次会议,并发表了《机房巡检的新方向与探索》主题演讲。
京东数科智能机器人业务部总经理姚秀军
姚秀军:大家下午好,我是来自京东数科智能机器人业务部的负责人姚秀军,很荣幸有机会跟大家分享一下我们在机房领域围绕巡检这个场景的探索。
作为京东来说它本身有大量的机房和设备,在运维过程中也是在前期走了很多弯路,其中在巡检这一块我们认为最多的一点,因为现在有大量的外包人员,这些外包人员在巡检过程中列的三大块上跟我们业务契合不是特别好:1、准确性;很多外包人员有没有进行巡检,有没有仔细进行巡检这是一个很难估量的。2、及时性;因为我们知道在人工巡检的时候很难达到7×24时间的覆盖。3、完整性。只能从他自己巡检的某一个环节、某些主干线上覆盖,如果把所有设备完整的巡检下来需要的人力资源占用非常大。
其中最重要的一块我们认为是起码很难在数字资产这块形成一些积淀,我们知道现在的互联网企业最大的资产就是数据,就是我们一直提的数字化资产,这是现在整个互联网产业最基础的一层,原来传统的方式巡检了很多年但很多这方面的经验很难通过数字化的形式沉淀下来。我们一直在探索/思索,未来智能化运维、智能化巡检有没有可能?
我们在京东品牌下,结合京东已有的能力,从AI到机器人的能力再结合品牌和整合上下游供应链的能力做了很多这方面的探索和探讨,最终我们形成了一个结论,未来的无人化运维是完全可能的,而且需要一个最小的子集就能实现,这个子集就是以AI为中心,中间形成了四套系统,四套系统里面其中三套系统现在的无论是IDC还是常规机房都是具备的,这三套是动环监控系统、第二运维系统是必不可少的。另外一块是资产管理类的相关系统,但是这里互补的最重要的一环在巡检里面目前没有一套完整的解决方案和产品覆盖的,也是结合这样一个大的命题和结论,我们整体上推出了整个机房的巡检机器人解决方案,它最大的核心就是以AI为基础,我们知道这些年AI的快速发展在很多场景已经在落地开发。京东作为一家互联网公司也是在AI方面沉淀了很强的能力,我们知道在互联网企业里边本身有AI投入的动机和使用的动机,所以在这一块我们在相关的机器学习、图像识别、决策规划、专家系统等等再结合实物性的产品,整体上推出了机房巡检一整套代替人工巡检的产品。目前来说推出了两个版本,一个是标准版,是满足绝大部分的场景和需求的。另外一个版本是更高的版本,这个版本是带机械臂的,通过六轴级别臂能做更多复杂的工作,这两个机器人的特点是真正符合智能机器人的场景,我现在做的客户里面绝大部分是金融客户,很多金融从业者知道金融对这方面的要求是非常高的,而且核心机房里是不允许WIFI和网络的,这样就带来一个问题,不允许有网络,整个机器人任务出去了是个黑匣子完全看不到,在长达几小时的任务过程中出现任何问题远程控制都是不知道的,出了问题该怎么管理,尤其是金融机房,出任何问题都是大事故。所以在这里边我们做了层层的从软件方面的策略的防护还有相互的互备,还有大量的人工智能算法在里面,相互互补形成一个立体多维化的网络体系,保障它的金融级别的要求。
下面一个视频是我们能看到的现在整个产品在机房里实际的工作经过,是在京东自有M6的机房,通过六轴机械臂,通过边缘计算走小规模的数量级,通过设备状态、指示灯、开关的状态、发热的情况等等进行整体分析,代替人巡检的整套流程。另外除了对设备本身进行管理之外还有人员,通过大量的视觉技术进行视觉跟随,对于人员在机房内的操作流程进行全流程管理、录像、行为分析,有特征性的行为可以做成模型单独分析。整套过程有巡检任务和结果,我们可以设定规则和触发事件的问题进行及时响应和处理。
除此之外我们在这方面也做出了很多其他方面的探索,不光在机器人巡检本身,刚才提到很重要的一个概念叫数字资产,在数字资产之上通过机房巡检机器人,结合刚才讲到的其他系统收集到的数据做下一步的探索,而且小有成果,哪些方面的探索呢?比如服务器的采购,为什么影响服务器的采购?很简单,不同类型的服务器,不同算力不同的CPU占用和内存占用情况下机器发热量是不一样的,通过所有的数据整合起来建模,未来进行采购的时候可以很好的指导我们可能采购哪个类型服务器更有效的节省能源,因为在IDC里很重要的一块成本是能源,另外是基于数字资产形成的模型可以固化成经验模型,在经验模型之上除了指导我们巡检,还有像未来得故障预测,如果这个服务器出现这样的情形之下再往下走,按照同类型的推理会发展成什么样的,起码我们对未来服务器的状态演变是可预测的。
整套机器人的解决方案是由软硬件两部分组成的,我们看到左侧部分是机器人的主体部分,右侧是由几套软件构成的,1、人机交互系统,在机器人上面有个小pad,机房中人员可以随时对机器人进行干预和执行任务和其他的配置。比如刚才提到带机械臂的机器人在行业里走的是最早的,推出第一板的时候很多客户提出质疑,带机械臂的在机房里有什么样的风险,我们进行了探索,通过端到端控制和利益反馈机制达到所有的安全,所有的规则都可以通过HMI进行整体的配置,机器人在两米范围内的时候,无论做什么动作可以暂停,这样在机房欢迎里最大程度禁止人的干涉。2、管理平台,通过管理平台进行调度协作、巡检的任务、任务规划、巡检结果、数据分析一整套的体系。3、可以部署到本地或者云端化的服务器,服务端程序这个没有什么特别的,因为时间关系不详细介绍了。
目前整个机器人的核心系统涵盖四大块:1、资产管理,从资产录入、统计、盘点,每次机器人巡检都会对所有机柜、所有设备进行盘点,机柜设备的位置全部可以盘点出来,搭载摄像头对机柜中的服务器进行区隔分割,再通过每个服务器的表面特征归到哪个类型服务器里去全部可以识别出来。2、设备检测。刚才提到从状态指示灯、开关、表盘类的东西,比如配电室表盘、开关闸的状态全部可以通过图象识别出来转化成数据,同时对一些故障码还有比较特殊的像风扇,对服务器风扇做了声纹模型对故障风扇有效的识别。3、人员管控,从人员进机房到机房全流程进行管理,在这个区域通过电子围栏信息围栏是不是在这个区域,因为很多机房包括京东自建的机房都会涉及到多个用户公用一个机房的情况,比如我们跟友商共用一个机房,跟阿里、腾讯之类的,京东的运维人员这段时间内去到阿里、腾讯机房服务器范围内就会有一定的问题,都会进行统一的管理。4、作为动环监控的有效补充,动环监控是通过静态传感器设置的,很难做到动态检测或者没有覆盖到的位置的检测,通过机房巡检机器人对所有周边环境进行常规的温湿度、电磁甚至漏水情况进行有效的检测。
通过机房巡检机器人不但可以满足常规人工巡检的能力,同时也能实现一些人达不到的东西,比如每台机器发热量的情况。
另外一块是一些巡检的举例,目前主要设备涵盖几大类:服务器类、网络相关的、存储相关的东西,目前从指示灯、故障码、资产编码、进场识别形成一整套巡检的解决方案。
作为配套设施的包括配电室,避暑常规表盘的读取,开关闸的状态等等,还有指示灯的状态都进行有效识别。目前涵盖了从冷冻机房到柴发机房、气瓶间、UPS、电池间等等都涵盖到了。
刚才提到一些常规的环境检测,从粉尘到温湿度还有噪声、风速检测。我们识别出的一些故障信息,做了一下举例,从指示灯状态到故障码检测,所有过程全部是通过机器视觉完成,机器人最大的特点是完全可以离线处理,已经把市面上主要常见的设备和相关故障压缩成特定级之后,压缩之后有30G左右的模型量,大面上已经覆盖的相当全了。
另外一块是资产管理,刚才有提到过,机器人在巡检过程中本身就是一个机器人盘点的过程,对相关设备、相关资产进行一次动态的盘点。
人员管理,从常规的生物识别,是不是授权的人员进的机房里面到在机房里的行为进行全流程监控,我们称为工作人员全工作周期管理。
HMI系统,就是刚才提到在机器人本端上的控制端,通过这套系统可以进行常规的登陆管理、系统操作、系统设置、任务管理、地图规划、系统的状态。因为在整个机器人解决方案里,我们凭借其他的常规的比如仓储物流领域里用到的磁导或者二维码的导航,我们更多采用激光雷达的导航方式,这个基于成本不需要做到无人车的成本,所以用的是单向雷达,机器人团队在机器人领域或者相关的沉淀在机房巡检这一块已经获得了非常大的阶段性尝试,机房巡检今年6、7月份做了CI认证,下半年过了欧盟的认证,它的安全级别已经安全可以达到商用的级别。如图是管理界面,通过管理界面到人员认证、巡检任务的管理到巡检结果的分析都可以在这一端完成,同时刚才提到后端管理软件也可以完成。
通过机器人这样一个载体我们实现了在原来常规的人工巡检过程中的工作,同时也避免了人为可能犯的错误,也通过传感器、算法层面,通过大量的人工智能技术对未来无人化巡检做出更多的探索,这是我们看到的管理后台的界面,基于整个机房区域、IDC数据中心进行多元化的管理。
目前我们支持的设备的主要品牌,涵盖了如图这些品牌,相关设备都已经做到我们模型级里了,意味着现在的机器人可以做到开箱即用,不需要提前在机房里布置额外的,影响原有的设施或者重新改变原有的布局,通过激光雷达快速建图,通过原来大量设备做成的模型在边缘端实时计算、实时管理,不需要联网。
我们现在的应用案例和主要客户,刚才有讲到现在主要客户都是围绕金融领域,涵盖了金融、航空、医疗、电力、像中铁这种工程类的等等。现在在整个机房巡检领域可以说是跑在遥遥领先的位置,因为从京东数科开始做机房巡检机器人之前是没有真正这个市场的,现在这一块已经开始形成市场,大家越来越重视这一领域的应用,我们第一个客户是去年8月份央行,我们是去年5月份正式对市场开始发布机房巡检机器人,正式投放市场,这款机器人是研发了很多年的,我们内部一直在京东环境里做测试。去年8月份央行进行了采购,今年陆续从工行数据中心、央行清算中心、万国数据、银联到三湘银行,到大连银行还有像航空公司都在大量开始应用我们的产品。
我们现在的合作伙伴,限于篇幅只列了有代表性的一些,这些行业里面涵盖了从金融领域、运营商领域、交通领域还有医疗领域,这些合作伙伴里边既有我们的客户,也有围绕未来无人化巡检、无人化运维整体做解决方案的探索,比如我们跟银联,万国数据中心共同围绕未来无人化运维领域做出更多的尝试和整体方面的规划。因为我们知道现在很多企业和行业都面临一个问题就是人力成本的问题,同时很多企业也关注到,更大的问题是未来劳动力结构的变化对企业的影响,相信从现在的运维的手段和方式,进化到那一阶段需要一个过程,这个过程需要我们提前布局提前尝试,京东在这一块不能说是先知先觉,但是起码是走在比较靠前的位置,起码在几年前就开始做这方面的探索准备和储备。
刚才讲到的是机房巡检机器人,这里放的是整个部门的整体介绍,我这块是京东数科下独立做机器人的体系或者业务线叫做智动纪元,目前涉及到的产品涵盖从机房巡检到市内运送到尖端的仿生手,从脑机械口的相关领域到专有的公路、铁路、轨道交通领域都涵盖了,目前整个团队,整个机器人最大的特点就是刚才提到的智能俩字,始终围绕智能展开的,因为AI加机器人是最完美的一对CP,我们认为未来更长的路径里面在智能机器人领域和更多场景有更多的结合点,也是在这样的大背景之下,整个各个品牌独立运作围绕各个场景做。举个例子,19年1月份到现在整个部门申请的专利数已经200多项了,其中2/3以上是发明专利。仅仅是今年一年的,前几年的还不太方便透露。所以我们看到整个机器人行业跟场景结合时会爆发出非常大的能量,我相信在未来整个智能化巡检机器人在机房巡检领域结合起来,更多开拓大家的解决方案也会更好辅助大家相关方面的探索,相信未来我们也会有更多的结合点。