时间:2023-12-26 10:41:08
引言:易发表网凭借丰富的文秘实践,为您精心挑选了九篇计算机视觉前沿技术范例。如需获取更多原创内容,可随时联系我们的客服老师。
最近几年,自动驾驶成为当下最为热门的科技领域之一,许多企业纷纷将目光转向该领域,诸如谷歌、百度、英特尔、Uber、丰田、本田、福特等科技和车企巨头都在该领域有相关研究。在国内,除了高举无人车大旗的百度,许多创业公司也在研究自动驾驶技术,图森互联即其中之一。
9月19日,国内计算机视觉与人工智能创业企业图森互联宣布,他们研发的计算机视觉与深度学习算法在全球最权威、最具影响力的自动驾驶算法公开排行榜KITTI和Cityscapes评测数据集上均获得世界第一。仅KITTI数据集中,图森互联获得目标检测三个单项、目标追踪两个单项、道路分割四个单项,共计九个单项的全部世界第一。
那么,在当前,自动驾驶技术究竟有哪些等级?市面上的自动驾驶技术都有哪些阵营?产品落地情况又如何?基于这些问题,《汽车观察》记者对有着十年并行和分布式运算研究经历、曾是淡马锡国家实验室研究员、现为图森互联联合创始人的南洋理工大学博士郝佳男进行了独家采访。以下为部分采访实录:
《汽车观察》:图森做自动驾驶技术项目的初衷是什么,单纯就是看到了这块的市场需求与前景吗?
郝佳男:首先,图森是做图像识别SaaS起家,在技术上有一定的积累,自动驾驶所用到的计算机视觉感知技术和图像识别SaaS在很多方面是同源的;另外,对于自动驾驶,特别是主要基于视觉传感器的自动驾驶,有很高的技术壁垒,图森能够很好地发挥自己的长处;第三,运营车辆对自动驾驶和无人驾驶存在较大的需求,因为自动驾驶和无人驾驶可以极大地减少这些运营车辆企业的人力成本和潜在的安全风险,而且无人车可以持续运营,这对企业来说是生产效率的飞跃。
《汽车观察》:目前,在国际上自动驾驶技术分为几个等级?图森的自动驾驶技术又是几级的技术?在国内外算是一个什么水平?
郝佳男:目前自动驾驶有L1-L5五个等级,L5是人们最期待的完全无人驾驶水平,众人熟知的谷歌无人驾驶在目前只能算是L4级水平。图森的主要目标是通过低成本传感器实现可靠的L3级别无人驾驶。
目前行业内的标杆是以色列的Mobileye。但目前Mobileye量产的芯片依然使用传统非深度学习算法,因此在一些特定场景中(如车侧面、非常见车型等)会出现错误。最近Tesla发生的车毁人亡事故就一个例子。图森的技术方案基于深度学习构建,能够实现更可靠的性能。
《汽车观察》:目前的自动驾驶技术有哪几类?它们的本质区别在哪里?分别有哪些优势?
郝佳男:目前,市面上共有两种解决方案:一种是计算机视觉为主、毫米波雷达为辅的低价解决方案;另一种是激光雷达为主、以摄像头为辅的高价解决方案。
以谷歌和百度为代表的是以激光雷达为主、摄像头为辅的高价解决方案,成本在50万以上。比如Google的无人驾驶车辆,在这个技术路线中,车辆完全由人工智能来驾驶,可以将车辆的方向盘、油门和刹车去掉,同时,为了增加技术的可靠性,Google无人驾驶汽车以激光雷达为核心,一个64线的激光雷达成本在7万美元左右,整体解决方案较贵。另外,激光雷达的硬件可靠性一般,也很难达到车规需求。但是这两家上市企业出于市值管理的考虑,在这方面不计成本。对他们来说,新技术所能达到的程度带来的新闻和公关效力,会大幅地抬高股价。但这种成本过高的技术,在商业化应用时会比较困难。
而选择低价解决方案更容易被车厂、受众所接受。以特斯拉、奔驰、沃尔沃等车厂为代表的渐进型自动驾驶,即先从辅助驾驶开始做起,在特定场景、或是特定的封闭结构化路段适用,做出紧急刹车、自适应巡航、车道保持、自动泊车等动作,后续涉入高度自动驾驶,即除了结构化路段外,还能在非结构化道路上自动驾驶。
图森就属于低价解决方案,即选择低成本的硬件(毫米波雷达、视觉传感器、高性能SoC),配合计算机视觉算法来降低总成本。传感器承担的精度要求降下来,那么对算法的要求就比较高了。
《汽车观察》:目前的自动驾驶技术是如何实现自动驾驶的?能实现到怎样程度的自动驾驶?
郝佳男:自动驾驶系统使用了多种传感器来感知,其中可视为广义“视觉”的有超声波雷达、毫米波雷达、激光雷达(LiDAR)和摄像头等。毫米波雷达和激光雷达承担了主要的中长距测距和环境感知,而摄像头主要用于交通信号灯、车辆、行人等物体的识别。
摄像头拍到的视频其实也是由一帧帧图像形成。拍下来是一回事,通过计算得出图像里的行人、车辆、信号灯等结构化数据则是另一回事。在过去,这被视为不可想象的任务。但深度学习的发展让基于视觉的感知技术获得了大幅度提升,基于视觉的环境感知变得可行了。
《汽车观察》:目前,市面上的自动驾驶技术在产品化的情况如何?有没有落地的产品正在运营?
郝佳男:对于整个自动驾驶行业来说,产品化需要漫长的时间,可能需要2-3年的时间。图森主要还是为主机厂和Tier1(一级零部件供应商)提供以摄像头为主、配合毫米波雷达和视觉芯片的、低成本的自动驾驶解决方案。
《汽车观察》:自长安的无人驾驶路试后,国家开始出台相关禁止自动驾驶路试的政策,这样一来,整个研发自动驾驶技术的企业又该如何测试自己的技术?如何看待国家有关自动驾驶这方面的政策?
团队背景
海归博士立志用无人驾驶保障交通安全
MINIEYE致力于打造世界领先的车载视觉感知技术和产品,提供前装和后装的ADAS解决方案及产品。其原理是通过摄像头检测、识别、追踪路面物体,即时收集数据并加以分析,协助驾驶员预先察觉到包括追尾、偏离车道、碰撞行人、超速在内的潜在路面危险,防患于未然。
MINIEYE创始人及CEO刘国清表示,相关数据显示,中国每年有将近6万人死于交通事故,而近年来的研究表明,89.1%的事故都是源自于驾驶员的误判和操作不当。MINIEYE运用计算机视觉技术和先进的算法,可以极大地避免这些事故的发生。产品上的摄像头就如MINIEYE的名字一样,是一颗安装在车上的“小眼睛”,随时扫描着路面情况,保障驾驶安全。
从2013年成立至今,MINIEYE团队已经拥有包括海归博士和优秀工程师在内的50多名研发人员。团队成员中有的毕业于美国佐治亚理工学院、加州大学、法国科学院、清华大学、中科大等国内外知名高校,也有的曾就职于德尔福、意法半导体、Intel、BAT等行业巨头。目前其总部位于深圳南山,另在南京设有一个研发中心和一个数据中心。
但你也许没想到,MINIEYE脱胎于南洋理工大学的实验室里。2012年,当时正在新加坡南洋理工大学攻读博士学位的刘国清,主持了新加坡政府媒体发展局和南洋理工大学联合发起的高级驾驶辅助项目。他在这个项目中看到了高级辅助驾驶和无人驾驶的前景所在,并在次年博士毕业后拒绝知名科研所的工作,拉着几个在新加坡的小伙伴,回国创业。“当时回国,一个是因为国内的创业氛围比较好;另一个是因为无人驾驶在国内的市场非常大,不仅能够提升驾驶安全,还能够缓解城市拥堵等问题。”
技术优势
应用深度学习、本地化车辆检测超过Mobileye
用计算机视觉技术来检测识别物体已然不新鲜,但深度学习的到来让计算机视觉技术迅速发展,检测识别率大大提高。而MINIEYE使用的正是基于深度学习的视觉感知技术。刘国清解释说:“传统的算法是告诉你车的特征,而深度学习是通过大量的图片来训练系统自己提取特征,学习特征。这种方法提取的特征更加准确,这是传统算法无法实现的。”
利用这项技术,MINIEYE目前对车辆和车道线的检测率均达到99.9%。
除了做到专业、领先之外,刘国清还力图体现MINIEYE的差异性,从而在竞争中脱颖而出。刘国清回国之前,仔细研究了国内的市场,发现还是一片空白。但在国际市场上,以色列公司Mobileye已经独占鳌头,这家公司因为和特斯拉合作而被大众广为知晓,目前占有全球ADAS市场约70%的份额。彼时Mobileye还尚未进军中国市场,但刘国清已经未雨绸缪,该如何面对这样一个强大的对手呢?
“第一个是算法能力要和它相当;第二,我们要走本土化路线,研发符合中国人驾驶习惯和中国工况的产品。”在国内道路上,经常能见到一些渣土车、拖车等异型车,这些车辆奇形怪状,对识别造成了不小的困难,基于国外路况设计的产品在碰到这些车辆时立马“失明”,无法运作。原因是数据库里面没有录入过这些“车”,所以无从提取特征去识别。
刘国清是国内第一批坚持走ADAS本土化路线的人,因此从2014年开始,就已经着手采集国内车辆及车道数据。到目前为止,MINIEYE共有45辆数据采集车,在北京、深圳、南京等全国几大城市采集数据。每天积累的里程超过一万多公里,数据量约1.5TB。刘国清说:“近年来深度学习的出现,大大加速了人工智能行业的发展。但深度学习的前提是需要有充足的数据量,所以我们很早就开始积累数据,要尽可能多地覆盖各种车型、天气、光照、路况。现在我们在本地化的方向进行得很顺利,在对国内异型车的检测方面,已经优于Mobileye了。”
业务布局
前后装市场双管齐下,从预警进军控制阶段
在市场布局上,MINIEYE的业务双管齐下,兼顾前装及后装市场。前装指的是整车出厂时就会装备电子产品,因此MNIEYE的客户群体是各大整车厂商。在2015年公司就和美国通用签署了合作开发协议,目前已经通过了第一轮定性测试,正在进行定量测试。而在后装市场上,MINIEYE已经和某公交集团达成订单。据了解,MINIEYE在之前合作的对象基本是整车厂、Tier1或者公交集团等B端用户,而在年底,MINIEYE将正式推出第一代后装产品,除了满足行业客户的需求之外,还希望覆盖个人C端用户。
刘国清针对个人用户做了市场调研,发现很多车主对驾驶安全非常重视,对ADAS产品很感兴趣,但对这种先进技术不太了解。“我们即将的后装产品,一方面是希望个人车主使用后给我们一些反馈,让我们知道用户的真实需求是什么,哪个功能好用,哪个功能需要继续迭代;另一方面,我们也希望对市场起到一个普及作用,让大家越来越了解这项技术。毕竟ADAS是无人驾驶的基石,有利于让用户循序渐进地去拥抱前沿技术。”
目前,C-NCAP已经拟将ADAS中的AEB(自动紧急制动)功能纳入2018年的评价规程,这代表着国家政策法规正在推动ADAS等主动安全功能的普及,无论前装或后装市场,都有着巨大的前景。在此利好下,刘国清透露,明年MINIEYE的计划,一方面是要继续迭代算法,和整车厂商进行实车验证;另一方面是进一步开拓后装市场,增加营收,利用后装市场产生的销售额来覆盖前装市场的研发投入,达到平衡。
“智能硬件”这个概念比较含糊,它其实涵盖了多种商业方向,把凡是跟智能有关的都囊括进去不合适。
比如在京东、淘宝上众筹的智能硬件,属于消费电子类产品。去年看似挺火,但也没出什么真正引爆市场的产品。做消费电子类智能硬件,竞争对手众多,而且技术不是最重要的,品牌、渠道最才是关键。你的产品能否到达目标用户群,你的产品能否满足用户对“智能化”较高的期望值,都是现实存在的问题。
到目前为止,北极光创投没有真正投过消费类的智能硬件项目。我们更关注第二类应用在金融、医疗、安防等行业的“智能系统”(可能是硬件,也可能是软件),跟巨头行业结合的,有更大的发展机会。
需要提醒的是,做智能系统的思路不是设想某种智能化功能,再推广到行业,而是在有场景、有合作对象的前提下,为垂直行业提供智能化技术,这样才知道应用的意义和重点。比如IB M的人工智能系统,直指医疗活动的核心环节,通过对比疾病的治疗历史、遗传数据、诊疗影像等,给每位患者个性化的诊断建议。另外,随着人工智能视觉算法的进步,在美国有人开发医学影像的智能识别系统,也是跟医院一起做。
从今年的发展趋势来看,会有更多原来做机器学习、计算机视觉的人投身各个细分行业开发智能系统。我们在这个领域布局比较早,比如汽车智能化就是其中一个看好的方向。但同时,这是个进展非常缓慢的市场,不是一两年就能出成果。我们有耐性去等待,因为通过前沿技术重构行业价值链,更值得期待。
讲述人:戈壁投资合伙人徐晨
市场上的很多智能硬件,其实就是在传统消费电子之上增加了数据收集和数据反馈的功能而已。但消费者购买的时候只是把它作为辅助功能去考虑,光靠打智能化和数据的概念并不能真正吸引用用户。何况消费电子是以渠道为驱动的,而销售渠道很难差异化。换言之,同类产品之间很难产生实际性的差异并获得用户的持续关注度。按消费电子的发展路径,很快就会进入低毛利的阶段,加上小米、乐视在打造智能硬件的生态系统,论坛品牌实力,任何小创业公司都难以比拼得过。我预计,消费电子类智能硬件接下来会面临洗牌。
(1.清华大学电子工程系,北京100084;2.英特尔(中国)有限公司,北京100()13)
摘要:媒体与认知实验课程是清华大学电子工程系在课程改革中提出的一门全新的核心必修课程。文章首先阐述该课程的特点,然后介绍基于英特尔RealSense设备及微软Kinect设备开发的一套探索前沿型实验教学平台,分别说明基于手势识别的博弈游戏实验项目和基于姿势识别的组合拍照实验项目,指出通过这些前沿的基于交叉学科的智能感知技术和内容,学生可以掌握成为本领域高层次专业人才必需的各项基本技能和专业知识。
关键词 :RealSense;媒体认知;智能感知;机器学习;人机交互
文章编号:1672-5913(2015)15-0108-03 中图分类号:G642
基金项目:英特尔一清华媒体与认知实验教学项目( 202023011)。
第一作者简介:杨毅,女,高级工程师,研究方向为数字信号处理,yangyy@mail.tsinghua.edu.cn。
1 背景
媒体与认知实验课程借鉴包括美国MIT大学、CMU大学、Stanford大学、英国伦敦大学学院等在内的国外著名大学跨媒体信息处理、入机交互与感知技术、虚拟现实及信号处理领域实验教学课程的特点,并结合清华大学电子工程系在该领域研究的基础、优势和创新性成果,有针对性地将已有科研成果转化为教学实验课中的教学内容,通过建设一套完整、全面的涵盖人机感知交互、媒体信息处理、虚拟现实及信号处理领域的探索前沿型实验教学平台,培养学生的智能感知技术开发能力;同时,采用集体创新培养和个人研究探索相结合的方式,最终达到理工与人文、技术与艺术、感知与思考的高度融合,成为具有国际一流水平的、兼具科研创新能力和探索精神的领军型人才。
实验教学课程内容及平台涉及的主要研究内容包括媒体数据获取与人机交互、生物特征识别、语音识别及情感理解、虚拟交互行为分析等。该实验课程力图建设成为达到国际水平的智能感知技术实验教学课程及项目平台。通过该实验课程的建立,学生能够了解国际科学界及工业界最前沿的媒体认知及智能感知技术热点和难点问题,利用平台的基础设施和设备构建并实施多种解决方案。跨行业、跨领域、跨学科的媒体认知及智能感知类前沿综合实验课程,通过借助智能感知及人机交互知识作为工具和手段解决媒体信息处理、虚拟现实及人机交互的问题,充分挖掘和激发理工科背景知识较佳的电子工程系学生在交叉学科和前沿技术方面的实力和潜力。
2 媒体与认知实验课程特点
媒体与认知实验设计开发了一套以实时智能感知技术为基础的探索前沿型实验教学平台,该平台在设备和设计内容方面均与国际水平接轨,具有教学互促、知识延伸、技能拓展的特点。项目平台涵盖跨媒体信息处理、人机交互与感知技术、虚拟现实等领域的设备和技术,力图成为与国际接轨的探索前沿型实时智能感知实验教学平台。
该课程涉及的技术和研究方向均为国内外智能感知技术领域各大高校和科研院所的研究热点及难点,将这些研究内容引入实验教学,可以引导本科学生开阔科研视野、坚定科研信念和明确科研方向。通过构建与国际最新研发技术水平相当的实验平台,学生能够了解国际领先的媒体认知及信号处理知识和技能,利用该平台的基础设备构建并实施多种解决方案;教学最终达到培养掌握国际领先技术、具有突出创新实践能力和持续探索精神的高素质人才的目的。
该平台内容主要面向各年级本科生及硕士研究生,与基础核心课、专业限选课等课程配套,逐步形成层次清晰、逐级扩展的具有创新探索前沿性质的智能感知技术教学实验课程体系。
3 基于手势识别的媒体认知实验项目
人机交互的双向信息流动是以媒体感知和处理为核心的。人将用户感觉和效应通道传递的交互意图在计算机内表示为文本、语音、图形、图像等多媒体信息。人到机( human to computer)信息流动是多媒体信息的获取及识别过程,计算机处理的信息需要以文本、语音、图形、图像等用户理解概念所需的多媒体信息形式展现出来;机到人( computer to human)的信息流动是多媒体信息的合成和呈现过程,机器利用感知及推理对来自用户感觉和效应通道的跨媒体信息进行识别、集成和协调,获取用户动作和行为习惯、偏好及其他相关信息,以人类易理解的多媒体信息方式为用户提供输出信息,从而提供不受时空限制而效能最大化的个性化计算服务。
美国Stanford大学电子工程系提出一种基于Kinect的手势识别方法,通过Kinect获取RGB图像信息和深度数据,采用SURF变换算法实现高准确度的手势识别。西班牙马德里卡洛斯大学机器人实验室( Robotics Lab,Univ. Carlos IIIof Madrid Leganes,Spain)针对传统的手势识别系统受光照条件影响导致计算量大、训练过程长等问题,根据RGB-D摄像头获取的深度数据建立人手的骨骼模型,从三维骨骼模型中提取手势的时域信号,采用有限状态机对手势不同状态下的方向进行编码,采用基于模板的分类器识别出手势。瑞士苏黎世联邦理工大学计算机视觉实验室( Computer Vision Lab,ETH Zurich,Zurich,Switzerland)提出一种基于Haarlet的手势识别系统,根据微软Kinect设备获取的深度信息检测手势的三维指向,将手势转换为交互命令,提高了人与机器人交互的自然性。
石头、剪子、布、蜥蜴、史波克( Rock-Paper-scissors-Lizard-Spock)是一种由石头、剪子、布延伸出来的博弈论猜拳游戏,在石头、剪子、布基础上增加了两种手势,减少了原来石头、剪子、布游戏和局的几率。该游戏的手势及输赢说明如图1所示(图来自百度图片搜索)。
英特尔的RealSense设备是一种能通过采集视觉、深度,音频等多种媒体信息获得手势、语音等表征意图的智能感知设备,可以广泛应用于自然互动、沉浸式协作与创作等创新应用,能够帮助开发人员在游戏、娱乐和内容创建交互方面实现新的突破。该实验项目通过利用全新的英特尔三维智能感知设备RealSense,可以实现上述手势识别的智能感知功能。该实验设置多种难度,将简单难度设置为电脑随机出拳;针对高等难度则需要学习用户的出拳模式并构建一个马尔科夫模型,电脑针对用户的出拳模式进行相应出拳。基于RealSense识别的5种手势如图2所示,可以看出ReaISense设备对不同手势的区分度较高。
4 基于姿势识别的媒体认知实验项目
人体的三维模型包含足够的信息以描述人体的运动特征,对于体感交互设计而言,姿态识别、动作识别、手势识别非常重要。微软推出的Kinect设备与计算机软件开发包一起使用,为企业和开发者提供创建交互式应用程序的基础,允许开发者借助微软或语言开发相关应用,提供骨豁跟踪、人脸跟踪、语音识别技术等底层功能。基于Kinect设备开发的平台和应用获得了不错的效果。艺术家通过人体组合姿势构成英文里的各种字母形象,如图3所示。
该实验项目通过利用Kinect实现人体字母造型识别,在造型匹配某个特定字母或组合时触发拍照,解决在实际拍照过程中为了摆出某一特定造型需要多次重复大量拍摄的问题。基本思路是利用Kinect的人体识别功能,在摄像头获得的图像中提取出人置信息,然后将人置信息在本地程序中与预设的目标造型进行匹配,只有当匹配程度到达一定值的时候,程序才触发拍摄事件并将图像保存。系统由5个模块组成:初始化、人体识别、计算匹配度、图形显示和拍照触发。其中,初始化模块属于主窗口类,内部由时间进行关联,其他模块各为一类,分别通过调用函数和嵌入窗体的方式使用,其算法框架如图4所示。系统运行过程中,计算出的匹配数值会直接显示在屏幕上,同时弹出提示字幕,向用户反馈其姿势准确程度。
关键词:MCLA;计算机教学;教学研究;教学改革
中图分类号:G642 文献标识码:B
1引言
高校计算机教育的过程中,难点知识的教和学是困扰着教师和学生的重要问题,对于难点知识教学方法的研究,引起了广大高校计算机教师的重视,其研究成果已经在高校计算机教育中起到了越来越重要的作用。难点知识一般分布在学生的专业基础课和专业选修课中,这些知识点往往理论性较强,需要较好的数学基础才能一次性掌握,这些知识点往往是某一门课程或某个研究方向的核心或者基础,如果不能很好地掌握,又影响到后续知识的学习和研究的开展。类似的知识点如:“数据结构”中的“最短路径”和“KMP算法”、“计算机视觉”中的“各向异性扩散的偏微分方程(PDEs)”、“编译原理”中的“有限自动机”、“面向对象程序设计”中的“多态性”、“计算机网络”中的“七层协议的实现”等。
提升难点知识的教学效果显得非常重要,但是传统的教学方法中,由于各种因素的影响,往往采用从理论到实践的教学过程。首先讲解知识的数学背景,然后阐述其理论框架,接下来讲解该框架中的相关公理或者定理,推出一系列公式,最后加以应用。在这种背景下,由于学生知识储备的差异性,以及学生听课状态的波动性,这种教学方法往往造成部分学生在学习的过程中,无法理解他们看起来很高深理论,从而失去学习兴趣,放弃后续学习,靠做题应付考试,最终即使得到高分,对知识点知其然不知
其所以然,更不要说进行创新。实践证明,该方法确实导致部分学生无法清楚地掌握知识的实质,造成了教学过程中的无用功和教学资源的浪费。
为了克服以上方法的不足之处,我们借鉴了国外著名教育机构的教学方法,将其引入到我们的教学过程中去。MCLA(Model Centered Learning Architecture)教学法来源于印度国家信息技术学院(印度NIIT),该教学方法的基础是:以“模型”为中心,通过完成“模型”来讲解理论,在该学院的教学中起到了巨大的作用。本文针对计算机难点知识教学过程中遇到的问题,结合相关经验,将MCLA教学方法应用到教学过程中去,以“图像处理中的各向异性扩散的偏微分方程”的讲解为案例,阐述MCLA方法在教学过程中的应用。实践证明,该教学方法能够加强学生对知识的理解,取得了较好的教学效果。文章最后还对该方法适用的
范围进行了讨论。
2传统教学方法的问题
难点知识在高校计算机教育中,不仅对于学生是学习难点,而且对于教师也是讲授难点。它难就难在理论性强,数学基础要求较高,教师即使能够熟练精通地掌握,由于学生数学知识储备的差异,学生就不一定能掌握;即使学生数学知识储备足够,由于听课状态波动,如果兴趣不高也会无法听懂,造成知识的遗落;教师将自己会的知识教给学生,学生却没学会,不能不说是教学资源的巨大浪费。
2.1教学案例描述
本文以“计算机视觉”中的“各向异性扩散的偏微分方程”为例,来阐述这个问题。
“计算机视觉”是高校计算机专业的一门专业选修课,对于即将攻读研究生并从事模式识别和图像处理的学生,是一门基础性课程。“各向异性扩散的偏微分方程”属于计算机视觉中的前沿技术,一般在书本的后半部分讲授。在此之前,学生已经学习了图像处理的基本知识,如基本的图像存储、变换、滤波以及常见的图像特征提取方法。
在计算即视觉中,“各向异性扩散的偏微分方程”最简单的情况是用于图像的平滑。在平滑图像的过程中,能够较好地保持边缘。该框架下,图像的平滑被假定类似于化学物质的扩散过程,图像的灰度(化学物质)将随着时间的变化而变化(扩散)。在某一个时间点,变化后的图像(扩散的结果)就是试图得到的平滑后的图像。描述如下:
设 表示一幅二维灰度图像, 为像素点 处的灰度值。 表示图像随着时间 变化的状态,具有边界停止功能的方程中,图像随着时间变化的状态或者图像的平滑过程被如下的扩散方程描述:式中, 为散度算子, ,是 的空间梯度。在这里, 必须是个减函数,当 较大,扩散必须很小,图像的边缘得到保持; 较小,扩散应该很大,图像将会得到平滑。对于 的设计对系统的正确工作起着决定性的作用,一般可令:
从以上数学模型可以看出, ,为非增函数,当点 位于图像灰度变化不大的区域,即 的值相对较小的时候, 的值相对较强;反之,在图像的边缘点上, 的值相对较大,则扩散速度相对较小。 为梯度门限,是一个正数。 的值小于 时,扩散过程进行,当 接近 时,扩散过程停止。
实际处理过程中,输入的图像为二维图像,必须能够对图像的处理过程进行离散化。一般采用如下形式:
其中, 是离散采样图像上的像素点 在 时刻的灰度值, 是时间离散步长,常量 ,决定了扩散的速度。 的下标 表示 的计算与像素 和 相关。 表示像素 的空间邻域, 表示邻域像素点的个数(如在8邻域情况下,取 =8),将图像梯度沿着特定的方向近似为:
最后的实验中,我们可以采用一些需要平滑的图像,分别用传统的低通滤波的方法和PDEs方法进行平滑,来检测其平滑效果。
2.2传统讲授方法及其效果
传统方法在讲授的过程中,一般采用如下步骤:
(1) 首先讲解“各向异性扩散的偏微分方程”的作用:在平滑图像的过程中,能够较好地保持边缘,但也能对其它部分作平滑。
(2) 讲解“各向异性扩散的偏微分方程”的数学模型,特别强调扩散方程以及其中参数、算子的选择。
(3) 对该模型进行离散化。
(4) 最后举例说明“各向异性扩散的偏微分方程”在实际中的应用,并一定的实例让学生阅读,最后布置习题。
该方法在步骤(1)中,确实提到了“各向异性扩散的偏微分方程”的作用,激起学生的兴趣。但是可惜的是,这个兴趣只是在学生脑海里面逗留了片刻,就被后面大量的数学公式淹没了。除了少数比较认真的学生能够保持兴趣,将这些数学公式紧扣其作用,其它学生一旦遇到听不懂的内容,便放弃学习了。结果只能是教师一直在讲课,却只有部分学生能够理解教师的讲解。当然,最后的实例,大部分学生都会阅读,也能读懂,对于练习,也能模仿习题进行编程实现,最后应付考试。但对于该习题和前面讲解的数学公式之间有什么关系,学生是很难理解的。我们知道,理论的创新都是来源于知识点的抽象表达,如果那些原理没有理解清楚,即使学生升入研究生进行科学研究,也无法进行创新。
针对这种方法,我们在南京某大学设计了一个实验,随机抽取50名计算机应用技术专业的本科学生,选修了“计算机视觉”的课程,并且已经学习了“各向异性扩散的偏微分方程”的前续知识,我们用此方法进行讲解,得到的问卷如表1所示。
从上表可以看出,96%的学生对该知识点的作用还是了解的,也就是说从课程开始学生还是有兴趣的,但是自从对数学公式无法理解之后,直接影响了后面知识的理解,更不要说创新了。
3MCLA教学法的实践
MCLA(Model Centered Learning Architecture)是基于模型的学习方法,该方法在教师引导下的独立解决实际问题。其步骤如下:
(1) 教师根据知识点内容,结合实际应用情况,对学生进行知识点的概况介绍,提出一个典型案例,激起学生兴趣。
(2) 教师用所设计的案例,采用任务驱动的示范性教学。将知识点隐含到每一个任务中,使得学生更容易接受相关的知识内容。
(3) 当教师在用系统的方法完成各项任务,成功解决问题时,学生在一旁观察以通过观察思考形成一种行之有效的思维方式。
(4) 布置类似的案例,引导学生进行实践。
(5) 引导学生进行创新探索,并能针对所探索的结果进行演讲。
MCLA的独特之处在于,它不但要教会学生如何在实际问题中应用所学的知识和培养其专业技能,而且也要培养学生信息搜索和分析的能力、团队合作的能力以及对所学知识达到综合性理解和应用的能力。这有助于学生提高在技术探索和创新方面的技能,并使其成为一种习惯。
3.1教学过程
(1) 提出模型
在该过程中,教师首先不讲解“各向异性扩散的偏微分方程”的作用,而提出一个实际图像处理中遇到的一个问题:在出版、公安、医学、控制等应用系统中,往往需要使用计算机来实现字符的正确识别。字符识别的过程一般是针对字符图像输入,运用一系列的识别算法得到正确的结果。但是,由于各种因素的影响,输入图像的真实性可能会受到一些损害。比如,字符可能由于分辨率不足而失真,最典型的就是字符的断裂和缺口,如图1所示。
由此提出一个问题:怎样将缺口的部分连接起来?引起学生讨论,激发学生兴趣。
由于学生已经学习了前续知识,不少学生可能会提到可以将图像进行低通滤波,即:通过将图像变平滑、模糊,用以造成字符黑色边缘扩散,扩散之后看能否将缺口部分连起来。
于是,教师采用低通滤波方法,利用已有的程序,将该图像进行滤波,图2是截止频率为80时的高斯低通滤波器得到的结果。
学生可能对该方法的效果没有一个客观的认识,可以提醒学生:从上图可以看出,利用高斯低通滤波器可以较好地解决字符断裂和缺损的问题,断裂部分基本连接起来了,为后期的特征提取打下良好的基础,它实际上是一个图像平滑的过程。但是,从图2我们可以看出,输出的图像虽然在断裂处有了明显的改进,但其边缘却产生了过度的模糊,从而在某种程度上可能丢失一些特征信息。此外,一个更为严重的后果是,针对某些线条比较密的字符,对图像的平滑可能会造成线条的互相干涉,如 e字母,上半部分已经进行了过度的模糊,给后期的工作带来一些障碍。因此,寻找一种既可以对字符的断裂进行复原,又可以保证不会将字符图像边缘进行过度平滑的方法就非常重要。由此引出“各向异性扩散的偏微分方程”,并提出它的作用:在垂直于字符边缘的方向不进行平滑,在沿着字符边缘的方向进行平滑。
(2) 建立任务
任务:将图1的断裂字符,断裂部分尽量连接起来,但又不要过度模糊。
任务的核心:在将字符进行平滑的时候,在垂直于字符边缘的方向少进行平滑,在沿着字符边缘的方向进行平滑。
任务难点:
① 怎样知道一个像素点是否在字符边缘?
② 怎样确定垂直于字符的边缘的方向和沿着字符边缘的方向?
③ 怎样进行平滑?
这些问题都可以让学生在课堂上讨论。
(3) 讲解知识
针对第一个问题,怎样知道一个像素点是否在字符边缘?可以引导学生提出“图像灰度变化率”的概念。在边缘处,垂直于边缘的方向,图像灰度变化率是最大的,再次引导学生将其用数学模型表示:即梯度;而平行于边缘的方向,字体内部,图像的背景,灰度变化率最小。
于是,问题变成:在梯度较大的位置,图像不要进行平滑,梯度较小的位置,图像进行平滑。第二个问题得到解决。
通过和学生的互动讨论,由此引出如下公式(具体表达式的含义已在上节叙述,此处不再重复):
并可以强调, 应该是一个关于梯度的减函数,因为当 较大,扩散必须很小,图像的边缘得到保持; 较小,扩散应该很大,图像将会得到平滑。并可以说明,这就是偏微分方程里面最简单的“各向异性扩散的偏微分方程”,也就是本节课要讲解的内容。到此为止学生的兴趣就完全被调用起来了。更重要的是学会了将实践问题抽象为数学理论的方法。
接下来讲解 的选取,选取各种关于梯度 的减函数让学生评价,最后引出比较经典的选取方式:
说明理由,并对 的意义稍作说明。
这些内容讲解完毕,就可以进行离散化,解决第三个问题,在这里可以让学生进行讨论离散化过程,得出如上节的离散化公式。
最后教师可以用该方法做一个实验,图3即为实验效果,可让学生和图2的作比较。
(4) 学生实践
通过上一步的讲解,学生基本了解了“各向异性扩散的偏微分方程”进行图像处理的方法和性质,并通过案例建立了感性认识,该步骤中可以布置一个类似的案例让学生回去练习。并让学生设计不同的函数 进行测试,观察其效果。
(5) 创新搜索与演讲
在布置作业的过程中,可以另外让学生搜索一下当前偏微分方程在图像处理方面的其它的一些应用,最好能够
提出创新观点,将学生分为每5人1组,各选择不同的方面,如图像平滑、图像分割、图像去噪等等。在接下来的课程中,进行演讲,让学生加深认识,培养其创新能力。
3.2教学效果
针对这种方法,我们也设计了一个实验,另外随机抽取50名计算机应用技术专业的本科学生,选修了“计算机视觉”的课程,并且已经学习了“各向异性扩散的偏微分方程”的前续知识,我们用MCLA方法进行讲解,得到的问卷如表所示:
表2MCLA教学方法效果
说明 完全理解(%) 一般理解(%) 无法理解(%)
从上表可以看出,在MCLA方法应用于教学实践之后,学生对该知识点的掌握程度大大加强,并且具有的创新意念更加活跃。
4结束语
该文介绍了MCLA(Model Centered Learning Architecture)教学法在高校计算机难点知识教学中的应用,针对计算机难点知识教学过程中遇到的问题,结合相关经验,将MCLA教学方法应用到教学过程中去,以“各向异性扩散的偏微分方程(PDEs)的图像处理”的讲解为案例,阐述MCLA方法在教学过程中的应用。实践证明,该教学方法能够加强学生对知识的理解,取得了较好的教学效果。
该方法对教师提出了更高的要求。首先,教师应该对知识点特别熟悉,并能和相关应用案例联系起来;另外,并不是每一个知识点都能够寻找到相应的案例,不过可以指出的是,在计算机专业的课程中,大多数知识点都是有案例可循的。
参考文献:
[1] 覃华,苏一丹. 印度NIIT教学法及其在高校教学中应用的研究[J]. 广西大学学报, 2004(9):73-78.
[2] 俞仲文. 关于发展高等技术教育的若干思考[J]. 高等工程教育研究, 2005(2):18-22.
[3]Perona P,Malik J.Scale space and Edge Detection Using An isotropic Diffusion[J].IEEE Trans on PAMI, 1990;12(7); 1629-1639.
[4] 郭克华,刘传才,杨静宇. 有损字符图像复原的偏微分方程方法[J]. 计算机工程与应用, 2007, 43(8):24-27.
[5]Milan Sonka,Vaclav Hlavac,Roger Boyle. Image Processing,Analysis,and Machine Vision[M]. 2nd ed.Beijing:Posts&Telecom Press,2003:69-72.
The Design and Implement of the Basis of Applications of MCLA in Difficult Computer Knowledge Teaching
GUO Ke-hua ,LI Min
(School of Information Science & Engineering, Central South University, Changsha 410083, China)
【关键词】视频监控;现状;系统设计;发展趋势
一、前言
随着人们对安全需求的不断提升,使得视频监控系统成为维护社会稳定和人员安全的有效手段,随着该项技术的发展,视频监控系统经历了由简单到全面的发展过程。
二、视频监控系统的应用现状
根据视频监控系统构成所表现出的功能差异,将其具体划分为三个阶段。即模拟视频监控、半数字化视频监控以及全数字化视频监控。
截至到目前为止,视频监控系统已经将模拟视频监控淘汰,数字化的视频监控成为时代主流产品。虽然中小企业基于成本考量会选择半数字化视频监控系统,但受到社会发展要素以及需求层面的影响,未来的视频监控市场依旧属于数字化视频监控系统。数字化视频监控系统之所以流行,是因为其自身具备独特优势,符合现阶段的发展要求。数字化的视频监控系统实现视频信号传输的方式主要是基于网络,现阶段局域网络的完善,为其提供了良好的信号传输通道。并且其自身系统性的功能拓展,升级与维护也十分便捷。
同时,在上述优势分析完成之后,其基础优势还包括失真率低、精度较高、传输性能好、抗干扰能力强等。视频监控系统的应用,已经在安防领域取得显著成效,在远程教学、远程通信、可视电话等方面的运用也取得初步成效。严新金(2010)、王维(2012)在研究中分别基于铁路以及学校的数字化视频监控系统的应用进行探究,从数字化视频监控系统的基本原理出发,探索优化措施及应用方法,实现了视频监控系统在铁路与学校领域的运用。
三、视频监控系统设计
1、系统硬件结构
系统所使用的硬件平台为友善之臂的Tiny6410开发板。该开发板的核心芯片为三星的S3C6410处理器,该处理器具有低功率、高性价比、高性能的优点。内部集成有硬件编解码器,支持MPEG4、H.263以及H.264格式的编解码。开发板有3路USBHost的USB口,可以满足本设计所需。摄像头使用罗技的一款C270高清USB摄像头,采集的图片有YUV和MJPEG格式。4G无线网卡使用中兴的一款ME3760V2上网卡模块。系统硬件结构如图1所示。
图1系统结构图
2、系统软件设计
系统采用的操作系统为Linux系统。Linux操作系统具有体积小、系统开源、移植方便的优点,被广泛应用在移动设备上。本设计采用的Linux内核版本为Linux-2.6.38。为了调试方便,测试阶段采用宿主机挂载根文件的形式。宿主机为装有Fedo-ra14的PC机,通过网线、串口和开发板连接。通过裁剪移植完成了针对于开发板工作的最小u-boot、kernel和根文件系统。在裁剪内核时,需要添加对UVC格式的USB摄像头的驱动支持以及4G上网模块的驱动及通信协议支持。
四、网络视频应用性能的关键技术
1、网络视频压缩编码
这一技术是将互联网的应用空间、使用时间以及视觉等占用进行压缩,即对视频图像、移动物体时间、信息编码、图像纹理图案相同或相近特征进行相关性压缩,以便腾出更多的有用空间存储更大的信息。在信息学的理论角度来说,视频压缩分为无损压缩和有损压缩。一般无损压缩都会按照2:1到5:1的范围比例进行不失真的压缩,保持原图像的真实,例如:指纹图像和医学图像等。而有损压缩就会大比例地缩小,使原图与压缩后的图像不一致,只能通过解压缩的手段,恢复图像的本来面貌。比例通常规定为100:1至200:1的范围。
2、网络视频传输
视频技术与网络通信技术是通过高性能视频采集芯片的传输,使视频采集系统的性能变得稳定、可靠,使网络视频传输技术发展得更好。目前比较先进的传输解码器就是太网的嵌入式高清视频编解码器的设计研究,由视频采集模块、视频编码及传输模块等部分组成,调用高性能的主控芯片,运行高清视频编码器的应用程序,制作多线程间链表通信机制,实现视频数据重组,完成图像的解码程序,将浏览器收集到的数据采用嵌入式反馈到Web的页面上,远程控制设备的功能也得到了实现。
3、网络视频服务器
网络视频服务器就是将模拟信号转为IP信号,进行数字、图像视频处理技术,嵌入计算机系统,快速处理来自本地数字信息,图像清晰,达到视频监控系统远程、实时、集中管理的作用。网络视频监控系统将是网络视频服务器未来的发展趋势,智能化技术、高清化技术、集成化技术是视频监控系统的最前沿技术,不但扫清了以往不适宜的网络障碍,而且还拓展了新型技术体现它的未来发展前景。
五、视频监控系统的发展趋势
1、现有视频监控系统弊端
传统的视频监控系统,虽然在数字化技术的支撑下,实现了应用范围的广泛性,但针对普及广度与覆盖面因素,依旧无法满足多用户的需求,造成覆盖范围相对狭窄。在地域覆盖层面,通常仅限于当地的监控;而针对用户群体覆盖层面,则通常集中在政府、交通、银行、公安、电力以及石油等产业,大范围普及并未得以实现。究其根本,主要是受到视频监控系统的成本、实效性、维护等多方面因素的影响。在未来发展中,研究领域应该充分地发挥出理论优势,将研究的范围扩大,为全面普及食品监控奠定基础。
2、倾向于智能化视频监控系统
针对当前视频监控系统的发展趋势进行分析,视频监控系统已经逐渐倾向于智能化视频监控系统方向。计算机技术、信息处理技术、图像技术使得视频监控系统图像自动检测、视频信号分析成为可能,综合运用计算机视觉算法,为视频监控系统提供了良好的发展环境,适应了环境变化的基本要求。现代技术手段的支持,为视频监控系统的指令操作、数据信息以及工作效率的提升奠定基础,一步一步地迈向智能化发展道路。吴炬(2011)结合自动化检测以及诊断技术,分析这两项技术的具体运用,为未来视频监控系统的快速发展埋下伏笔。陆鹏飞(2011)、信师国(2010)将网络作为研究基础,依据网络自身的复杂性以及多样性的特点,在网络平台探索视频监控系统的发展,研究方向更加倾向于智能化的视频监控系统。
3、未来智能视频监控系统难点
徐占武(2013)对视频监控系统应用以及发展中依旧明确指出未来智能化视频监控系统的工作难点与重点。认为智能化视频监控技术的出现,源于对计算机视觉技术的研究,在该基础之上发展智能化视频监控系统,具体难点及要点需要基于以下几个方面进行分析:
(1)对视频监控系统的要求提升,不单单要求自动、连续的工作,还要求保持较高的工作效率。结合视频监控系统的具体实践,监控系统的应用环境十分复杂,应用环境所呈现出的多样性,为视觉技术带来了更高的要求。
(2)视频监控系统针对运动目标,受到目标多样性的影响。在进行运动解析、分类甄别工作方面难度较大。
(3)智能化目标的具体实现,要求不同视频监控系统能够实现连接,需要大范围摄像机之间的协同工作。但如何运用多台视频监控系统对运动目标进行综合解析,在执行与操作环节依旧存在一定的难度。
(4)视频监控数据的存储问题成为智能化实现的一大阻碍,在制定视频监控的过程中会产生大量的数据,视频信息本身占用大量空间的现象十分严重,智能化之后如果覆盖范围得到提升,势必造成海量数据存储出现问题。
六、结束语
综上所述,尽管当前视频监控系统还存在一些问题,带随着信息技术、计算机技术的发展,视频监控系统的智能化将成为发展趋势。
参考文献
所谓智能制造,是将物联网、大数据、云计算等新一代信息技术与先进自动化技术、传感技术、控制技术、数字制造技术结合,实现工厂和企业内部、企业之间和产品全生命周期的实时管理和优化的新型制造系统。
智能产品具有监测、控制、优化和自主等四个方面的功能。而智能生产是指以智能制造系统为核心,以智能工厂为载体,通过在工厂和企业内部、企业之间以及产品全生命周期形成以数据互联互通为特征的制造网络,实现生产过程的实时管理和优化。
此次世界智能制造大会抓住智能制造这一世界经济热点,洞察当下全球前沿技术的竞争点,融政产学研为一炉予以共同关注。世界制造业正在经历一场变革、一场进化,生产将变得更加聪明,效率也就更高。此次大宾朋满座,说明企业对智能制造充满渴望,产业发展充满动力。这场大会是科技思维的饕餮盛宴,必将碰撞出大机遇。
智能制造是中国制造业由大转强的核心战略选择,更是中国经济增长变速换挡走向新里程的标志。历经30多年的高速发展,中国在2015年已成为世界制造业第一大国,建成了世界上门类最为齐全的现代制造业体系,中国制造业一直是国家经济发展的重心,一度使中国成为世界工厂的代名词,创造过无数让国人引为荣耀的辉煌。然而,中国制造在发展质量、创新能力、品牌塑造方面,与发达国家相比仍有较大差距,大而不强的问题一直是急需破解的瓶颈,依托资源消耗和人力成本低廉的路径选择越来越艰难,低端的传统优势日趋衰弱,向着东南亚的新一轮国际产业转移凸显中国制造大而不强的尴尬。中国制造亟待在科技创新、智能制造的引领中强筋壮骨,在着力提升生产率的转型中浴火重生,以获得经济中高速增长。
如果说过去3年中国制造在转型中“热身”,试图打开一扇窗户向外瞧,那么这场大会就是一个全新的里程碑――以最先进的智能制造思想武装自己,开辟新的航程。
智能制造给世界带来新活力,给中国带来新发展。瓦特的蒸汽机,在轰鸣声中不但改变了他自己贫病交加的命运,也把整个人类带进了工业社会,解放了生产力,促进了社会进步。乔布斯的“苹果”,一机在手,包揽世界,亿万网民在刷屏中进入移动互联时代,也助燃了信息化火焰燃遍全球。中国也在欢呼声中见证“神九上天,蛟龙入海”的神奇,惊叹中国制造尖端技术的鬼斧神功,制造业的数字化、网络化、智能化为中国经济发展安装了强劲的翅膀。
智能制造为世界经济提供新动能,提高生产率。世界经济不景气,增长下向风险的警报一直未能解除,亟需转变发展方式,期待新动能除旧布新、改天换地。唯有人工智能等科技生产担当此重任,大幅提高生产率,促进经济的发展。依托自然语言处理、计算机视觉、机器学习等这些人工智能核心领域技术的发展,以生态科技、智能机器人、无人车、无人机等为代表的人工智能技术已渐趋成熟。由此撬动的相关产业链也将迎来巨大市场机会,可估商业利益至少在万亿量级。
智能制造将掀起新一轮企业淘汰浪潮。在欧美和日本有成百上千家百年企业,但中国很多企业却做着做着就夭折了,这与企业家的胸怀和眼光有密切关系。企业家要站得高,看得远,转型中高端才能有长久的生命力。这一轮智能制造大潮,让传统企业倍感压力,跟上了,企业就往上走;跟不上,就要趴下去。
【关键词】智能时代;云计算;安全架构
一、前言
当今世界,新一轮的科技革命和产业变革正在持续深入,工业互联网、智能制造、人工智能、大数据、物联网等领域正在加速布局,“智能时代”企业信息系统最显著的变化是虚拟化、数字化一切、软件定义,促使企业信息化的不断发展,公司信息化资产数量日趋增多、系统的关联性和复杂度不断增强,使企业信息安全形势日益严峻,信息安全防护工作面临前所未有的困难和挑战。为了更好监控和保障信息系统运行,及时识别和防范安全风险,同时满足国家和行业监管要求,保证信息安全管理工作的依法合规,企业亟需建立一个全数据、集中管理的企业安全平台,做到事前预警、事中监控、事后分析以及响应,全面的提升信息安全管理与防护水平。
二、智能时代的变化趋势
我们正处在一个变革的时刻,“智能”是这个时代最显著的标志。在今年春天首届世界智能大会上马云提出,智能时代有三个最主要的要素:互联网、大数据、云计算;李彦宏也指出,未来30年推动社会进步的动力,就是智能科技的进步;浪潮董事长孙丕恕表示,智能从实现形式上就是要通过物联网、互联网将企业生产数据、互联网数据和企业自身的管理数据全部打通,实现无边界信息流和大数据分析。由此看来,一个企业走向智能化首先要完成业务在线化和流程服务软件化,然后完成应用软件的SaaS(Software-as-a-Service)化,从而助企业实现智能生产、智能维护、智慧服务。1.安全技术的变化基于云计算、虚拟化、大数据、智能制造、移动办公的持续推进,都是基于企业信息基础架构所实施的,开放式计算环境和更灵活的支持架构,要求安全技术随之匹配发展,才能适应新环境,新技术下的安全需求。中国工程院倪光南院士在《云安全的思考》主题演讲中指出,云安全一定会呈现出多维度、多层次、跨领域、多学科技术交叉等方面的特征。对于云计算的安全保护,需要一个完备体系,从技术、监管、法律三个层面上,形成可感知、可预防的智能云安全体系。2.企业智能架构从应用架构上看,未来的应用都是角色化、场景化的,可连接互联网资源,全员应用,实现移动化和智能化。虚拟化、数字化一切、软件定义促使企业信息架构的变革,以业务为导向和驱动,在企业管理、集成等方向上提供基础共性平台,为企业快速构建和集成应用软件提供基础支持,从而实现工程经验模块化、产品实际协同化、项目流程一体化结构,实现由统一业务层、统一界面构架层、应用系统层、统一工作台面、大数据分析、云计算层组成的一种新模式。在企业IT系统的业务基础机构层面,引入先进的统一软件平台,为上层应用开发提供统一标准,接口和规范,同时基于“平台+组件”的架构实现各类应用的组合和复用,助企业实现数字化转型。3.云架构在人工智能一日千里的时代,云计算已成为产业革新的原动力、新型管理的主平台、人工智能的强载体。在新的云时代,整个社会都在发生数字化的迭代。云成为数字化最重要的基础架构。腾讯董事局主席兼首席执行官马化腾指出:“用云量将成为一个重要的经济指标,能够衡量一个行业数字经济发展程度。”他还表示:“传统企业的未来就是在云端用人工智能处理大数据。”“云+AI”是当前最主流的方向,其核心包括三项核心能力(计算机视觉、智能语音识别、自然语言处理)。在计算机视觉领域实现开放OCR识别、人脸核身、图片处理等多项智能云服务;在智能语音识别领域实现语音转文字、语音合成、声纹识别、情绪识别等功能;在自然语言处理领域,以“数据+算法+系统”为核心,提供毫秒级响应的个性化服务。
三、企业信息安全措施
VMware首席执行官帕特•基辛格表示:“抵御安全攻击,响应速度不是核心,而是如何将支离破碎的安全保护进行更有效的整合,实现安全架构的简化,这才是企业安全转型的关键。”安全技术在智能时代必须跟上发展的变化,“智慧安全”的理念正在深入,着力点从网络系统安全、数据安全深入到业务应用安全等各个层面,AI防火墙、态势感知平台、云安全产品、企业移动化信息安全管理平台、智慧眼监控雷达、业务应用安全审计平台成为保护企业信息安全的前沿技术。1.企业数据的安全阿里巴巴董事局主席马云说:“数据是新能源。”随着数据量的持续增长,应用数量不断增加,数据将成为社会创新的重要驱动力。随着“网络强国战略”、“互联网+”行动计划、大数据战略的推进,网络安全风险和威胁也进入到企业:非对称的业务流量、定制化的应用程序、需要被路由到计算层之外并达到数据中心周边的高流量数据、跨多个虚拟化应用,以及地理上分散的移动应用,都造成数据泄露的机会,随着中央网络安全和信息化领导小组的成立,信息安全已上升到国家安全层面。因此数据保护十分重要,最好的选择是本源的防护,既做到保护数据本源的同时,又能灵活应对各种安全环境的需求。而符合这种要求的安全技术就是基于专业的安全分析模型和大数据管理工具,可准确、高效地感知整个网络的安全状态以及变化趋势,通过企业本地部署安全大数据分析平台,打通云端情报与本地设备的联动,形成情报触发预警,预警触发防护的闭环。对外部的攻击与危害行为可以及时的发现,并采取相应的响应措施,保障企业信息系统安全。2.企业网络安全2016年,在“4.19讲话”中再一次强调网络安全建设的重要性,并提出:“要树立正确的网络安全观,加快构建关键信息基础设施安全保障体系,全天候全方位感知网络安全态势,增强网络安全防御能力和威慑能力,要加快网络立法进程,完善依法监管措施,化解网络风险。此外根据网络安全法相关规定,我们也可以看出,网络安全法在原有信息系统安全等级保护制度的基础上,创新了网络安全等级保护的工作方法,企业的信息安全建设需在原有信息系统安全等级保护制度建设的基础上,将新技术新应用带来的重要信息系统建设诸如云计算、移动互联、物联网、工业控制、大数据等领域的国家关键信息基础设施建设都纳入国家安全等级保护制度进行管理,将风险评估、安全监测、通报预警、应急演练、灾难备份、自主可控等重点措施也纳入了国家网络安全等级保护制度的管理范畴。企业紧跟网络技术的发展,以“智慧安全2.0战略”为指导,将“智慧安全”的核心从网络系统安全、数据安全深入到业务应用安全等各个层面。现在已可以采用AI、机器学习、行为分析等技术手段进行动态分析、静态分析、异常检测、深度解析等手段,更有效地防范未知威胁。3.物联网安全预计到2021年,全球将有超过460亿台设备,传感器和执行器连接在一起,更广阔,更强大和更稳定的物联网时代即将到来,并且最终将给企业带来全新业务方式。物联网(IoT)为企业创新提供了广阔的前景。企业通过监控、分析收集来的数据量,来确保业务的正常发展。其中数据大都是从传感器、应用、门禁系统、配电单元、UPS、发电机和太阳能电池板产生的数据,但随着这些应用的增长,物联网带给企业的安全风险也很大。要应对物联网的安全挑战,企业应从智能设备的离线安全、入网安全、在线安全等维度进行整体安全检测与防护,在云端接入大数据感知威胁和安全态势分析平台,获取威胁情报;在本地端通过减少威胁“检测时间(TTD)”,即减少发生威胁到发现威胁的时间差,缩短检测时间,可有效限制攻击者的操作空间,和最大限度减少损失。①及时更新基础设施和应用,让攻击者无法利用公开的漏洞;②利用集成防御对抗复杂性,采取平衡防御与主动应对的安全控制;③密切监控网络流量(这在网络流量模式可预测性非常高的IoT环境中非常重要);④追踪物联网设备如何接触网络并与其他设备进行交互(例如,如果物联网设备正在扫描其他设备,则可能是表示恶意活动的红色警报)。
四、结论
神州控股董事局主席郭为对未来的预测时说:“云计算将成为未来主流IT运算模式,大数据会成为最重要核心资源;自上而下的创新将是智能时代推动社会进步的主流方式,借助云计算、大数据这两项关键技术实现互联网化、协同化和智能化。”智能是我们这个时代的标志,对于企业信息化来说,它的路很长,首先要完成核心业务在线化和所有的业务流程服务软件化,然后完成应用软件的SaaS(Soft-as-a-Service)化,当企业的核心业务完全建立在互联网上,并有软件SaaS平台驱动,企业才能够向智能化方向演进——低成本积累大数据,并通过数据分析进行商业决策,最终向实时数据分析、实时智能商业决策演进。由此,企业信息智能化任重道远,从现在开始制定适当的安全策略,以此加快IT新趋势的适应能力,在不断采用新技术的过程中建立适合企业的安全管理系统,做到覆盖企业安全运维的所有场景,监视安全威胁,预测安全风险。
参考文献
[1]维克多•迈克热•舍恩伯格.大数据时代:生活、工作与思维的大变革[M].浙江人民出版社.
关键词:人工智能;引擎;大数据;CPU;FPGA
DOI:10.3969/j.jssn.1005-5517-2017-2.006
1 2016年人工智能迎来了春天
2016年人工智能(A1)进入了第三个。2016年3月9-15日,谷歌AlphaGo(阿尔法狗)以4:1的成绩击败世界围棋冠军李世石职业九段,意义非常重大。因为过去机器主要做感知,现在出现了认知,这是人工智能的关键所在。
8个月后,2016年12月29日~2017年1月4日,AlphaGo的升级版――谷歌Master(大师)在30秒快棋网测中,以60胜0负1和的成绩,横扫柯洁、古力、聂卫平、朴廷桓、井山裕太等数十位中日韩世界冠军与顶级高手。从此以后,也许人类以后就没有和Master进行围棋比赛的机会了!除了围棋,人工智能下一步将在国际象棋、中国象棋等棋类方面发展。
扑克牌方面,专家水平的人工智能首次战胜一对一无限注德州扑克人类职业玩家,而且DeepStack让机器拥有知觉。
人工智能还能玩游戏。其意义很重大,平时环境中很难得到一些数据,因为游戏相当于虚拟社会,例如“星际争霸2”是复杂的虚拟社会,如果人工智能在这个虚拟社会中能战胜人,这将是非常了不起的,未来可涉及到高级决策,在军事上很有用处。2016年11月5日,谷歌DeepMind宣布与暴雪合作开发人工智能,挑战实时战略视频游戏“星际争霸2”。这件事情的意义非常重大。下一步可以用于军事上的高级战略决策。
无人驾驶方面,2016年11月15日,“在第三届世界互联网大会”期间,18辆百度“云骁”亮相乌镇子夜路,在3.16公里的开放城区道路上自主行驶。2016年特斯拉Autopilot 2.0问世,该软件只需要八千美元,就可让软件驾驶汽车。所有特斯拉新车将安装“具有完全自动驾驶功能”的该硬件系统,并可通过OTA(空中下载技术)进行软件升级;自动驾驶功能从L2(二级,半无人驾驶)直接跳跃到L4/L5();2017年底之前,特斯拉车将以完全自动驾驶模式从洛杉矶开往纽约。Uber提出在城区大范围无人驾驶出租车试运行,Uber 2016年9月14日在美国匹兹堡市推出城区大范围无人驾驶出租车免费载客服务并试运行,先期已测试近2年,说明无人驾驶真正落地了。
为何无人驾驶很重要?因为人工智能是无人驾驶的核心。除了百度、特斯拉、Uber,谷歌Waymo也在做自动驾驶测试。此外,沃尔沃、福特、宝马、百度、英特尔等全球约20多家企业公开宣布,4年以后的2021年将会是无人驾驶/自动驾驶元年,部分5AE L4车将会实现量产。
计算机视觉
针对ImageNet ILSVRC测试比赛的1 000种物体识别,Deep CNN超过了人类的识别能力。人是5.1%(如图1),2016年2月23日谷歌人工识别的评测是3.08%。ImageNetILSVRC中有1000种物体,例如猴子、马、飞机、坦克等约1500万张照片、包含2.2万类种不同物体。深度学习一般能做到52层,极深度学习(very deep lea rning)现在已经做到1000层。
在ILSVRC 2016国际评测中,包括视觉物体检测、视觉物体定位、视频物体检测、场景分类、场景解析等性能均有提高。值得一提的是,在此次大会上,中国团队大放异彩,几乎包揽了各个项目的冠军(图2)。
人工智能语义分割
基于全卷积神经网络FCN的路面/场景像素级语义分割取得重要进展。为此,我们可以分割大部分道路。
人工智能唇语专家
看电视时把声音关掉,靠嘴唇说话的变化来识别谈话内容,这种能力机器识别率已经超过人类。例如2016年12月,英国牛津大学与谷歌DeepMind等研发的自动唇读系统LipNet,对GRID语料库实现了95.2%的准确率;对BBC电视节目嘉宾进行唇语解读,准确率为46.8%,远远超过专业的人类唇语专家(仅为12.4%)。
人工智能人脸识别
人脸识别可以达到产品级别,例如支付宝的刷脸成功率超过了人类。如图3,人的水平为97.40,百度为99.77。因此可以进行产品体验。2017年1月6日,百度人工智能机器人“小度”利用其超强人类识别能力,以3:2险胜人类最强大脑代表王峰。
语音识别
目前的社交新媒体和互动平台中,Al虚拟助手和Al聊天机器人正在崛起。一天,美国GIT(佐治亚理工大学)的一个课堂上来了一位助教,教师讲完课后说:“大家有问题就问助教吧”。这位助教原来是个会眨眼睛的机器人!这时学生们才知道每天网上给他们答疑解惑的是人工智能,此前学生们也感到很吃惊,这位助教非常敬业,晚上还在发Email。
人工智能语音合成
指从文本声音到真实声音,可以自动翻译成英文。2016年9月19日,谷歌DeepMind推出WaveNet,实现文本到美式英语或中国普通话的真实感语音合成。
人工智能速记员
包括语音识别和NLP(自然语言处理)。2016年10月17日,微软的语音识别系统实现了5.9%的词错率(WER),媲美人类专业速记员,且错误率更低;中国科大讯飞也有语音输入法。
人工智能翻译
中国人往往从小学到读博士都在学英语。现在,谷歌、微软和百度等公司在做人工智能翻译。以谷歌为例,2016年9月27日,谷歌的神经机器翻译系统(GNMT)实现了多语种翻译,较之传统方法,英译西班牙翻译错误率下降了87%,英译汉下降了58%,汉译英下降了60%,已接近人工翻译的水平。也许今后学外语没那么重要了,人们可戴着耳机,耳机能直接翻译成各语言。
人工智能对抗训练
Goodfellow(2014)提出的生成式对抗网络(GAN),为半监督学习/举一反三式的学习发展提供新思路,2016年发展迅速。目前是监督式学习,需要依靠大数据,因此大数据需要非常完备。而人是举一反三式的学习。例如人没有见过飞机,看过几张照片就可以把世界上所有飞机都认出;目前的大数据驱动的深度学习方式,是把世界上所有飞机照片都看过才行。现在进行举一反三的半监督或无监督式学习,思路是采用对抗的方法,一个网络造假,另一网络鉴别照片是真是假,通过对抗式的学习来共同进步(如图4)。
人工智能引擎
芯片三巨头
英特尔、英伟达和高通全部转到了人工智能上。为此英伟达的股票涨了几倍。英特尔也在大搞人工智能。高通为了进入人工智能领域,收购了恩智浦,恩智浦此前收购了飞思卡尔。
现在出现了基于超级GPU/TPU集群的离线训练,采用超级GPU/TPu集群服务器,例如英伟达的深度学习芯片Tesla P100及DGX-1深度学习计算机,谷歌数据中心的TPU。
终端应用采用GPU/FPGA-based DPU,例如英特尔Apollo Lake A3900的“智能互联驾驶舱平台”,高通骁龙的820A处理器。
通用人工智能与认知智能
1997年,lBM的超级电脑程序“深蓝”击败国际象棋大师加里・卡斯帕罗夫;2011年2月,IBM的自动问答系统在美国最受欢迎的智力竞答电视节目“危险边缘”中战胜了人类冠军:IBM的沃森医生在某些细分疾病领域已能提供顶级医生的医疗诊断水平,例如胃癌诊断。
可见,1.AlphaGo和Master等已可横扫人类围棋职业顶尖高手,下一步,将能下中国象棋等所有棋类,此外还可以打牌、炒股等,即什么都可以干,是强人工智能。2.人工智能已成为无人驾驶汽车商业落地的关键。3.视觉物体识别、人脸识别、唇语识别等在许多国际公开评测中,达到或超过人类的水平;4.速记等语音识别已可媲美人类;5.包括神经机器翻译在内的自然语言处理,性能也大幅度提升;6.生成式对抗网络得到极大关注。
目前,发展通用人工智能成为普遍共识。
2 社会极大关注
未来,可能很多工作就会消失了。
人工智能引起社会的极大关注和热议,人工智能发展很快;而且人工智能的学习速度快,很勤奋,未来可以达到人类所有的智能,这时到达了从强人工智能到超越人工智能的奇点;人工智能有超越人类智能的可能;理论上,人工智能还可以永生。
这也引起了很多人们的担忧。奇点到来、强人工智能、超人工智能、意识永生、人类灭绝等耸人听闻的观点出现,引起包括霍金、盖茨和马斯克等在内的世界名人对人工智能发展的担忧。在每年的世界人工智能大会上,专门有一个论坛探讨人工智能与法律、伦理及人类未来的会场。
现在,人工智能工业的OpenAI成立。
2016年全社会对人工智能的极大关注,可能是2016年AI的最大进展!
在半监督/无监督学习、通用人工智能方面,人工智能具有举一反三,并有常识、经验、记忆、知识学习、推理、规划、决策,甚至还有动机。这最后一点有点恐怖,人是有意识和动机的,机器做事也有动机,太可怕了。
智能学习进步很快,AIpha Go八个月后就可以战胜所有围棋手,因为它能每天24小时学习、不吃不喝地学习,比人强多了。
因此,在经历了60年“三起两落”的发展后,以深度学习为主要标志的人工智能正迎来第3次伟大复兴,这次引起社会尤其是产业界高强度的关注。因为上世纪60年代和80年代,人工智能没有达到这样的水平。
硅谷精神教父、预言家凯文・凯利说,未来人工智能会成为一种如同电力一样的基础服务。斯坦福大学推出了“人工智能百年研究”首份报告――《2030年的人工智能与生活》。
3人工智能上升为国家发展战略
有人认为第四次工业革命即将由人工智能与机器人等引爆。英国政府认为,人工智能有望像19世纪的蒸汽机革命那样彻底改变我们的生活,甚至人工智能给人类社会带来的变革与影响,有可能远远超过蒸汽机、电力和互联网带来的前三次工业革命。
智能制造、无人驾驶汽车、消费类智能机器人、虚拟助手、聊天机器人、智能金融、智能医疗、智能新闻写作、智能律师、智慧城市等可能被人工智能代替。人工智能将无处不在,可望替换人类的部分脑力劳动,一些职业会被取代或补充,一些新的行业又会诞生,例如18世纪出现了纺织工人,之后汽车代替了马车等。因此,我们将经历从“互联网+”到“人工智能+”。
中国“互联网+”与“中国制造2025”国家发展战略的实施,对人工智能的巨大需求在迅速增长。未来2-5年,人工智能应用与产业发展将迎来爆发期。
中国政府在《“互联网+”人工智能3年行动实施方案》提出:计划在2018年形成千亿级人工智能产业应用规模。201 7年1月10日,科技部部长万钢称,将编制完成人工智能专项规划,加快推进人工智能等重大项目的立项论证。
美国政府在2016年10月13日出台了《为人工智能的未来做好准备》的报告,提出了23条建议措施。同一天,美国政府又出台了《国家人工智能研发战略规划》,提出了7大重点战略方向。美国参议院于2016年11月30日召开了关于人工智能的首次国会听证会,主题是“人工智能的黎明”,认为中国是对美国人工智能全球领导地位的一个真正威胁。在2016年12月20日美国白宫了《人工智能、自动化与经济》报告,考察了人工智能驱动的自动化将会给经济带来的影响,并提出了国家的三大应对策略方向。可见,奥巴马把人工智能看作其政治遗产之一(注:另一个是Cyber空间)。
英国政府2016年12月了《人工智能:未来决策的机遇与影响》的报告,关注人工智能对社会创新与生产力的促进作用,论述如何利用英国人工智能的独特优势,增强英国国力。
日本政府2017年开始,要让人工智能与机器人推动第四次工业革命。
4 我国对策
应以深度卷积神经网络为核心,全面开展计算机视觉、语音识别和自然语言等人工智能产品的开发与大规模产业化应用。这需要大数据、计算平台/计算引擎、人工智能算法、应用场景等飞速发展,另外还需要资源、资金、人才。在方法上,选定垂直细分领域最重要。
面向若干细分垂直领域,建立大数据中心。实现大数据采集、清洗、标签、存储、管理与交易,建立大数据源公共基础设施与垂直领域知识库。专有大数据是人工智能产业制胜的关键和法宝。中国企业必须开始特别关注大数据的采集与利用。其重要性如同原油―样,跨国企业视之为战略资源!
强力开展人工智能芯片与硬件平台的研发。包括基于FPGA的深度学习芯片;类脑芯片与忆阻器件;建立国家级人工智能超算中心。