• 项目
首页>>文章列表 >>文化教育
文章列表

2017年6月日系车销量排行榜

2017年6月德系车销量排行榜

微软首席研究员童欣:深度学习将席卷计算机图形,VR/AR爆发临近

1993年毕业于浙江大学计算机系,获工学学士学位;1996年获浙江大学计算机系硕士学位;1999年获清华大学计算机系博士学位,同年加入微软亚洲研究院。目前为微软亚洲研究院网络图形组首席研究员,主要从事计算机图形学方面的研究。

 

童欣在微软做了近20年的图形学是什么?与计算机视觉有什么关系?在 AI 的发展上会发挥什么样的作用?新智元近日专访了童欣。他和我们分享了网络图形学的最新进展以及深度学习为这一领域带来的改变。

 

博士毕业到现在,童欣在微软亚洲研究院做研究已经有18个年头。微软亚洲研究院是中国AI领域当之无愧的“黄埔军校”,培养了大量目前在行业起到中流砥柱作用的中坚力量。在AI迅速发展的浪潮中,许多人在这里来来去去,童欣从毕业后一直留在微软,成为了名副其实的“老兵”。在研究院内部,人们亲切地称他为 “童姥”。


对于为什么一直选择留在微软,童欣说:“无可置疑,这里有一批如此优秀的人汇聚在一起做着我们所喜欢的图形学研究,这里创造了国内图形学研究最宽松和开放的环境,这些才是吸引我在微软亚洲研究院乐业的魅力所在。”



站在风口,猪都飞起来了,为什么我没有?


童欣:“有传言说,如果你站在风口,就算你是一头猪也能飞起来。可是我这么瘦的一个人,站了这么久,怎么还没飞起来,这到底出了什么问题?”


到底什么是互联网图形?


童欣在接受新智元的专访时介绍说,所谓的网络图形学,或者说互联网图形学,本质还是图形学,但是我们希望相对传统的图形学能有些不一样的东西。

 

传统的图形学起源在上世纪六十年代,经过几十年的发展,传统的图形学在工业和娱乐产业中得到了非常广泛的应用,产业化已非常成熟:


  • 计算机辅助设计与辅助制造。小到我们身边日常生活的物品,大到飞机汽车,计算机辅助设计和制造已经广泛的应用于工业生产与制造中,并形成了和图形学相对独立的分支出来。


  • 游戏、影视中的图形特效。从完全由计算机生成的动画片,到大家在手机,游戏机上打的游戏,都包含了图形学中很多的研究成果。

  • 科学计算可视化与信息可视化。通过图形表示,展现抽象数据的属性,方便大家快速,准确的理解数据,做出决策。这里面既包括用于科学计算,医学应用的可视化技术,也包含近几年兴起的信息可视化与可视分析技术。

 

这些成熟的产业化,反过来推动了图形学研究几十年的发展和繁荣。但是在传统的图形学中,我们会发现整个图形内容的生产模式从开始到现在是一致的,就是由专家做出高质量内容,分发给普通用户消费。随着互联网的发展,我们发现图形学不但没有因此受益,反而遇到了发展的瓶颈。那么我们提出网络图形学,就是希望要解决图形内容生产的everyone和everywhere的问题。也就是让图形在互联网上在线流动起来,让任何人(everyone)方便地在任何地方(everywhere)可以创造可视的媒体内容。不但能创造,还能方便的分享和享受这些东西。




计算机图形跟计算机视觉是一对“好基友”


那么图形学与时下流行的计算机视觉是什么关系?

 

童欣告诉新智元,一个简单的说法,图形学和视觉是两个相反的过程,图形学是给定所有三维的场景,如光照,材质,动态信息等,我们来正向的生成图像或者视频。而视觉是给定图像和视频,计算机来恢复里面三维场景的所有信息,并进一步理解场景中的语义。

 

但是由此认为图形学比视觉简单,或者两者正好相反就错了,因为这两个学科本质上是一个硬币的两面,他们里面的核心是真实世界的物理规律和人的理解创造过程。计算机视觉和计算机图形二者的界限没有这么清晰。两者有很大一部分重叠的研究领域,比如三维重建,材质建模,人体动态捕捉和重建,计算摄像学等。而不重叠的领域又可以相互借鉴,可以用“一对好基友”来形容。

 

举例来说,我们看到一个图像的时候,图形学可以把背后的物理成像原理、场景中形状和材质的特性,以及相机成像中一些处理步骤告诉你,然后当人去设计理解这个图像的算法时,这些物理规律和特性可以帮助大家对图像加入合适的先验假设和条件,从而得到更为有效的视觉算法。另一方面,视觉对图形学的研究也有很大的启发和帮助。为了生成真实感的图形,创建逼真的三维场景,我们的内容从哪里来?这就需要视觉中很多技术的帮助。童欣说:“比如我做一个可乐罐子,我可以拿相机拍下来做三维重构,也可以通过拍摄大量的图片直接重现这个可乐罐子在不同视角,不同光照下的图片。”



深度学习尚未席卷计算机图形学,但格局很快就要被打破了


谈到机器学习和计算机图形学关系,童欣认为:“图形学其实一直是个开放的领域。很多人好奇我们图形学到底用不用机器学习技术,我们其实很早就在使用了,但是在图形学研究里,我们称这类方法为数据驱动的方法。数据驱动在图形学的历史非常悠久,现在当然也包括了深度学习这一技术。”

 

和计算机视觉中深度学习已经渗透到几乎每一分支不同,深度学习似乎目前尚未席卷计算机图形学(Computer Graphics)的各个领域。对此,童欣认为,这方面的原因有几个方面。一方面,图形学中使用的三维表达多种多样,并没有统一的表达。和图像、视频这些表达不同,如何有效的设计一个通用的针对3D 图形数据的深度学习模型(就像专为图片设计的深度卷积神经网络CNN)还是大家在研究的一个热点问题。另外,在图形学的很多领域,大规模高质量的数据集还很缺乏。如何有效的产生这些高质量的图形数据本身就是图形学研究中的核心问题。最后,在图形学很多领域,比如绘制,大家对结果的物理正确性和算法实时性有非常高的要求,在这些方面如何有效的利用机器学习技术,包括深度学习技术,发展出比目前的算法更好的解决方案,还需要解决很多问题。

 

同时童欣提到,挑战也是机遇。在近几年中,图形学研究中大家也开始积极探索如何利用深度学习技术解决不同的图形学问题。在今年的SIGGRAPH上也出现了很多深度学习、和机器学习相关的论文,其中很多都是有华人作者参与的。除了微软亚洲研究院发表的三项相关的工作,国防科大徐凯副教授等人在形状的结构分析方面的工作,港大的俞益州教授和潘晓光博士等人在基于草图的人脸表情建模方面的工作都是非常具有启发性的工作。从这两年的论文也可以看到机器学习,特别是深度学习也得到了图形学研究人员越来越多的关注。

 

最后童欣评论道:“深度学习是个很好的工具,但是在图形学里,很可能深度学习并不会席卷一切,也不可能解决所有的问题。因为内容的生成本质上是比图像理解更难的一个问题。一方面我们希望能够理解人们的语义和描述,能够把这些歧义的抽象的想象和描述变成具体的确定性的图形内容。另一方面,我们要求生成的内容必须具有物理的合理性,同时具有丰富逼真的细节。这一逆向的生成过程在深度学习中,也是大家目前才刚刚探索的一个问题。最后可能还是百花齐放,殊途同归,通过不同方法的结合达到最终的目标。”



基于八叉树的卷积神经网络,降低三维形状分析计算量


在采访中,童欣也简单介绍了微软亚洲研究院今年在SIGGRAPH上发表的三篇和深度学习有关的论文。第一个是用于三维形状分析的基于八叉树的卷积神经网络。

 

通常用CNN做二维图像分析效果很不错,Nvidia也有专门的库。但是3D图形一般用不规则连接的三角形网格,或者点云来表达,那么如何把处理规则数据的CNN用在处理不规则的三角形网格或者点云上?就变成了大家首先要解决的问题。

 

传统的数据表达会导致计算太复杂!


一个直观的方案是在空间做一个规则网格的体素表达,这个形状占到了的体素就标记为1,否则就标记为0。如果把这个三维的规则网格直接用CNN做,运算复杂度会很大。分辨率稍微高一点,训练的内存开销和速度都会承受不了。往往一个32*32*32这么小的,连形状细节都看不清楚的规则网格都做不动。


另外一个解决方案是从各个角度绘制大量深度图,再把图片摞在一起来做CNN,这种方式可以解决很多问题。但是要拍多少张图片才够?从哪个角度绘制?我们没有统一的解决方案。如果形状有内部结构或着凹下去的部分,这种方法很可能会丢失这部分信息造成后面算法性能下降。还有一种方案是沿着表面做CNN。这样做的主要问题在于,这需要一个流形的形状表达,对点云却无能为力。同时,大部分表面无法没有误差的展开到一个平面上来一定有一些地方被拉伸或扭曲,也造成算法性能的损失。


童欣介绍:“我们的工作是,利用图形学中非常流行的八叉树结构,把空间一分为八,有物体的部分留着,没有的就标记后扔掉,留下的继续细分。在做卷积的时候,只在空间有物体的那个八叉树的分支上做。这样算法需要的空间和速度和做一张图像的复杂度相似,从而可以对更高分辨率的三维形状进行分析。基于这一想法,我们做了一个GPU上的优化实现,允许用户使用大部分基于图像的CNN模型,充分的发挥了CNN的优势。”



CNN结合半监督学习结合,挑战表面材质生成难题


另外一项很重要的与深度学习相关的工作是:用深度学习自动生成物体表面材质。


什么叫表面材质?材质决定了物体在真实光照下的颜色,反光和表面的外观细节。光凭形状无法分辨这个可乐罐子是塑料的,还是金属的,是磨砂的,还是抛光的。只有加上材质信息,有了颜色,反光、高光等,我们才知道这是个铝的磨砂罐子。


材质在图形学渲染中非常重要。但是生成很真实的表面材质一直是一个很困难的事情。童欣表示:“一个有经验的艺术家可以根据自己的经验,从一张照片出发,通过Photoshop,经过很多复杂的图像编辑操作,产生相应的材质贴图。那么如果艺术家可以做得很好,那我们可不可以利用深度学习技术从图片出发,自动做出高质量的材质贴图?” 


可是,这里面的挑战是,如果我们用传统的CNN的训练方法,我们就需要输入很多照片和他们对应的真实材质的标定数据。但是我们很难找到大量的图片和对应的材质。否则我们也不需要研发这个工具了。


童欣说:“我们的解决方法是,能够利用用户给的少量输入图片和对应的材质标签,以及大量的Internet下载的没有材质标签的图片一起,通过一个新提出的自增强的训练方法结合绘制算法来训练CNN,这一方法取得了很好的效果。这是针对图形学问题的一个新的半监督学习的算法。我相信这一算法具有潜力来帮助解决更多的图形学视觉的问题。”


而另一项工作,则是微软亚洲研究院视觉计算组袁路和廖菁研究员等人所提出的新的图像风格化算法,可以生成高质量的和内容相关的图像风格化结果。这一成果也再次说明图形学、视觉研究之间的相关性。



VR只是媒体而AR是平台四大技术快速发展爆发期将近


VR/AR/MR 跟图形学是密切相关的一个应用方向。在这个方向上,微软已经发布了HoloLens这一在MR(混合现实)方向的主打产品。不仅仅微软,Facebook、苹果、谷歌等巨头也已涉足MR。对于这个方向,他也有一些观点。

 

大家喜欢把VR和MR/AR放在一起说,但是童欣认为两者有本质的不同——VR更多的是一种新的媒体形式。而MR/AR是一个新的平台,本质上是一个基于语义的地理位置的服务(semantic locationservice)。童欣说:“两者虽然也有一些共同点,但是在关键的应用场景上最终肯定要分道扬镳。”

 

任何用到媒体的场景如娱乐、教育等, VR都会渗透。而AR/MR的应用场景,远比VR要广得多,它会变成你生活中一个无处不在的平台。理解本质后,可以再探讨VR和AR/MR是否会在应用层面爆发。


童欣认为,对于媒体最关心的内容生成和传播。VR现在还是很难生成体验非常好的内容给用户。VR需要用户带着头盔,用户需要花费额外的精力克服不适感,这意味着用户对内容的期待比现有的媒体要高一个数量级。糟糕的是,我们现在没有特别好的手段,帮助用户产生真正超越目前可视媒体的更高质量的媒体内容出来。拿VR视频举例,我们面对的是画面粗糙的颗粒感、交互的不便,视觉感受和身体其他感官体验的分离。这不仅仅是图形技术的问题,而是一系列技术都没跟上。


图形上的问题在于,如何捕捉更高分辨率,视点可自由移动的视频。第二,从传输机制上说,如何压缩内容,减少延迟。第三,从交互意义上说,屏幕就这么大分辨率,我要看某个细节的时候,如何自然交互,放大、特写这一部分的内容。VR带给用户的体验还没有超过给用户带来的额外负担,任重道远。AR/MR也有很多技术难点,但是这些技术难点在最近几年得到了一系列突破和快速发展:


1.    SLAM定位技术,现在发展很快很好

2.    识别技术,识别用户所看到的,所交互的东西是什么?

3.   手势和视线跟踪技术,面部表情跟踪技术,用于自然交互

4.    显示技术,如何实现更轻的头显和更大的视角


童欣认为,以上关于AR/MR的每个技术离完全成熟都差一点火候,但是也在飞速发展,所以他认为AR/MR的爆发很快就会到来。

 

童欣告诉新智元,在MR的普及方面,微软也在跟很多企业合作,来探索在不同实际场景中的应用。例如跟蒂森克虏伯(Thyssenkrupp)合作电梯检修,跟沃尔沃合作做汽车设计,还有医学的解剖教育等等。对微软来说,现在更重要的是建立健康的生态系统。


微软互联网图形组:培养了一大批中国图形学的人才

从2001年成立至今,微软互联网图形组培养了一大批中国图形学的人才,这是整个微软亚洲研究院在中国互联网发展所扮演的角色的一个缩影。

 

童欣说,目前图形学在国内的发展水平相当好,在很多研究方面达到了国际一流水平。国内的很多高校,如清华,浙大,中科大,山大,深圳大学,北大,中科院都有能力发表高水平的SIGGRAPH论文。国内图形学界活跃的一些著名学者,比如清华大学的徐迎庆教授,刘世霞副教授,浙大的周昆教授、刘新国教授,中科大的刘利刚教授,香港大学的魏立一副教授等等都曾经在微软亚洲研究院的图形学组工作过。


童欣说:“国内图形学界的各位前辈给图形学的发展打下了坚实的基础。图形学界大家都很团结,都想把图形学的产,学,研做的更好。因此这些年图形学在中国发展的很好,大家努力做出了很多世界一流的成果。微软亚洲研究院很高兴能够参与其中,和大家一起努力,为这些发展做了自己的贡献。除此之外,网络图形组给微软以及产业界也做过很多贡献:微软开源框架 CNTK 里的视觉分析算法和GPU优化方面;XBOX平台上对原有平台的游戏支持,以及微软很多游戏中所使用的绘制建模技术等等。这些技术应用实实在在的推动了产业的进步”。


展望未来,童欣对网络图形学的未来非常乐观:“我们其实刚刚走完了图形技术发展的基础层次(LowLevel)的研究。而在上面一个层次,如何通过用户的简单输入和对结果功能、使用场景的理解进行更为智能的内容创作和交互还是大家刚刚开始探索的问题。而如何通过对用户的语言输入和理解,帮助用户自动的生成高质量的可视内容,和完全打破虚拟与现实界限的交互技术才是网络图形学的最终目标。我们离这一目标还很远,但是我们正在向这一目标奋力前进。”

【AI TOP 10】百度和微软终于走到一起,角逐无人驾驶

 百度与微软终于走到一起,阿波罗计划和Azure云共赢无人驾驶

近日,百度与微软宣布,双方已经达成了推进无人驾驶业务合作相关的协议。双方宣布,计划在全球范围内就无人驾驶加强技术研发和渗透等展开合作。作为Apollo联盟的成员,微软还将向百度在中国市场之外的全球合作伙伴提供大量的Azure云服务。


百度总裁张亚勤(微博)表示,“我们很高兴让微软成为Apollo联盟的成员。我们Apollo联盟的目标就是向无人驾驶行业提供一个开放强大的平台,从而进一步推进无人驾驶汽车相关的目标。”


较长一段时间以来,微软一直在与无人驾驶行业的领先者展开合作,以帮助汽车制造商充分理解来自连网汽车的大量传感器和应用数据,并将这些数据整合到可供行动用的信息之中。像宝马、福特、雷诺日产、丰田和沃尔沃等汽车公司都在使用或计划使用微软的智能云技术,以支持自身的驾驶援助技术和预测维护和语音控制等功能。

作为此次合作的一部分,百度与微软还计划探索更多的机会,以便提供连网汽车解决方案和独特的客户体验,从而推动无人驾驶汽车行业的数字化变革。



 谷歌眼镜年营收有望达20亿美元,谷歌云助攻


据外电报道,谷歌(微博)在2015年宣布停止接受谷歌眼镜订单,并关闭Explorer软件开发项目,谷歌眼镜也淡出人们视线。当时,谷歌眼镜被视为高端、侵犯隐私的玩具。


然而谷歌母公司Alphabet旗下子公司X并未放弃谷歌眼镜的开发,但瞄准对象从普通消费者转变为从医生到仓储中心管理者的企业用户。与第一代谷歌眼镜相比,新的谷歌眼镜企业版最主要的变化就是摄像头,从之前的500万像素升级到了800万像素,并且延长了续航时间、提高了无线网络连接速度和处理器性能,并且在录制视频时增加了红色指示灯提示。


第一代谷歌眼镜的售价达到1500美元。根据市场调研公司Forrester Research预计,到2025年美国使用智能眼镜的企业员工数量将达到1440万。按照Forrester Research的预计,类似谷歌眼镜这样的增强现实眼镜市场规模将在8年时间中达到10亿美元至20亿美元。


根据谷歌眼镜项目负责人Jay Kothari发表的博客,谷歌眼镜项目团队当前的计划是“携手谷歌云团队和合作伙伴,帮助不同行业的客户充分利用谷歌眼镜。”



 科大讯飞透露持股商汤科技,这家语音技术巨头有着更大的AI野心


7月17日,科大讯飞在全景网投资者互动平台上回答投资者提问时透露,公司的全资子公司少量持股商汤科技。这一消息尽管受到了业界的广泛关注,但从科大讯飞的野心来看,似乎并不令人感到意外。根据媒体报道专注于计算机视觉和深度学习的AI领军企业商汤科技宣布完成4.1亿美元B轮融资创下全球人工智能领域单轮融资最高纪


尽管人脸识别与声纹识别分属于不同的技术领域,但二者结合使用具有重要的应用价值。通过合作,科大讯飞在其讯飞开放平台上推出了整合人脸识别与声纹识别的统一多生物认证系统,提供包括人脸检测、人脸验证在内的多项服务。




 腾讯领投ObEN公司500万美元,筹建世界第一个明星AI平台


近日,人工智能平台的人工智能初创公司ObEN对外宣布,其已获得500万美元战略投资,由腾讯领投,CMC董事长黎瑞刚及峰尚资本跟投。目前,ObEN已获得超过1370万美元的投资。


在这家公司所打造的人工智能版权平台上,明星们可以快速地创建、安全地存储、和发布自己的人工智能,一个长得像、说话像、可以代表自己的三维虚拟形象。ObEN首次融合了语音、计算视觉以及自然语言处理技术,研发了全栈式虚拟明星所需要的虚拟声音、三维形象及个性化技术。


上个月,ObEN宣布与韩国SM娱乐成立合资公司幻星有限公司(AI Stars)。韩国SM娱乐是亚洲最大的娱乐公司之一,其旗下明星包括韩国现象级艺人及组合EXO、Super Junior、少女时代、NCT 127及东方神起等等。




 

搜狗地图推出智能副驾 全语音支持车内场景对话


7月18日消息,搜狗地图将语音交互技术应用到了出行领域,推出支持用户全程进行语音交互的智能副驾。


据了解,搜狗地图智能副驾能够全语音支持各种车内垂直类场景对话,包括语音查地点并发起导航、语音设置途经点、语音设置路线、语音问路况、语音沿途搜、语音查周边以及语音操作地图等。




 俄罗斯谷歌”Yandex,发布开源机器学习库


俄罗斯搜索巨头、俄罗斯“谷歌”——Yandex发布开源机器学习库CatBoost,这一工具基于梯度推进(gradient boosting),在数据稀疏的情况下教系统学习。




 美团云发布人脸识别服务,人脸比对准确率高达99.999%

美团云正式上线人脸识别服务,发力智能视觉领域,为开发者、企业和政府提供包括人脸检测、人脸比对、活体检测等功能在内的视觉计算服务,其中活体检测准确率达95%,人脸比对准确率高达99.999%。



 阿里工业大脑为制造业省下几个亿的背后:AI工程师下车间写代码

不久前,阿里云的ET工业大脑正式发布了,在这以前它已经帮助一家全球领先的光伏企业提升了1%的良品率,节省了上亿元的年生产成本。


因为制造企业也有了算法需求,不了解制造流程的阿里云AI工程师光盐,也经常去车间工作。




 Momenta团队获ImageNet物体识别冠军,错误率仅2.3%


轰轰烈烈的ImageNet 2017终于落下帷幕,Momenta 研发团队(WMW)的孙刚和胡杰参加了比赛,并与来自牛津大学的申丽合作,提出SE架构,以2.3%的识别错误率荣获物体识别冠军。Momenta成立于2016年9月,创始人兼CEO曹旭东曾任商汤科技执行研发总监


WMW团队提出了一种新的机制称为Squeeze & Excitation(简称SE),以此来大幅提升模型的精度。它通过引入全局图像的信息自动对卷积特征重新分配权重,增强对分类有用的特征,而抑制无效或收益甚微的特征。在只引入极少的计算量和参数量的情况下,可以将现有的绝大多数CNN的性能进行大幅提升。


据介绍,这个框架下计算量与ResNet50 相当的网络可以达到ResNet101 的性能。



 硅脑专家不是梦机器学习在生物技术领域大显身手


在生物技术新兴公司Zymergen,机器人整日都在进行微生物实验,它们不用像人类一样用吸移管将数毫升的液体注入到孔中并担心会碰触液体,相反,一束声波脉冲会以每秒500次的频率让液体泛起涟漪,形成比人类可转移的液体量小1000倍的液滴。“AI 驱动的生物技术”正走向一个未知而神奇的时代。




 贾跃亭宣布宝马“i系列之父”Ulrich Kranz加盟FFCTO


贾跃亭通过其微信公众号宣布,前宝马高管Ulrich Kranz加盟法拉第汽车(FaradayFuture),出任首席技术官(CTO)。

根据法拉第未来官网介绍,Ulrich Kranz是汽车行业的资深专家,在宝马集团工作了三十年,曾在宝马担任多个领导职位。


以下为贾跃亭微信公众号全文:


欢迎Ulrich Kranz先生加盟FF,出任CTO。作为前宝马集团高级副总裁、“宝马i系列之父”,他曾打造出i3、i8、X5、Z3等重量级车型。相信他的到来,一定会加速推动FF 91高品质的量产。


Kranz将聚焦FF 91工程、技术研发、采购和制造流程的优化工作,更快实现FF 91量产。在FF 91上市之后,他还将全面负责未来产品引入工作,包括新车型、技术整合及架构优化等。

深度学习4大技术方向

Keras作者、《Python深度学习》一书的作者 Francois Chollet 在自己的博客上公开了自己书中的内容,讨论深度学习的未来:

鉴于我们对深度神经网络的了解,包括它们的局限性,以及对当下研究图景的掌握,我们是否能预测在短期内,深度学习将会走向何方?下面是一些纯个人的思考。需要注明的是,我没有水晶球,所以可能很多我的预测不会成为现实。这是一篇纯推测的博客。我之所以在此分享这些预测,并不是因为我期望它在未来被证明是完全正确的,而是,在目前看来,它们非常有趣,而且是可行的。


在最上层,我认为有潜力的主要方向是:


  1. 更贴近通用计算机程序的模型,建立在比当下不同神经网络层远丰富得多的基元之上,这就是我们将如何得到推理和抽象,即当前模型的根本弱点。

  2. 能让上述情况实现的新形式的学习——允许模型获得更多的发展,而不仅仅局限在不同的转移。

  3. 需要人类工程师更少干涉的模型,无休止地调整控制旋钮(knobs)不应该是你的工作。

  4. 对前期学习特征和架构系统性的再利用;基于可再利用和模块化程序和子程序的元学习系统。


此外,需要说明的是,以上所举并不特指监督式学习——这种学习方式目前是深度学习的基本业务,它们可以应用到任何形式的机器学习上,其中包括非监督学习、自监督学习、强化学习等等。你的标签来自哪或者你的训练环看起来是怎么样的在根本上也不重要。这些机器学习不同的分支只是同一结构的不同方面。


让我们深入下去。


模型即程序


正如我们在此前的博客里提到的,在机器学习领域,我们可以期待的一个必要的转变是:从只能做模式识别和获得局部的泛化,到能够执行抽象和推理的模型,这能获得极端的泛化。当下,具有基本推理形式能力的AI程序都是由人类程序员硬编码的:例如,依赖于搜索算法,图形操作和形式逻辑的软件。


例如,在DeepMind的AlphaGo程序中,其展示的绝大部分“智能”都是由专业的程序员设计和硬编码完成的(比如,蒙特卡洛树搜索)。从数据中进行学习仅仅发生在特定的从属模块中(价值网络和策略网络)。但是,未来,这样的AI 系统或许可以进行完全的学习,不需要任何的人类参与。


要实现这一想法,都有哪些渠道?考虑一下一个广为人知的神经网络——RNN。重点是,RNN比前馈神经网络(Feedforward Networks)的局限性要少得多。这是因为,RNN不仅仅是一个几何变换。在一个循环内,RNN被重复应用的几何变换。


时间循环本身由人类开发人员硬编码:它是网络的内置假设。当然,RNN在它们可以代表的方面仍然非常有限,主要是因为它们执行的每个步骤仍然只是一个可微的几何变换,并且它们从一个步骤到另一步骤中传递信息的方式是通过连续几何空间(状态向量)中的点。现在,想象一下神经网络将以类似于编程基元(例如for循环)的方式“增强”,但不仅仅是一个有硬编码几何存储器的硬编码for循环,而是一组大型的编程原语,让模型可以自由地操纵以扩展其处理功能,例如分支,语句,变量创建,长期内存的磁盘存储,排序运算符,高级数据结构(如列表,图形和哈希表)等等。这样一个网络可以代表的程序的空间将远大于当前深入学习模式所能表达的范围,其中一些程序可以实现更高的泛化能力。


总而言之,我们将远离一手掌握“硬编码算法智能”(手工软件),一只手“学习几何智能”(深度学习)的方式。取而代之的是,我们将提供混合的正式算法模块,它们能提供推理和抽象能力,同时,其中的几何模型能提供非正式的直觉和模式识别能力。整个系统将能在不需要,或者少量人类参与的情况下进行学习。


我认为可能会获得飞速发展的 AI 相关子领域是程序综合(program synthesis),特别是神经网络程序综合。程序综合在于通过使用搜索算法(可能是遗传搜索,如遗传编程)自动生成简单的程序来探索大量的可能的程序。当找到符合所需规格的程序时,搜索就会停止,通常作为一组输入 - 输出对进行提供。正如你所看到的,它是否高度让人联想到机器学习:给出作为输入 - 输出对提供的“训练数据”,我们找到一个将输入与输出进行匹配的“程序”,并将其推广到新的输入之中。不同之处在于,我们不用在硬编码程序(神经网络)中学习参数值,而是通过离散搜索过程生成源代码。


我肯定期望这个子领域在未来几年内会迎来新一波的热潮。


特别是,我期望在深度学习和程序综合之间出现一个交叉子域,在这里我们不是用通用语言生成通用程序,而是用丰富的算法基元,如for循环等等生成神经网络(几何数据处理流)。


这应该比直接生成源代码要容易得多,而且它会大大扩展机器学习可以解决的问题的范围 - 我们可以自动生成给定适当的培训数据的程序的空间——这是一种符号AI和几何AI的混合。当代RNN可以被看作是这种混合算法几何模型的史前祖先。





如果机器学习模型变得更像程序,那么它们将几乎不再是可微分的。当然,这些程序仍然会将连续的几何图层用作子程序,这些是可微分的,但是整个模型不会是这样。因此,在一个固定的、硬编码的网络中,使用反向传播来调整权重值,将不能成为未来训练模型的首选方法, 至少不全部使用这一方法。


我们需要找到如何能有效地训练不可微系统。目前的方法包括遗传算法,“进化策略”,某些强化学习方法和ADMM(乘法器的交替方向法)。自然地,梯度下降不会受影响 - 梯度信息对于优化可微分参数函数将永远是有用的。但是,比起仅仅使用可微分参数的函数,我们的模型肯定会变得越来越强大,因此它们的自动开发(“机器学习”中的“学习”)将不仅仅需要反向传播。


此外,反向传播是端到端的,这对于学习良好的链接变换是一件好事,但是,这种方法计算效率低下,因为它不能充分利用深层网络的模块化。为了使事情更有效率,有一个通用的配方:引入模块化和层次结构。因此,我们可以通过引入具有一些同步机制的解耦训练模块,以分级方式组织,从而使反向传播本身更有效率。 DeepMind最近在“合成梯度”方面的工作,反映了这一策略。我希望在不久的将来会有更多的这方面的工作。


人们可以想象这样一个未来:模型从全局上看是不可微分的(但是会对可微分的部分做特征处理),这些模型会在训练中得到成长,使用一个高效的搜索过程,而不用梯度。同时,可微分的部分将会通过利用梯度的优势,得以更快地训练,其方法是使用一些更有效率的反向传播方法。


自动化的机器学习


未来, 模型架构将会通过机器自身的学习来获得,而不是由工程师手写编码来设计。自动地学习架构将与更丰富的基元和类似程序的机器学习模型的使用共同发展。

目前,深度学习工程师的大部分工作就是用Python脚本清洗数据,然后对深层网络的体系结构和超参数进行长时间的调优,以获得一个可用的模型 ,甚至是获得最先进的模型,如果工程师野心足够大的话。毫无疑问,这不是一个最优的设置。AI 在这方面也可以提供帮助。不幸的是,数据清洗部分很难自动化,因为它通常需要专业领域知识,以及对工程师想要实现的工作有明确的高度的理解。然而,超参数调优是一个简单的搜索过程,我们已经知道工程师在这种情况下需要实现什么:它由被调整的网络中的损失函数进行定义。设置基本的“AutoML”系统,来处理大部分的模型旋钮已经是常见的做法。多年前,我甚至自己做了一个这样的系统,赢得了Kaggle的比赛。


在最基本的层次上,这样的系统将简单地调整堆栈中的层数、它们的顺序以及每一层中的单元或过滤器的数量。这通常是使用诸如Hyperopt一类的库,我们在第7章(注意:使用Python深度学习)中讨论过。但是我们也可以更有野心,尝试从头开始学习一个适当的架构,尽可能减少约束。这可以通过加强学习,例如遗传算法来实现。


另一个重要的AutoML方向是与模型权重一起学习模型架构。因为每次尝试一个稍微不同的架构时,都会从头开始训练一个新的模型,所以一个真正强大的AutoML系统将通过对训练数据的反馈来调整模型的特征,同时管理体系结构,以消除所有计算冗余。这些方法已经开始出现,因为我正在写类似的代码。


当这种情况开始发生时,机器学习工程师的工作不会消失,相反,工程师将在价值创造链上走高。他们将开始更多地努力制定真正反映业务目标的复杂损失函数,并深入了解他们的模型如何影响其部署的数字生态系统——目前,只有最大的公司才会考虑这些问题。


终身学习(AGI)和反复利用模块化子程序

 

如果模型变得更加复杂,并且建立在更加丰富的算法原语之上,那么这种增加的复杂性将需要在任务之间有更高的重用,而不是每当有一个新任务或一个新的数据集时都需要从头开始训练一个新的模型。实际上,很多数据集是没有包含足够的信息来从头开发新的复杂模型的,需要利用先前的数据集的信息。就像你每次打开一本新的书都不会从头开始学习英语——这是不可能的。此外,由于当前的任务与先前的任务之间有很大的重叠,每个新任务都要从头开始训练模型是非常低效的。

 

此外,近年来出现的一个值得注意的观察是,训练同一个模型去同时做多个有松散关联的任务,能产生一个在每项任务上都表现更好的模型。例如,训练同一个神经机器翻译模型去同时做英语-德语翻译和法语-意大利语翻译,将得到一个在每个语言对上都表现更好的模型。训练一个图像分类和图像分割的模型,两个任务共享同一个卷积base,得到一个在两个任务上都表现更好的模型。等等。这是非常直观的:在这些似乎没有关联的任务之间总是存在一些重叠的信息,因此,联合模型相比仅针对一个特定任务训练的模型能访问更多有关各个任务的信息。

 

我们目前跨任务做类似模型重用的方式是利用执行常见功能的模型的预训练权重,例如视觉特征提取。将来,我希望这一方法的通用性版本能够变得常用:我们不仅利用先前学习的特征(子模型权重),还利用模型架构和训练程序。随着模型变得越来越像程序,我们将开始重用程序子例程(program subroutines),例如人类编程语言中的函数(function)和类(class)。

  

想想今天的软件开发过程:一旦工程师解决了一个特定的问题(例如Python中的HTTP查询),他们就将它封装成一个抽象且可重用的库。后来面临类似问题的工程师可以简单地搜索现有的库,下载并在自己的项目中使用它们。以类似的方式,将来,元学习系统将能够通过筛选高级可重用block的全局库来组装一个新的程序。当系统发现自己为几个不同的任务开发类似的程序子例程时,如果出现一个“抽象的”可重用子例程版本,系统会将它存储在全局库中。这样的过程将实现抽象的能力,这是实现“极端泛化”( extreme generalization)的必要组件:一个被发现在不同任务和域中有用的子例程可以说是“抽象化”问题解决的一些方面。“抽象”( abstraction)的定义与软件工程中抽象的概念相似。这些子例程可以是几何的(具有预训练的表征的深度学习模块)或算法的(更接近当代软件工程师操作的库)。




图:一个能够使用可重用原语(包括算法的和几何的)快速开发任务特定模型的元学习器(meta-learner),从而实现“极端泛化”(extreme generalization)。


总结:长期的展望


作为总结:以下是我对机器学习的长期展望


  • 模型将更像程序并且具有远远超出我们目前使用的输入数据的连续几何变换的能力。这些程序可以说是更接近于人类对周围环境和自身的抽象思维模式,而且由于其丰富的算法性质,它们将具有更强的泛化能力。



  • 尤其,模型将被混合起来提供正式推理,搜索和抽象功能的算法模块,并提供具有非正式直觉和模式识别功能的几何模块。AlphaGo(一个需要大量人工软件工程和人类决策的系统)提供了一个早期的例子,展示象征和几何AI之间的混合的可能样子。


  • 它们将自动成长,而不是由人类工程师人工制作,使用存储在可重复使用子程序的全局库中的模块化组件——这是通过在数千个先前任务和数据集上学习高性能模型演变而来的库。由于常见的问题解决模式是通过元学习系统识别的,它们将变成可重用的子例程——非常像当代软件工程中的函数和类——并被添加到全局库中。这就实现了抽象的能力。


  • 这个全局库和相关的模型成长系统将能够实现某种形式的类似人类的“极端泛化”:给出新的任务,新的情况,该系统将能够组装一个适合新任务的新的有效模型,而且使用的数据非常少。这要归功于:1)丰富的类似程序的原始泛化得很好,2)丰富的类似任务的经验。同样的方式,人类可以学习使用非常少的时间学会玩一个很复杂的新视频游戏,因为他们有许多以前的游戏的经验,并且从以前的经验得出的模型是抽象的和程序化(program-like)的,而不是一个基本的刺激-行动之间的映射。


  • 因此,这种永久学习的模型成长系统可以被解释为AGI——通用人工智能。但不用期待什么奇点主义的机器人启示录将来临:那完全是幻想,来源与对智能和技术的长期误解。不过,本文不评论这一点。


ImageNet 迎来最后一届,中国团队表现出色

计算机视觉领域权威评测ImageNet大规模图像识别挑战赛(Large Scale Visual Recognition Challenge)自2010年开始举办以来,一直备受关注。2016年,在该比赛的图像目标检测任务中,国内队伍大放异彩,包揽该任务前五名,而在今年的 ILSVRC 2017,多个国内院校和企业在各个比赛项目上同样取得了非常不错的成绩。 

今年挑战赛共分为三大部分,包括:物体检测(识别)、物体定位、视频中目标物体检测。在昨天,大赛公布了算法排名结果,奇虎和南京信息工程大学团队分别在物体定位和物体检测项目上取得了最佳成绩。国内自动驾驶公司Momenta 研发团队(WMW)的孙刚和胡杰与来自牛津大学的申丽合作,提出SE架构,以2.3%的识别错误率荣获物体识别冠军。


奇虎360团队

奇虎360和新加坡国立大学组队,成立NUS-Qihoo_DPNs (DET)团队。

奇虎360成员: Jian Dong, 颜水成。

新加坡国立大学成员:Yunchao Wei, Mengdan Zhang, Jianan Li, Yunpeng Chen, Jiashi Feng。

他们在基于 Faster R-CNN 的目标检测任务中,采用了一个包含全新双路径拓扑的双路径网络(DPN/Dual Path Network)。DPN 中的特征共享机制和探索新特征的灵活性在目标检测中被证明有效。研究人员还采用了若干个 DPN 模型,即 DPN-92、DPN-107、DPN-131 等,作为 Faster R-CNN 框架中的中继特征学习器(trunk feature learner)和头分类器(head classifier)。他们只使用最多 131 层的网络,因为在大多数常用的 GPU 内,它易于训练和适应,且性能良好。对于区域提案生成,利用低级细粒度特征取得了有效的 proposals 召回。进而,通过在分割成检测框架中采用扩展卷积,他们合并了有益的语境信息。在测试期间,他们设计了一个类别加权策略,以探索不同类别的专家模型,并根据多任务推断把权重用到不同的专家。除此之外,他们在图像分类任务中采用了预训练的模型以提取整体语境信息,这可在整体输入图像中为探测结果的推理提供有益的线索。


南京信息工程大学团队

南京信息工程大学与帝国理工大学搭档,成立BDAT团队,在第一轮用提供的的训练数据进行物体检测,前三名都被BDAT团队拿下。

南京信息工程大学成员:Hui Shuai、Zhenbo Yu、Qingshan Liu、 Xiaotong Yuan、Kaihua Zhang、Yisheng Zhu、Guangcan Liu 和 Jing Yang

帝国理工学院成员:Yuxiang Zhou、Jiankang Deng

该团队表示他们在 LOC 任务中使用了适应性注意力机制和深度联合卷积模型 。Scale、context、采样和深度联合卷积网络在 DET 任务中得到了有效的使用。同时他们的得分排名也使用了物体概率估计。


自动驾驶技术Momenta团队

国内自动驾驶技术公司Momenta 研发团队的孙刚和胡杰与来自牛津大学的申丽合作,组成WMW团队。

WMW团队提出了一种新的机制称为Squeeze & Excitation(简称SE),以此来大幅提升模型的精度。它通过引入全局图像的信息自动对卷积特征重新分配权重,增强对分类有用的特征,而抑制无效或收益甚微的特征。在只引入极少的计算量和参数量的情况下,可以将现有的绝大多数CNN的性能进行大幅提升。团队成员之一孙刚表示,“这个框架下计算量与ResNet50 相当的网络可以达到ResNet101 的性能。

接下来是分别对所有参赛团队进行物体检测(识别)、物体定位、视频中目标物体检测技术的评测。


                                          
 物体检测(识别)

a:使用提供的训练数据进行目标检测表现

一,根据检测出的目标数量排序

二,根据检测的平均准确率排序

小结:在给定的训练数据,南京信息工程大学团队BDAT在两次排名中都名列第一。所以在物体检测上BDAT更胜一筹。

b:使用额外的训练数据进行目标检测(图一检测出的目标数量排序,图二检测的平均准确率排序)

图一

图二

小结:BDAT团队在额外的训练数据进行目标检测,依然是占据前两名。第三名是奇虎360团队,在目标检测任务中也表现良好。

物体定位

a: 使用提供的训练数据进行分类+定位:以定位错误率排序,错误率低的靠前

以分类错误率排名(错误率低的靠前)

奇虎360团队在定位错误率上排名第一,也就是说定位最准确,错误率仅为0.062263。这归结于360和新加坡国立大学共同提出了一个包含全新双路径拓扑的双路径网络(DPN/Dual Path Network)。第二名、第三名则是来自 Trimps-Soushen(公安部三所)。

而从分类误差率的排名来看,自动驾驶技术Momenta团队的分类错误率最低,他们WMW团队提出了一种新的机制称为Squeeze & Excitation(简称SE),大幅度提升了模型的精度。

b: 在接下来使用额外数据来进行分类和定位的任务中,奇虎360团队,两次排名的错误率都是最低,其次是南京信息工程大学团队BDAT。

视频目标检测

a: 使用提供的训练数据进行视频目标检测(分别根据检测出来的目标种类和平均精准度排名)


在这场测试中,只有奇虎360团队表现相对不错,而南京信息工程大学团队和Momenta团队都没有进入前五名,第一名是由来自帝国理工学院和悉尼大学所组成的 IC&USYD 团队获得。奇虎360团队在视频目标检测任务中表现优异是因为他们的模型主要是基于 Faster R-CNN 并使用双路径网络作为支柱,采用了三种 DPN 模型(即 DPN-96、DPN-107 和 DPN-131)和 Faster R-CNN 框架下的顶部分类器作为特征学习器。

b: 使用额外的训练数据进行视频目标检测

使用额外的训练数据进行视频目标检测和使用提供的训练数据检测,效果差不多,依然是帝国理工学院和悉尼大学团队IC&USYD取得的成绩最好,其次是奇虎360团队。

ILSVRC 2017是ImageNet 竞赛的最后一次,中国代表团体在最后的这场比赛中,依然赛出了自己的水平,没有留下遗憾。今后WebVision Challenge将会替代ILSVRC,虽然WebVision 中的数据比人工标记的ImageNet拥有更多的噪声,但他的数据更多是从网络中获取,因此成本也要低很多。另外从2016 年 ILSVRC 的图像识别错误率已经达到约 2.9%,远远超越人类的5.1%,这类竞赛已经完成了它的历史使命,失去了存在的意义。未来,计算机视觉的重点在图像理解。最后,让我们记住此次中国团队在比赛中取得的辉煌成绩吧!同时也期望在新的赛场依然能风采依旧!

这些机器人源于自然 始于智能

现在很多机器人的设计都是通过仿生学,向大自然寻找设计的灵感。模仿各种生物的外形和生活特性,设计出用于日常生活的机器人。看看他们的外形,你就知道大自然的鬼斧神工很美。

NO.1 Octobot软体机器人

从机器人设计开始就不乏来自于大自然的灵感,1739年法国艺术家Jacques de Vaucanson带来了Digesting Duck;20世纪中期,英国神经科学家William Grey Walter发明了乌龟机器人。今天,哈佛大学带来了全新软体机器人——Octobot,栩栩如生的外形会让我们产生错觉,还以为是一种新的物种。Octobot是通过3D打印技术完成的,是一个气动的机器人,通过交替释放气体,使章鱼机器人运动。

NO.2 Pleurobo娃娃鱼机器人

最近我们看到一款类似娃娃鱼的机器人,是由洛桑瑞士联邦理工学院研制的。这款名为Pleurobo的机器人可以模仿娃娃鱼的动作,并且可以在陆地和水上活动。这台机器人的骨骼也是通过3D打印而成的,同时还可以帮助科研人员了解脊椎动物的运动方式。此项技术在未来可以帮助截止患者恢复功能。

NO.3蜻蜓无人机机器人

无人机的应用领域很广泛,也是现在科学领域研究的重点。英国仿生工程创业公司Animal Dynamics就开发出了一款微型无人机,此款无人机带有机翼,可以模仿蜻蜓扑翼飞行。预计2018年底达到实用水平。这个蜻蜓无人机机器人可以在很恶劣的环境下使用,在未来也可以用于农业播种等领域。

NO.4 Cassie双足机器人

Cassie 是一台双足机器人,虽然没有上半身,但是仅凭双足也可以非常灵活的行动。此款机器人的设计灵感来源于动物的动作姿态,这样的机器人可以适应更复杂多样的地形。