• 项目
首页>>文章列表 >>文化教育
文章列表

arXiv 论文看深度学习 6 大趋势

你是否用过谷歌趋势(Google Trends)呢?它的功能很酷:只需要输入关键词,就可以看到该词的搜索量随时间变化的情况。


arXiv 的奇点

让我们先来看看提交到arxiv-sanity的所有分类(cs.AI, cs.LG, cs.CV, cs.CL, cs.NE, stat.ML)下的论文总数随时间变化的趋势,如下图所示:



没错,峰值位于2017年3月,这个月这些领域有近2000篇论文提交。这一峰值很可能是某些会议的截稿日期(例如NIPS/ICML)造成的。由于并不是所有人都会将他们的论文上传至arxiv,而且上传比例也在随时间变化而变化,所提交的论文数量并不能完全体现机器学习这一领域的研究规模。不过可以看到,有大量的论文为人所注意、浏览或者阅读。

接下来,我们用这一数字作为分母,看看多少文章包含我们感兴趣的关键词。



深度学习框架

首先,我们关心的是深度学习框架的使用情况。如果在文中任何地方有提到深度学习框架,包括参考书目,都会被记录在案。下图是在2017年3月提交的论文中提到深度学习框架的情况:


可见2017年3月提交的论文中有约10%提到了TensorFlow。当然不是每篇文章都会写出他们所用的框架,不过如果我们假定提及与否和框架类型无关(即说明框架的文章有相对确定的使用比例)的话,可以推断出该社区大约有40%的用户正在使用TensorFlow(如果算上带TensorFlow后端的Keras框架,数量会更多)。下图是一些常用框架随时间变化的趋势图:



我们可以看到,Theano在很长时间占据主流,后来不再流行;2014年Caffe的发展势头强劲,不过在最近几个月内被TensorFlow取代;Torch(和最近的PyTorch)同样在缓慢稳步发展。它们未来发展的状况会是怎样呢?这是一个有趣的话题,个人认为Caffe和Theano会继续下降,TensorFlow的发展速度则会因为PyTorch的竞争而放缓。


ConvNet 模型

常用的ConvNet模型的使用情况又是怎样呢?我们可以在下图看到,ResNets模型异军突起,该模型出现在去年3月发表的9%的论文中。


另外,我很好奇在InceptionNet出现之前有谁在讨论inception呢?


优化算法

优化算法方面,Adam一枝独秀,在所有论文中的出现率高达23%!其真正的使用率很难统计,估计会比23%更高,因为很多论文并没有写出他们所使用的优化算法,况且很多关于神经网络的研究并不使用任何此类算法。然而也有可能要下调5%,因为这个词也非常可能是指代作者的名字,而Adam优化算法在2014年12月才被提出。



研究者

我关注的另一指标是论文中提及深度学习领域的研究专家的次数(这与引用次数有些类似,但是前者能更好的用0/1指标表达,且能根据文章总数进行标准化):



需要注意的是:35%的文章提到了“bengio”,但是学界有两个叫Bengio的专家,分别是Samy Bengio和Yoshua Bengio,图中显示的是两者总和。特别地,Geoff Hinton在30%的最新论文中也被提到,这是一个很高的比例。


关键词研究

最后,本文没有针对关键词进行手动分类,而是关注了论文中最热门和最不热门的关键词 。

最热门关键词

定义最热关键词的方法有很多,本文使用的方法如下:对于在所有论文中出现的一元分词和二元分词,分别计算出去年和去年以前该词的使用次数,并用二者相除得到的比例做排名。排名靠前的关键词是那些一年前影响有限、但是最近一年出现频率极高的词汇,如下表所示(该表是删除重复词以后的结果):


举例来说,ResNet的比例是8.17,该词在一年之前(2016年3月)只在1.044%的论文中出现,但上个月8.53%的论文中都有这个关键词,所以我们有8.53 / 1.044 ~= 8.17的比例。


所以可以看到,在过去一年流行起来的核心技术有:1) ResNets, 2) GANs, 3) Adam, 4) 批规范化(BatchNorm)。


关于研究方向,最火的关键词分别是1)风格转换(Style Transfer), 2) 深度强化学习, 3) 神经网络机器翻译(“nmt”),或许还有 4)图像生成。


整体构架方面,最流行的是1) 全卷积网络(FCN), 2) LSTMs/GRUs, 3) Siamese网络, 和4) 编码-解码器网络。



最“过时”关键词

相反的,过去一年不再流行的关键词有哪些呢?如下表所示:


我并不确定“fractal”的含义,不过大体上看,贝叶斯非参数统计似乎不那么流行了。

「破译大脑识别人脸原理」人脸识别判断人贫富程度,准确率53%

细微的脸部线索也能让其他人根据第一印象来判断你是富有还是贫穷。

一项新的研究发现,平静的人脸部表情是一个可以用来判断人的经济状况的因素,并且可以影响人际关系和职场的成功。另一方面,研究者称,微笑和其他带情绪的表情,则不太会可能出卖你的社会阶层。研究者说,多年情绪和生活经历留下的痕迹都会刻在人的脸上,就好像一个面具。


多伦多大学文理学院的研究人员表示,这一现象可能会让人类受到“第一印象”的支配,而产生某些特定的偏见。

这可能会让长着“有钱人的脸”的人在找工作时比长着“穷人的脸”的人更容易被聘用”,研究人员说。

“这意味着,社会阶层会在你脸上留下细微的长久的印记。”博士生 Thora Bjornsdottir 说,“第一印象会变成一种自我实现的预期,将影响你的互动方式和你能拥有的机会。”

研究者表示,这一现象的发生和种族、性别无关,也和参与实验者花多长时间看照片无关。上图中的 C 和 D 是最“富”和“穷”的面孔的例子。

在研究中,研究者要求志愿者摆拍一些表现“无表情脸”(neutral face)的照片。

志愿者被分成两组,分别是家庭总收入在 6 万美元以下和 10 万美元以上,以 7.5 万美元作为平均基准。


另一组参与者被要求看这些照片,根据直觉判断出哪些人“富”,哪些人“穷”。

研究者发现参与者分类的准确率约在 53%。研究同时显示,这种能力仅适用于无表情,表情不能带有情绪色彩,比如微笑。作为结论,研究者认为,情绪能够掩盖人脸上因为生活经历而沉淀的表情。

这种沉淀早在青春期末或成年早期就发生了,研究者说。

「破译大脑识别人脸原理」人脸识别判断人贫富程度,准确率53%

特定情绪的“遗迹”,例如频繁的幸福感,可能和财富及对生活的满意度有关。

“随着时间的推移,你的面部会永远反映、透露出你的经历。”副教授 Nicholas Rule 说。“即使我们以为自己没有表现出什么,这些情绪的‘遗迹’也还是在那里。”

“我们看到,18-22 岁的学生已经积累了足够的生活经历,能够从视觉上改变、塑造他们的面孔,显示出其社会经济地位和社会阶层。”Rule 说。


研究者表示,这一现象的发生和种族、性别无关,也和参与实验者花多长时间看照片无关。

研究结果符合非言语行为的预期。

“在面部识别中,大脑中的一些神经元被专门化了。”Rule 说,“当你看一个人时,他的面孔是你注意到的第一件事。我们无时无刻不在注意面孔。在某种程度上,我们被设定为会去寻找‘类面孔的事物’的刺激(face-like stimuli)。人类总是能迅速注意到面孔。这种行为如此稳定,在统计上表现显著。”

研究者称,基于面孔线索的判断在社会阶层偏见固化和社会经济链条中扮演着重要角色。

“人类并没有真正意识到他们做出判断时依据了哪些线索。” Bjornsdottir 说,“如果你问他们为什么,他们说不出来。他们对自己如何做出判断并不自知。”


他们发现了什么

研究者发现,参与研究的受试者能够根据人脸对人的社会经济地位进行区分,准确率达到53%。他们称,这超过了随机的概率。

研究揭示,这一结论只限于平静的表情,不包含带情绪的表情,比如微笑。最后,他们认为这些情绪可以隐藏在一生的经历中变得根深蒂固的表情中。研究人员说,这可能早在十几岁或成年早期就可以发生。一些情绪的“遗物”,如频繁的快乐,往往与财富和满足感有关。

大脑如何识别人脸表情

布里斯托大学的研究人员进行了一次研究,他们让参与者从电影里毫无表情的脸部图像中判断两个角色的身份。

然后,参与者分为两组:有表情或者无表情。带表情的一组:提供带表情的陌生人脸部图像;不带表情的一组:提供不带表情的陌生人脸部图像。这一“训练”阶段允许被试者了解所提供的照片中的脸部特征,并认识这些陌生人的人脸。带表情一组的被试者的识别速度更慢,所犯的错误也更多。但是,当被试者识别脸部表情变化的相同人脸时,不带表情的一组的反应速度和准确率都会降低。

「破译大脑识别人脸原理」人脸识别判断人贫富程度,准确率53%

图1.图中是男演员斯特林·海登。Expressiveness rating 收集自 40 位候选人,从左至右是 42.5%、58.1%、54.4% 和 66.9%。这些图像没有用于研究,仅仅用于展示。

「破译大脑识别人脸原理」人脸识别判断人贫富程度,准确率53%

图2:左图是“中立面孔”的示例,右图是同一演员做出“生动表情”的图例。Expressiveness rating 从左到右(上至下)分别是17.5%、77.9%、14.4%、77.5%、29.4%、89.4%、48.1% 和 70%。


论文摘要

我们根据相同人脸的不同表情进行了识别实验。这种对社会交往及其关键的能力,是人脸感知中的一个基本特征。

在研究中,作者提出了一个问题:通过改变表情,人的大脑对人脸的识别能力是否也会相应地被改变? 反过来,这一实验也可以证明,人脸的识别和表情的识别在大脑中是分开进行处理的和是一起处理的。

通过一个识别任务,参与者要从电影中的毫无表情的脸部图像中判断两个角色的身份。

训练过程是给被试者提供带表情的或者不带表情的人脸照片。根据实验要求,相应的表情都是前期规定好的。被试组也分为带表情组和不带表情组。带表情的一组训练速度更慢,反应速度也更慢。当用相同角色的不同表情的新照片进行测试时,不带表情一组的反应速度和准确率都更低。这一发现清楚地表明,表情识别会影响人脸识别的进程。由于这种表情上的依赖性与人脸识别中的后期的分支模型相一致(在这种模型中,脸部要素的改变和识别都在相同的框架下进行编码),所以这表明,人的标签是人脸识别标志的一个重要部分。

2016年减少30万人!日本人口正以50年来最快速度递减

日本人口减幅再创纪录。

日本总务省5日发布的数据显示,截至今年1月1日,日本国内的日本人口总数约为1.2558亿人,2016年人口减少了308084人,保持了近8年以来持续下降的态势,减幅创1968年开始统计以来新高。


图:浅蓝色线条为日本人口净增长数量


低生育率、老龄化是导致日本人口数量减少的主要原因。

自1979年调查开始以来,日本全年出生人数首次下降到100万以下,2016年出生婴儿981202人,而死亡人数达到130万人。数据显示,日本65岁以上人口占全国人口比例达到27.17%,14岁及以下的人口比例下降到12.69%。

随着二战后“婴儿潮”一代人口逐渐老去,而出生率持续偏低,预计日本人口数量将加速减少。华尔街见闻此前提到,日本研究机构的人口预测显示,日本总人口将在2053年锐减至不足1亿。


此外,值得关注的是,日本人口继续向大城市迁移。2016年,首都东京的人口增加11.5万至1350万,同比增长0.9%,已是连续第21年增长。神奈川县,埼玉县,千叶县,爱知县,冲绳县人口也有增长。

但除了上述6个城市之外,其他地区的人口数量都在下降,尤其是农村地区的人口下降加快,青森,秋田,高知县的人口数量去年下降了1%以上。


怎样延缓人口缩减?

日本怎样才能延缓人口缩减?早稻田大学教授Masakazu Yamauchi表示:

最新数据显示,日本人口下降的趋势还在持续,没有什么大的惊喜。为了给下一代创造和维系一个美好的社会,我们要改善就业情况、加大对儿童抚养的支持。

去年,日本内阁批准了2017财年高达8300亿美元的支出预算,其中包括对抚养儿童支持。

另一个“延缓”人口缩减的方法是吸引外来人口。去年日本新增外来人口13.6万人,同比激增40%,为连续第四年正增长并创下1950年有纪录以来的新高。劳动力短缺的状况下,进入日本的学生和外籍劳工数量不断增加。

日经新闻报道称,安倍政府已允许更多的非技术岗位短时间引进海外劳工,来帮助招不到人的企业。日经称,停留日本超过三个月的外国人约为240万,在过去五年中增加了50万人。

劳动适龄人口的下降,企业越来越愿意招聘外部劳工。日本厚生劳动省根据企业申报的海外就业数据统计,截至2016年10月底,海外劳工人数同比增长20%,至108万人次,首次超过100万人。新增外来人口来自多个国家,增速领先的有中国、越南和尼泊尔。

【AI TOP 10】全球少壮派白手起家富豪榜

中科院自动化所提出不规则卷积神经网络:可动态提升内核效率

近日,自动化所马佳彬、王威、王亮等研究人员在arxiv上预发表了一项研究,提出了一种新形式的卷积神经网络——不规则卷积神经网络,这种新的方法能够解决常规卷积效率低下的问题。


伯克利:最酷的跳跃机器人

这一研究成果发布在 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)。

Salto-1P使用小型电动机和联动和齿轮系统跳跃。因为花费与地面接触的时间很少,所以机器人需要在空中进行大部分的控制。为了做到这一点,它使用旋转的惯性尾巴和两个小推进器来稳定和重新定位自身之间的跳跃。


全球少壮派白手起家富豪榜扎克伯格居首 汪滔中国第一

据胡润研究院,2017年全球共找到47位年龄在40岁及以下、白手起家且拥有十亿美金身价的富豪,比去年多8位。前十名大部分由Facebook、Uber、Snapchat和AirBnb四家公司贡献。榜单上有18位中国富豪,大疆汪滔为中国第一。


亚马逊Alexa技能突破15000,Echo市场份额超70%


根据第三方分析机构Voicebot的报告,亚马逊人工智能助理Alexa的技能(skill)已经突破15000种,远超其竞争对手Google Assistant和微软的Cortana。这些技能在亚马逊的 Echo speaker, Echo Dot, Echo Show等设备上运行。这个数字在今年2月23日才刚突破10000种,而在1月CES时只有7000种,也就是说,半年的时间里Alexa的技能数量翻了一番。

亚马逊目前是智能语音设备领先者,根据eMarketer今年5月的研究报告,今年亚马逊Echo在美国的市场份额将达到70.6%,遥遥领先Google Home(23.8%)和其他小玩家(5.6%)。







经济学人:算法突破疆界,金融业的AI新应用

作为人工智能的一个子集,机器学习擅长发现规律并作出预判,已经被金融业广泛应用于合规、风险管理和预防欺诈等工作。创新的金融科技公司和一些灵敏的传统金融企业开始将这一技术应用到方方面面,其中的最新应用领域是交易。


微软开源嵌入式机器学习库ELL:把人工智能扩展到边缘设备

今年微软首席执行官萨提亚∙纳德拉提出“我们正在从目前‘移动优先、云优先’的世界转移到由智能云和智能边缘组成的新世界中”,边缘计算正变得越来越重要。来自美国雷德蒙和印度班加罗尔的研究团队开源了一套嵌入式学习库ELL,帮助开发者把深度神经网络部署到边缘设备上。


将机器学习推广到边缘设备,可减少带宽限制,并消除对网络延迟(即数据传输到云端进行处理并将结果返回设备所需的时间)的担忧。Varma指出,利用设备自身进行机器学习,也可以降低因不断与云端沟通数据而带来的电池消耗;而且将个人及其他敏感信息保留在本地,也有助于保护隐私。


三星正在开发类Echo智能音箱

知情人士称,三星电子正在研发一种类似亚马逊Echo的声控音箱,通过数字助手Bixby操控;三星电子由此加入了桌面设备的大规模军备竞赛。上述人士称,该音箱的推出时间远未确定,但这个在内部名为“Vega”的项目已经进行了超过一年的时间。Bixby英语版的推出已经延迟,知情人士称,现在三星电子内部认为,英文版Bixby的语音功能不太可能在7月中之前完成。盖乐世S8是三星电子首款搭载Bixby的设备。




这款VR恋爱设备能让你感受到“三次元”女神的温暖呼吸

在为期3天的东京VR与AR展上,日本公司FutureLeap展示了这项利用VR的“高科技恋爱装置”。据称,这一套VR系统真实到能让宅男们感受镜头对面妹子的呼吸,还能体会妹子在他们耳边说悄悄话的温暖。



人工智能将重构几乎所有行业

人工智能发端于上世纪五十年代,经历了几次繁荣与低谷,到2016年谷歌所收购的DeepMind公司的人工智能AlphaGo赢得与世界围棋冠军的比赛,大众对人工智能的热情被重新点燃,并且持续升温。催生这波人工智能热潮的原因是产业发展的三个重要因素:超大规模的计算能力、大数据、机器学习尤其是深度学习算法都取得了进展。


人工智能正在并且将对商业社会产生怎样的影响?我特别访问了对现代人工智能产生深远影响的科学家于尔根•施米德胡贝教授(JürgenSchmidhuber)。施米德胡贝教授实验室在20世纪90年代初提出的一种叫“长短时记忆”的深度学习算法(LSTM,LongShort-TermMemory)极大影响了深度学习和人工智能的发展。DeepMind公司的联合创始人之一也是他的学生。2014年,施米德胡贝教授创立了研究人工智能的NNAISENSE公司(与DeepMind类似,方向都是通用人工智能)。所谓通用人工智能,是人工智能的终极发展目标。相对于弱人工智能(仅能解决某一方面专业问题的人工智能)而言的,通用人工智能通常指能够解决不同领域中各类问题的人工智能,并可以像人类那样学习、决策和反思。


深度学习算法的应用

施米德胡贝教授很高兴的看到,目前数十亿的用户都在使用基于LSTM算法的应用。目前市值最大的几家上市公司:苹果、谷歌、微软和亚马逊都在大量的使用这种深度学习算法为用户提供各种服务。例如,自2015年以来,LSTM算法减少了49%的语音识别错误,极大改善Google语音识别功能,目前有超过20亿部Android手机正在使用这项功能。同时LSTM算法也显著改善了谷歌翻译的效果。苹果公司的Iphone、亚马逊的语音服务平台Alexa、百度和微软也在使用LSTM算法。此外,深度学习技术在其他领域也有广泛的应用,比如LSTM还可用于识别视频和手写输入、控制机器人、分析图像、总结文档、运行聊天机器人和智能个人助理系统,预测疾病、用户点击率、股票市场和大型工厂中组件故障。人工智能将在医疗保健、工业、金融、法律等行业衍生出无数的应用。


哪些行业正在或即将被人工智能改变


人工智能

人工智能发展面临的法律挑战

王新锐:监管部门和司法机关对透明性和举证责任的要求,与机器学习结果的不确定性和算法保密要求之间,存在着一种结构性的紧张关系。

长远的看,施米德胡贝教授认为人工智能将重构几乎所有的行业。

而就目前所知,人工智能已经在医疗保健、金融、传统行业的不同领域有所应用。其中广告可能是受影响最大的行业,已经受到通过谷歌、百度、亚马逊、阿里巴巴、facebook和腾讯用户数据模式识别的巨大冲击。

医疗保健行业也是目前受到深度学习算法影响的行业之一。据世界银行数据,全球医疗保健开销占全世界GDP的10%,而其中至少10%也就是大概千亿美元用于医疗诊断,如癌症检测、动脉斑块检测和X光片检查等。庞大的市场吸引了很多创业公司以及IBM、谷歌等大公司尝试通过人工智能改善医疗诊断。通过人工智能辅助医疗诊断不仅可以节省数十亿美元,而且可能帮助许多目前无力负担专家诊断的病人。由于人工智能的应用,人们将会活得更长久、更健康。


2012年,施米德胡贝教授的团队采用深度学习算法赢得了乳腺癌识别检测的比赛。这是深度学习第一次赢得医学影像竞赛,通过这种方式检测癌症。通过快速神经图像扫描的方法比以前的方法快了1000多倍。2012年,相同能力的计算机比现在贵10倍,也就是说,今天,人们可以用同样的成本计算10倍的神经网络和数据。由于每隔五年计算成本就会减少90%,自上世纪30年代第一台计算机问世以来,基于这个规律,75年后的今天,同样价格的硬件比当年的计算能力高出百万亿倍。按照这个规律,不远的未来会出现与人脑计算能力相当并且在经济上可负担的设备。因此,施米德胡贝教授判断未来通过神经网络进行的医疗诊断将远远超越人类。

NNAISENSE是施米德胡贝教授在德国和瑞士的学术实验室的一个成果,这个名字的含义为:基于神经网络的通用人工智能(NNAI)的诞生。这个公司的5位共同创始人相信,目前基于LSTM算法的商业成功只是开始,通过元学习、人工好奇心与创造力、优化搜索程序和大型的强化学习神经网络的新变体,这样一个通用人工智能将会影响到每一个企业,最终超越人类。


目前这个公司的商业模式是:和不同的行业合作伙伴合作,为他们设计解决方案,在这个过程中,NNAISENSE基于神经网络的人工智能学到新的技能,从而逐渐成为更加通用的问题解决者。最终使命是创造一个能够持续在旧技能基础上学习的新技能的通用人工智能,最终学会更快的学习新技能。其中一些解决问题的技能是被AI自己通过人工好奇心发明出来的(施米德胡贝教授曾在1991年提出关于人工智能好奇心与创造力的理论)。

NNAISENSE公司与世界最大的钢铁制造商安赛乐米塔尔(ArcelorMittal)合作,采用深度学习算法提高了钢材缺陷的检测效果。通过神经网络学习的方式分析相机拍摄的钢产品的照片,比传统的方法更准确和高效的评估钢材质量。人工智能这种模式识别的能力还可以应用到上千个产业中。


Quantenstein是NNAISENSE与德国基金公司Acatis的合资公司。Quantenstein使用机器学习来选择股票和管理投资组合。Quantenstein新基金的目标是,在一定程度的波动下,取得高于MSCI世界指数3%的收益率。在从2006年1月开始的测试,Quantenstein获得了高于MSCI世界指数5%的、年化12%的收益。Quantenstein与市场上其他基金的主要区别是:整个系统由人工智能端到端驱动,没有人的参与,人工智能得到公司的基本数据以后,系统会给出投资组合及权重,并且系统会定期调整投资组合。传统的长期价值投资系统,通常能够进行价值投资的第一阶段:选股。第二个阶段还是需要用马科维茨或者其他方法来确定投资组合中不同的权重。而Quantenstein的投资系统已经通过机器学习学会了第二阶段,实现给定风险目标前提下的收益最大化。除了在智能投顾领域,人工智能在金融产品营销以及金融安全保障领域都有应用。

NNAISENSE最近还与大众奥迪合作,制造了一款能够自动停车的小型车。与其他自主驾驶汽车依赖激光、雷达等传感器根据预定参数寻找方向所不同的是,该系统使用摄像机来学习如何自行驾驶。

在实现通用人工智能这一目标的过程中,NNAISENSE与各行业合作研究不同的问题,以测试在建系统的不同方面,并且为正在进行的研究计划提供必要的洞察。尽管金融行业和汽车行业面临不同的挑战,但是,在这些看似不同的领域中,也存在一些共同的基本原则,两者都需要通过基于高维度的数据来学习预测,并且学习根据这些预测去做出正确决策。


人工智能并不是一个独立的技术,而是结合各个行业的大数据应用到各个具体任务中的一系列技术。短期内,施米德胡贝教授很难确切的预知哪一个行业在接下来会经历类似广告行业的变化,也因为在很多领域例如保险、自动驾驶和医疗保健以及其他行业中还存在各种法律和道德方面的障碍。

施米德胡贝教授认为B2B是比较适合现阶段商业人工智能发展的模式。随着最终目标的实现,AI可能会越来越多的B2C,但是目前阶段为了更好的发展,B2B提供了最大的机会,因为某些大型公司拥有有趣的专业方面的大数据和富有挑战性的课题,有助于令人信服地验证AI的进展。


人工智能与机器人结合的未来

现阶段孩子甚至某些小动物比最好的自学机器人还要聪明。但是施米德胡贝教授认为,不久之后,人类将能够制造出基于神经网络的AI机器人,通过逐渐学习,至少会像小动物一样聪明,好奇并富有创造性地不断地学习、计划和推理,并将各种各样的问题分解成快速可解决(或已经解决)的子问题。

一旦动物级的人工智能可实现,距离实现人类AI的进程将进一步缩短:发展智力需要数十亿年的时间,但相对的,只要数百万年便发展出人类。技术演进比生物进化快得多,因为遭遇死胡同的速度要快得多。也就是说,一旦我们有动物级的AI,几年或几十年后,我们可能会有人类级别的AI,届时每个企业都会改变,所有的文明都会改变,一切都会改变。


欧洲学术实验室在人工智能研发方面仍具优势

谈到十年内将出现什么样的突破性技术,施米德胡贝教授认为突破性技术具有不可预测性,目前看来,关于人工智能和神经网络研究的大多数基本突破都是发生于上世纪规模不大的欧洲实验室,而非公司,在未来,欧洲的小型学术实验室依然具有科研上的优势。但他同时认为,美国和中国的互联网巨头在技术的市场化方面取得了巨大成功,最终使得相关技术被数十亿用户使用。


AI在中国的优势

施米德胡贝教授看到中国相关产业正在迅速发展。中国既有人工智能和深度学习方面的优秀人才,也有相应的投资,因此在进一步发展人工智能方面中国将发挥非常重要的作用。与此同时,对于近两年高速发展的人工智能行业,他并不认为行业存在泡沫,相反的,在他看来人工智能行业刚刚开始。

每天在Github上默默贡献的都是什么人

概述

GitHub与来自学术界,工业界和开源社区的研究人员合作,设计了这个调查,收集了关于开源软件开发实践和社区的高质量、最新数据。

数据来源于GitHub.com上超过3800个开放源代码存储库的5500名随机抽样调查对象的回答,以及500多个来自其他平台的非随机抽样调查的回答。

调查的结果是一个有关使用、建立和维护开源软件的用户的态度、经验和背景的开放数据集。


深入了解

本年度的调查包含50多个问题,涵盖了广泛的话题。以下,我们摘取了有关社区的可执行度最高,也最重要的一些见解。

下文的数据仅包含来自GitHub.com上的开源存储库的随机样本。百分比是四舍五入的,可能总和不是100。

  • 文档很重要,但经常被忽视,也是建立包容、易于使用的社区的一种手段。

  • 负面的互动不常见,但很突兀,对项目的活动有影响。

  • 开源代码是全世界可使用的,但相比受众群体的广泛程度,其贡献者相对不那么广泛。

  • 开源的使用和贡献通常是在工作中发生。

  • 选择软件时,默认选开源软件。


文档很重要,但经常被忽视

文档有助于指导新用户:如何使用项目,如何贡献,使用和贡献的条款,以及社区的行为标准等。改进文档是回馈开源的一个很好的方式。

  • 93%的受访者表示,不完整或过时的文档是一个普遍存在的问题,但60%的贡献者表示很少或从未对文档做出贡献。当你遇到文档问题时,请发起一个 pull quest 来帮助改进文档。

  • 许多人在工作中参与开源,因此对使用条款的信赖至关重要。毫不奇怪,到目前为止许可证书对用户和贡献者来说都是最重要的文档类型:64%的用户认为开源许可对他们决定是否使用该项目非常重要,67%的用户认为在决定是否提供贡献方面非常重要。

  • 文档对创建包容性的社区有帮助。明确说明一个项目的进度的文档,例如贡献指南和行为准则,对在开源中参与不足的群体(例如女性群体)更加重要。

  • 近四分之一的开放社区用户在英语的读写方面不是畅通无阻的。因此在针对项目进行沟通时,请对非英语母语者或读写障碍者使用清晰易懂的语言。

2017开源大调查:每天在Github上默默贡献的都是什么人

图1:使用开源时遇到的问题


负面的互动不常见,但很突兀,对项目的活动有影响

因此,负面影响的可能远不止直接参与的个人。对用户行为提出积极的建议,并迅速解决负面事件,可以增加贡献者的参与和协作。

  • 18%的受访者亲自与其他开源使用者产生过负面的互动,但有50%的受访者亲眼目睹过其他人的冲突。从这些数据我们无法得知,这两个数字的差距是否是因为经历过这种冲突的用户离开了开源社区,或只是因为冲突广泛存在,因此目睹者多。无论哪种,都是受负面互动影响者比直接参与冲突者多,所以快速、礼貌并且公开地解决这类问题,也是在向潜在的目睹者发送了一个信号,即这种行为不是普遍的,而且是不能容忍的。

  • 到目前为止,最常见的不良行为是粗鲁言语的(45%目睹过,16%经历过),其次是辱骂(20%目睹过,5%经历过)和成见(11%目睹过,3%经历过)。不到5%的受访者遇到更严重的负面事件,例如性骚扰或跟踪,经历者不到2%(但累计目睹者为14%,经历过的3%)。

  • 负面经历对项目健康发展有严重的后果。21%的经历过或目睹过负面行为的受访者表示,由于这种情况,他们停止了对项目的贡献,8%的人变得更喜欢在私人渠道贡献。

  • 提供能让人直接解决问题的工具是解决骚扰问题的最有效方法。屏蔽一个用户相比求助第三方来强制处理更有效。要提供给用户能够保护自己的工具。

2017开源大调查:每天在Github上默默贡献的都是什么人

图2:在开源中遇到的负面行为


相比使用者之广泛程度,开源的贡献者相对不那么广泛

开源为全球用户提供了技术基础。在某些方面,用户群体的多样性甚至超过开源贡献者,但在其他方面,代表性仍存在巨大差距。

提高项目的可访问性能够吸引更多的贡献,确保该项技术提供一整套使用示例和需求,并有助于更好地代表技术工作。

  • 开源的性别不平衡仍然很深刻:95%的受访者是男性;只有3%是女性,1%是非二元性别。女性受访者与男性表示对在将来贡献开源的兴趣相当(68%vs 73%),但女性更少表示能够实际做到(45%vs 61%)。

  • 其他方面则更具代表性:受访者中1%的受访者为跨性别者(其中9%是女性),7%是女同性恋,男同性恋,双性恋者,无性恋者或其他少数性取向者。26%是移民,16%是少数民族者。

  • 女性比男性更容易遭遇不友好的语言或内容(25%vs 15%),成见(12%vs 2%)和性骚扰(6%vs 3%)。不意外的是,女性比男性更可能直接寻求帮助(29%vs 13%),寻求帮助的对象更多是他们熟悉的人,而非在公共论坛或渠道寻求陌生人的帮助(22%vs 6%)。尽管陌生人之间的合作是开源最具魅力的方面之一:努力建立一个所有人都感到自己的参与是受欢迎的的社区。

  • 一半的贡献者表示,他们的开源工作在他们当前的职业方面有一些作用,或非常重要。开源工作有助于人们建立自己的专业信誉。

2017开源大调查:每天在Github上默默贡献的都是什么人

图3:对项目来说重要的方面


开源的使用和贡献通常是在工作中发生

开源广泛发生于专业领域。大多数受访者在工作中使用和贡献开源,许多人表示他们的开源工作对于获得当前的工作有重要作用。

不过,多数受访者表示,雇主的官方政策和IP协议对于什么内容,在什么条件下是允许的并不明确。企业通过对员工的开源工作提供补贴,这对开源社区有关键作用,因此制定和传达明确的政策可以鼓励员工更频繁,定期的贡献。

  • 70%的受访者是全职或兼职工作者,其中85%的受访者经常或偶尔在他们的主要工作中以某种方式贡献开源(例如开发者,设计师,以及软件行业的其他角色)。

  • 几乎所有(94%)的有工作者至少是偶尔在他们的专业工作中使用开源(81%经常使用),65%将贡献开源作为工作职责的一部分。

  • 多数受访者表示,他们的雇主接受或鼓励使用开源应用程序(82%)和依赖代码库(84%),但有些受访者表示,雇主对使用开源的政策不明确(应用程序:13%,依赖代码库: 11%)。

  • 近一半受访者表示他们的雇主知识产权政策允许他们在未经允许的情况下(47%)为开源做贡献,另外12%的受访者可以获得许可来贡献开源。但是,28%的受访者表示知识产权政策不明确,另有9%的人不了解知识产权协议对贡献开源的要求。

2017开源大调查:每天在Github上默默贡献的都是什么人

图4:与开源相关的雇主政策


选择软件时,默认选开源软件

选择新软件时对安全性的要求较高,大多数用户认为开源软件普遍比专有软件更安全。在稳定性或用户体验方面,开源软件较弱。即使如此,大多数用户都喜欢开源,并总是寻找开源的选择。

开源的相对优势在于安全性:使用任何类型的软件,安全性是最重要的考虑(86%非常重要或相当重要)。安全性是我们调查的唯一维度,大多数用户认为开源软件通常比专有软件更安全(58%)。

用户还关心的是稳定性和用户体验(88%非常重要,75%相当重要),但在这些维度上,较少的人认为开源有优势:只有36%的用户认为体验更好,但30%认为开源软件通常比专有选项更稳定。

尽管有这些权衡,用户仍然喜欢开源。72%的受访者表示,他们在评估新工具时总是会寻找有开源的选择。

2017开源大调查:每天在Github上默默贡献的都是什么人

图5:用户在意开源软件的什么特征


数据

在今天的数字世界中,开源软件几乎为现代社会和经济的全部赋能。了解构建,维护和使用这些开源项目的人员对于关心开源的可持续发展的任何人,以及依赖于这些项目的关键服务和技术网络都是至关重要的。


全球100款大数据工具汇总(上)

1、 Talend Open Studio


是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次,其开源软件提供了数据整合功能。其用户包括美国国际集团(AIG)、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组织。


2、DYSON


探码科技自主研发的DYSON智能分析系统,可以完整的实现大数据的采集、分析、处理。DYSON智能分析系统专业针对互联网数据抓取、处理、分析,挖掘。可以灵活迅速地抓取网页上散乱分布的信息,并通过强大的处理功能,准确挖掘出所需数据,是目前使用人数最多的网页采集工具.


3、YARN


一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,解决了旧MapReduce框架的性能瓶颈。它的基本思想是把资源管理和作业调度/监控的功能分割到单独的守护进程。


4、Mesos


由加州大学伯克利分校的AMPLab首先开发的一款开源群集管理软件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等架构。对数据中心而言它就像一个单一的资源池,从物理或虚拟机器中抽离了CPU,内存,存储以及其它计算资源, 很容易建立和有效运行具备容错性和弹性的分布式系统。


5、Datale


由探码科技研发的一款基于Hadoop的大数据平台开发套件,RAI大数据应用平台架构。


6、 Ambari


作为Hadoop生态系统的一部分,提供了基于Web的直观界面,可用于配置、管理和监控Hadoop集群。目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。


7、ZooKeeper


一个分布式的应用程序协调服务,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的工具,让Hadoop集群里面的节点可以彼此协调。ZooKeeper现在已经成为了 Apache的顶级项目,为分布式系统提供了高效可靠且易于使用的协同服务。


8、Thrift


在2007年facebook提交Apache基金会将Thrift作为一个开源项目,对于当时的facebook来说创造thrift是为了解决facebook系统中各系统间大数据量的传输通信以及系统之间语言环境不同需要跨平台的特性。


9、Chukwa


监测大型分布式系统的一个开源数据采集系统,建立在HDFS/MapReduce框架之上并继承了Hadoop的可伸缩性和可靠性,可以收集来自大型分布式系统的数据,用于监控。它还包括灵活而强大的显示工具用于监控、分析结果。


10、Lustre


一个大规模的、安全可靠的、具备高可用性的集群文件系统,它是由SUN公司开发和维护的。该项目主要的目的就是开发下一代的集群文件系统,目前可以支持超过10000个节点,数以PB的数据存储量。


11、HDFS


Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。


12、GlusterFS


一个集群的文件系统,支持PB级的数据量。GlusterFS 通过RDMA和TCP/IP方式将分布到不同服务器上的存储空间汇集成一个大的网络化并行文件系统。


13、Alluxio


前身是Tachyon,是以内存为中心的分布式文件系统,拥有高性能和容错能力,能够为集群框架(如Spark、MapReduce)提供可靠的内存级速度的文件共享服务。


14、Ceph


新一代开源分布式文件系统,主要目标是设计成基于POSIX的没有单点故障的分布式文件系统,提高数据的容错性并实现无缝的复制。


15、PVFS


一个高性能、开源的并行文件系统,主要用于并行计算环境中的应用。PVFS特别为超大数量的客户端和服务器端所设计,它的模块化设计结构可轻松的添加新的硬件和算法支持。


16、QFS


Quantcast File System (QFS) 是一个高性能、容错好、分布式的文件系统,用于开发支持 MapReduce处理或者需要顺序读写大文件的应用。


17、 Logstash


一个应用程序日志、事件的传输、处理、管理和搜索的平台。可以用它来统一对应用程序日志进行收集管理,提供了Web接口用于查询和统计。


18、Scribe


Scribe是Facebook开源的日志收集系统,它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理。


19、Flume


Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方,用于收集数据。同时,Flume支持对数据进行简单处理,并写入各种数据接受方(可定制)。


20、RabbitMQ


一个受欢迎的消息代理系统,通常用于应用程序之间或者程序的不同组件之间通过消息来进行集成。RabbitMQ提供可靠的应用消息发送、易于使用、支持所有主流操作系统、支持大量开发者平台。


21、ActiveMQ


Apache出品,号称“最流行的,最强大”的开源消息集成模式服务器。ActiveMQ特点是速度快,支持多种跨语言的客户端和协议,其企业集成模式和许多先进的功能易于使用,是一个完全支持JMS1.1和J2EE 1.4规范的JMS Provider实现。


22、Kafka


一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模网站中的所有动作流数据,目前已成为大数据系统在异步和分布式消息之间的最佳选择。


23、Spark


一个高速、通用大数据计算处理引擎。拥有Hadoop MapReduce所具有的优点,但不同的是Job的中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。它可以与Hadoop和Apache Mesos一起使用,也可以独立使用。


24、Kinesis


可以构建用于处理或分析流数据的自定义应用程序,来满足特定需求。Amazon Kinesis Streams 每小时可从数十万种来源中连续捕获和存储数TB数据,如网站点击流、财务交易、社交媒体源、IT日志和定位追踪事件。


25、 Hadoop


一个开源框架,适合运行在通用硬件,支持用简单程序模型分布式处理跨集群大数据集,支持从单一服务器到上千服务器的水平scale up。Apache的Hadoop项目已几乎与大数据划上了等号,它不断壮大起来,已成为一个完整的生态系统,拥有众多开源工具面向高度扩展的分布式计算。高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。


26、Spark Streaming


实现微批处理,目标是很方便的建立可扩展、容错的流应用,支持Java、Scala和Python,和Spark无缝集成。Spark Streaming可以读取数据HDFS,Flume,Kafka,Twitter和ZeroMQ,也可以读取自定义数据。


27、Trident


是对Storm的更高一层的抽象,除了提供一套简单易用的流数据处理API之外,它以batch(一组tuples)为单位进行处理,这样一来,可以使得一些处理更简单和高效。


28、Flink


于今年跻身Apache顶级开源项目,与HDFS完全兼容。Flink提供了基于Java和Scala的API,是一个高效、分布式的通用大数据分析引擎。更主要的是,Flink支持增量迭代计算,使得系统可以快速地处理数据密集型、迭代的任务。


29、Samza


出自于LinkedIn,构建在Kafka之上的分布式流计算框架,是Apache顶级开源项目。可直接利用Kafka和Hadoop YARN提供容错、进程隔离以及安全、资源管理。


30、Storm


Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架。编程模型简单,显著地降低了实时处理的难度,也是当下最人气的流计算框架之一。与其他计算框架相比,Storm最大的优点是毫秒级低延时。


31、Yahoo S4 (Simple Scalable Streaming System)


是一个分布式流计算平台,具备通用、分布式、可扩展的、容错、可插拔等特点,程序员可以很容易地开发处理连续无边界数据流(continuous unbounded streams of data)的应用。它的目标是填补复杂专有系统和面向批处理开源产品之间的空白,并提供高性能计算平台来解决并发处理系统的复杂度。


32、HaLoop


是一个Hadoop MapReduce框架的修改版本,其目标是为了高效支持 迭代,递归数据 分析任务,如PageRank,HITs,K-means,sssp等。


33、Presto


是一个开源的分布式SQL查询引擎,适用于交互式分析查询,可对250PB以上的数据进行快速地交互式分析。Presto的设计和编写是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。Facebook称Presto的性能比诸如Hive和MapReduce要好上10倍有多。


34、 Drill


于2012年8月份由Apache推出,让用户可以使用基于SQL的查询,查询Hadoop、NoSQL数据库和云存储服务。它能够运行在上千个节点的服务器集群上,且能在几秒内处理PB级或者万亿条的数据记录。它可用于数据挖掘和即席查询,支持一系列广泛的数据库,包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亚马逊S3、Azure Blob Storage、谷歌云存储和Swift。


35、Phoenix


是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写,并且提供了一个客户端可嵌入的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。


36、Pig


是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、转换数据以及存储最终结果。Pig最大的作用就是为MapReduce框架实现了一套shell脚本 ,类似我们通常熟悉的SQL语句。


37、Hive


是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。


38、SparkSQL


前身是Shark,SparkSQL抛弃原有Shark的代码并汲取了一些优点,如内存列存储(In-Memory Columnar Storage)、Hive兼容性等。由于摆脱了对Hive的依赖性,SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便。


39、Stinger


原来叫Tez,是下一代Hive,由Hortonworks主导开发,运行在YARN上的DAG计算框架。某些测试下,Stinger能提升10倍左右的性能,同时会让Hive支持更多的SQL。


40、Tajo


目的是在HDFS之上构建一个可靠的、支持关系型数据的分布式数据仓库系统,它的重点是提供低延迟、可扩展的ad-hoc查询和在线数据聚集,以及为更传统的ETL提供工具。


41、Impala


Cloudera 声称,基于SQL的Impala数据库是“面向Apache Hadoop的领先的开源分析数据库”。它可以作为一款独立产品来下载,又是Cloudera的商业大数据产品的一部分。Cloudera Impala 可以直接为存储在HDFS或HBase中的Hadoop数据提供快速、交互式的SQL查询。


42、 Elasticsearch


是一个基于Lucene的搜索服务器。它提供了一个分布式、支持多用户的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索、稳定、可靠、快速、安装使用方便。


43、Solr


基于Apache Lucene,是一种高度可靠、高度扩展的企业搜索平台。知名用户包括eHarmony、西尔斯、StubHub、Zappos、百思买、AT&T、Instagram、Netflix、彭博社和Travelocity。


44、Shark


即Hive on Spark,本质上是通过Hive的HQL解析,把HQL翻译成Spark上的RDD操作,然后通过Hive的metadata获取数据库里的表信息,实际HDFS上的数据和文件,会由Shark获取并放到Spark上运算。Shark的特点就是快,完全兼容Hive,且可以在shell模式下使用rdd2sql()这样的API,把HQL得到的结果集,继续在scala环境下运算,支持自己编写简单的机器学习或简单分析处理函数,对HQL结果进一步分析计算。


45、Lucene


基于Java的Lucene可以非常迅速地执行全文搜索。据官方网站声称,它在现代硬件上每小时能够检索超过150GB的数据,它拥有强大而高效的搜索算法。


46、Terracotta


声称其BigMemory技术是“世界上首屈一指的内存中数据管理平台”,支持简单、可扩展、实时消息,声称在190个国家拥有210万开发人员,全球1000家企业部署了其软件。


47、 Ignite


是一种高性能、整合式、分布式的内存中平台,可用于对大规模数据集执行实时计算和处理,速度比传统的基于磁盘的技术或闪存技术高出好几个数量级。该平台包括数据网格、计算网格、服务网格、流媒体、Hadoop加速、高级集群、文件系统、消息传递、事件和数据结构等功能。


48、GemFire


Pivotal宣布它将开放其大数据套件关键组件的源代码,其中包括GemFire内存中NoSQL数据库。它已向Apache软件基金会递交了一项提案,以便在“Geode”的名下管理GemFire数据库的核心引擎。


49、 GridGain


由Apache Ignite驱动的GridGrain提供内存中数据结构,用于迅速处理大数据,还提供基于同一技术的Hadoop加速器。


50、MongoDB


是一个基于分布式文件存储的数据库。由C++语言编写。旨在为web应用提供可扩展的高性能数据存储解决方案。介于关系数据库和非关系数据库之间的开源产品,是非关系数据库当中功能最丰富、最像关系数据库的产品。