• 项目
首页>>文章列表 >>文化教育
文章列表

【KDD2017】阿里论文解读,深度学习、分布式系统、大规模图计算等

KDD 的英文全称是 Knowledge Discovery and Data Mining,即知识发现与数据挖掘,由美国计算机协会 ACM 下的数据挖掘分会举办,是国际数据挖掘领域的顶级会议,每年有大量来自世界各地的学术界和工业界人士参与此盛会。KDD 2017 共吸引全世界 1144 篇论文投递,收录 216 篇,包括清华、中科院、阿里在内的中国大陆学术界和工业界共被收录 25 篇。


在 2017 国际知识发现与数据挖掘大会(KDD)全球论文投稿中,阿里集团和蚂蚁金服共有 5 篇论文被大会收录,都在应用 Track(大会接收论文分 Research Track 和应用 Track),涵盖深度学习、大规模图计算、商品智能排序等多个研究领域,基于真实的业务场景或数据样本,文中部分方法结论已经在业务中运用。


例如,深度学习语义建模研究中提出了一种新的文本语义编码算法 conv-RNN,该模型在参考了较为常用的文本语义编码模型循环神经网络与卷积神经网络的同时,进行了进一步的文本语义编码优化,实现更为精准的文本分类和问答匹配,已经应用于阿里的智能音箱产品。



2 篇应用 Track 口头报告:展现大规模真实系统中的实际应用


鲲鹏:基于参数服务器的分布式学习系统及其在阿里和蚂蚁的应用

KunPeng: Parameter Server based Distributed Learning Systems and Its Applications in Alibaba and Ant

作者:周俊、李小龙、赵沛霖、陈超超等


近年来,由于大数据(TB 甚至 PB 量级)和大模型(数千亿甚至上万亿参数)的出现,无论是学术圈还是工业界,都亟需并行机器学习的能力。虽然有一些现有的分布式计算系统,如 Hadoop 和 Spark,它们为了支持机器学习算法并行化,提供了一些同步和粗粒度运算符(例如,Map,Reduce 和 Join 等),能够在一定程度上解决一些中小规模的问题,但这些系统很难让开发人员设计出更有效率且支持更大规模的机器学习算法。这促使我们设计一个通用的分布式平台,称为鲲鹏(KunPeng)。它结合了分布式系统和分布式优化算法的特性,处理复杂的大规模机器学习问题。


鲲鹏的架构:鲲鹏建立在阿里巴巴集团内部的大规模分布式 Apasra 平台上面,Robust Failover、Backup Instance,以及 DGA for Scheduling & Synchronization


具体来说,鲲鹏不仅封装了数据/模型并行、负载平衡、模型同步、稀疏表示、工业容错等特性,而且还提供了易于使用的接口,以使用户能够聚焦在机器学习核心逻辑上,降低使用成本并提升效率。在上千亿样本/特征的数据集上,测试结果表明,这样的设计在机器学习上带来了引人注目的性能改进,大幅提升了 LR、FTRL、GBDT、FM 和深度学习等算法的规模跟效率。鲲鹏已经在包括阿里巴巴的双11、广告、推荐、蚂蚁金服交易风险估算等上百个真实场景上线,并取得了令人鼓舞的效果。

实验中,鲲鹏在训练时间和存储方面都优于 Spark 和 MPI。



多层级联学习在大型电商排序系统的应用

Cascade Ranking for Operational E-commerce Search

作者:刘士琛、肖非、欧文武、司罗(阿里集团)


在大数据时代,大量应用都会涉及到对海量项目进行排序的工作。我们一方面需要得到尽量准确的排序结果,另一方面希望保证系统的性能以及用户的体验。过往大量的工作都集中在算法准确性方面(如各种 learning to rank 的方法);只有不多的工作会考虑计算的性能,而且基本停留在小数据集和研究阶段。在电商场景,商品总量很多的同时(十亿级),query 的相关商品也可能很多(千万级)。在在线请求非常高的情况下,计算性能是必须考虑的,尤其是在“双11”等场景下请求量会数倍的增长。


为了同时保证排序的效果和效率以及用户体验,本文设计并实现了一种级联式搜索 CLOES:它的主要思想是将以此排序分成多个阶段,各阶段使用逐渐复杂的特征去得到逐渐准确的结果;在靠前阶段使用简单特征过滤显然不合要求的结果,在靠后阶段使用复杂特征辨别难以区分的结果;除此以外,算法结合电商场景的特殊性,严格限制了返回结果的延迟以及返回商品的数量,以保证用户的搜索体验。离线实验验证了算法的正确性以及有效性,对比传统的方法能提升准确率的同时大幅提升了计算性能;在去年双11,在新增了大量准确又耗时的计算特征(包括强化学习和深度学习特征)的情况下,算法极大保证了引擎的效率,使排序对引擎的压力下降 40%,同时排序效果有一定提升。(※该论文也有海报展示)



3 篇海报展示:智能调价算法、用户行为预测、问答及分类



淘宝展示广告中的 OCPC 智能调价算法

Optimized Cost per Click in Taobao Display Advertising

作者:朱晗、靳骏奇、李阿里集团)


针对传统广告系统中广告主对粗粒度流量进行固定价格竞价的模式,该论文创新性提出了一种新的 OCPC(Optimized Cost per Click)智能调价算法。该方法智能调整每个流量上的广告主出价,实现更优的流量价值匹配,明显提升了广告主收益和广告系统的分配效率。同时立足于健康的经济生态和可持续的长远收益,该方法亮点在于不单优化了客户价值,还实现了用户体验、平台收益的整体优化和经济福利的权衡分配。该项技术现已在淘宝展示广告主要场景上全面应用并取得了明显的效果提升。



基于大规模图计算的本地算法对展示广告的行为预测

Local Algorithm for User Action Prediction Towards Display Ads

作者:杨红霞(阿里集团)、Yada Zhu(IBM Watson),Jingrui He(亚利桑那州立大学)


用户行为建模在计算广告中是至关重要的,它通过跟踪用户的在线行为建立用户的产品,然后根据用户的兴趣和需求提供相关的广告。准确的模型将导致更高的定位精度,从而提高广告效果。直观上,类似的用户往往对展示的广告具有类似的行为(例如,展示、点击、转换)。然而,据我们所知,以前的工作没有太多明确地调查各种类型的用户行为的相似之处,并且将它们纳入广告响应目标和预测中,主要是由于问题规模过大。


为弥合这一差距,本文中,我们使用二分图来表示历史用户行为,其中包括用户节点和广告客户活动节点,以及过去反映各种类型的用户-广告营销活动交互的边。基于这种表示,我们研究了用户行为建模和动作预测的随机步行本地算法,其计算复杂度仅取决于输出群集的大小,而不是整个图形。我们的目标是通过利用历史用户-用户 (user-user),广告系列活动 (campaign-campaign) 和用户-活动 (user-campaign) 交互来改善行为预测。特别地,我们提出了伴随 ADNI 算法的二分图 AdvUserGraph。 


ADNI 将 NIBBLE 算法扩展到 AdvUserGraph,并且能够将由感兴趣的用户组成的本地群集发现到特定的广告客户活动。我们还提出了ADNI的两个扩展,提高了效率。所提出的算法的性能表现在合成数据和世界领先的需求侧平台(Demand Side Platform),表明它们在预测极少数事件的有效性。



一种新的语义编码模型及其在智能问答及分类中的应用

A Hybrid Framework for Text Modeling with Convolutional RNN

作者:王成龙、姜飞俊、杨红霞(阿里集团)


在本文中,我们研发了卷积迭代神经网络(conv-RNN)的通用推理混合框架,用于文本的语义建模,无缝集成了从卷积和复现神经网络结构中提取语言信息的不同方面的优点从而加强新框架的理解力。此外,基于转换 RNN,我们还提出了一种新颖的句子分类模型和一个基于句子的答案选择模型,分别具有加强力的句子匹配和分类。我们在各种各样的数据集中验证了所提出的模型,包括两个具有挑战性的答案选择任务(AS)和用于句子分类(SC)的基准数据集。据我们所知,AS 和 SC 目前是最为完整的比较结果。我们在这些不同的挑战性任务和基准数据集中经验性地展示了转换 RNN 的优越性能,并总结了对其他最先进技术方法的表现的见解。



一文为你解读谷歌与深度学习的不解之缘

现今,深度学习的应用非常普遍,而谷歌一直是使用深度学习的一股强大力量,Forbes上的一篇文章详细介绍了谷歌在深度学习上的应用。跟着AI科技评论来看看谷歌究竟将它运用在了哪些地方?

深度学习属于人工智能领域,在这个领域,真正的奇迹正在发生。

一直以来,虽然计算机的运行速度很快,但它并不聪明——它没有能力从犯的错误中学到经验,必须得到精确的指令才能执行任务。


什么是深度学习

深度学习涉及到构建出人工神经网络,这种网络会试图模仿生物的大脑来分类和处理信息。

深度学习中的“深度”意味着使用多层堆叠的神经网络,这种数据处理结构被称为深度神经网络。深度神经网络这种复杂的结构,让它在处理数据时能更彻底、更精确,优于之前其他的人工智能技术。

深度学习已经在人工智能的最前沿推陈出新,现在的许多应用中都有它的身影。

随着数据量的不断增加,处理技术变得越来越便宜,社会上的更多领域可能会受到影响。下面我们来看看Google这个先驱是如何在众多产品和服务中使用深度学习的。


谷歌正在使用深度学习技术

谷歌一直是支持使用深度学习技术的一股强大力量。深度学习如今在前沿应用中非常普遍,它几乎与人工智能是一个意思了。原因很简单——它的效果明显。运用深度学习,可以破解困扰数据科学家几十年的难题,比如语音和图像识别,以及自然语言生成问题。

2011年,谷歌成立谷歌大脑项目,这是他们首次公开对深度学习潜在可能性的探索。第二年,谷歌宣布他们已经建立了一个神经网络,用来模拟人类的认知过程。这个网络在16000台电脑上运行,在学习了大约1000万张图像之后,它能够成功识别出猫。

2014年,谷歌收购了英国深度学习初创公司DeepMind。


DeepMind将现有的机器学习技术和神经科学的前沿研究联系起来,开创了一种新的研究方法,让系统更精确,就像大脑一样有了智力。

DeepMind研发出了Alpha Go,为了验证算法执行任务的能力,他们让系统玩电子游戏,后来又让系统下围棋,在这个过程中他们发现系统的技术越来越高超。


谷歌在邮件服务中是如何使用深度学习的?

当证明了深度学习在实验室和游戏竞赛中很有效果之后,谷歌悄然将这项技术推向了更多的服务领域。

第一次实用是在图像识别中,可以用它对谷歌索引出的互联网上的数百万张图片进行分类。这样做可以让图像分类更精确,从而为用户提供更准确的搜索结果。

谷歌目前在深度学习的研究中,在图像分析领域的最新突破是图像增强。这包括重建或填充图像中缺失的部分,这种功能是通过从现有的数据中推断,以及利用学到的其他类似图像实现的。

Google Cloud Video Intelligence向用户开放视频分析功能。用户将视频传到谷歌服务器上之后,这个平台可以对视频的内容进行分割和分析,可以自动生成摘要,如果视频内容有可疑之处,AI甚至还会发出安全警报。


语言处理是谷歌运用深度学习的另一个服务领域。谷歌AI语音识别助手运用深度神经网络来学习如何更好地理解语音指令和问题。谷歌大脑开发的技术已经在这个项目中有所运用。

最近,谷歌的翻译服务也运用了谷歌大脑开发的技术。在新的谷歌神经机器翻译系统上进行翻译,可以将一切都任务都转移到深度学习环境中。

另外,运用谷歌大脑的技术,可以在Youtube上提供更多个性化的推荐。当我们在谷歌的服务器中浏览内容时,它会监控和记录我们的浏览习惯。已经有数据显示,为用户推荐他们想要看的视频是提高用户留存率的关键,留住了用户之后就有源源不断的广告费了。深度神经网络能充分的用来研究和学习用户的习惯和偏好,不断推荐用户喜欢的内容。

人类无法抗拒的十大心理学效应

鸟笼逻辑


挂一个漂亮的鸟笼在房间里最显眼的地方,过不了几天,主人一定会做出下面两个选择之一:把鸟笼扔掉,或者买一只鸟回来放在鸟笼里,这就是鸟笼逻辑。


过程很简单,设想你是这房间的主人,只要有人走进房间,看到鸟笼,就会忍不住问你:“鸟呢?是不是死了?”当你回答:“我从来都没有养过鸟。”人们会问:“那么,你要一个鸟笼干什么?”最后你不得不在两个选择中二选一,因为这比无休止的解释要容易得多。


鸟笼逻辑的原因很简单:人们绝大部分的时候是采取惯性思维,可见在生活和工作中培养逻辑思维是多么重要。

破窗效应


心理学的研究上有个现象叫做“破窗效应”,就是说,一个房子如果窗户破了,没有人去修补,隔不久,其它的窗户也会莫名其妙的被人打破;一面墙,如果出现一些涂鸦没有清洗掉,很快的,墙上就布满了乱七八糟,不堪入目的东西;一个很干净的地方,人会不好意思丢垃圾,但是一旦地上有垃圾出现之后,人就会毫不犹疑的拋,丝毫不觉羞愧。


这真是很奇怪的现象,心理学家研究的就是这个“引爆点”,地上究竟要有多脏,人们才会觉得反正这么脏,再脏一点无所谓,情况究竟要坏到什么程度,人们才会自暴自弃,让它烂到底。任何坏事,如果在开始时没有阻拦掉,形成风气,改也改不掉,就好象河堤,一个小缺口没有及时修补,可以崩坝,造成千百万倍的损失。

责任分散效应


1964年3月13日夜3时20 分,在美国纽约郊外某公寓前,一位叫朱诺比白的年轻女子在结束酒巴间工作回家的路上遇刺。当她绝望地喊叫:“有人要杀人啦!救命!救命!”听到喊叫声,附近住户亮起了灯,打开了窗户,凶手吓跑了。当一切恢复平静后,凶手又返回作案。当她又叫喊时,附近的住户又打开了电灯,凶手又逃跑了。当她认为已经无事,回到自己家上楼时,凶手又一次出现在她面前,将她杀死在楼梯上。在这个过程中,尽管她大声呼救,她的邻居中至少有 38位到窗前观看,但无一人来救她,甚至无一人打电话报警。这件事引起纽约社会的轰动,也引起了社会心理学工作者的重视和思考。人们把这种众多的旁观者见死不救的现象称为责任分散效应。


对于责任分散效应形成的原因,心理学家进行了大量的实验和调查,结果发现:这种现象不能仅仅说是众人的冷酷无情,或道德日益沦丧的表现。因为在不同的场合,人们的援助行为确实是不同的。当一个人遇到紧急情境时,如果只有他一个人能提供帮助,他会清醒地意识到自己的责任,对受难者给予帮助。如果他见死不救会产生罪恶感、内疚感,这需要付出很高的心理代价。而如果有许多人在场的话,帮助求助者的责任就由大家来分担,造成责任分散,每个人分担的责任很少,旁观者甚至可能连他自己的那一份责任也意识不到,从而产生一种“我不去救,由别人去救”的心理,造成“集体冷漠”的局面。如何打破这种局面,这是心理学家正在研究的一个重要课题。

帕金森定律


英国著名历史学家诺斯古德·帕金森通过长期调查研究,写出一本名叫《帕金森定律》的书。他在书中阐述了机构人员膨胀的原因及后果:一个不称职的官员,可能有三条出路,第一是申请退职,把位子让给能干的人;第二是让一位能干的人来协助自己工作;第三是任用两个水平比自己更低的人当助手。


第一条路是万万走不得的,因为那样会丧失许多权利;第二条路也不能走,因为那个能干的人会成为自己的对手;看来只有第三条路最适宜。于是,两个平庸的助手分担了他的工作,他自己则高高在上发号施令,他们不会对自己的权利构成威胁。两个助手既然无能,他们就上行下效,再为自己找两个更加无能的助手。如此类推,就形成了一个机构臃肿,人浮于事,相互扯皮,效率低下的领导体系。

晕轮效应


俄国著名的大文豪普希金曾因晕轮效应的作用吃了大苦头。他狂热地爱上了被称为“莫斯科第一美人”的娜坦丽,并且和她结了婚。娜坦丽容貌惊人,但与普希金志不同道不合。当普希金每次把写好的诗读给她听时,她总是捂着耳朵说:“不要听!不要听!”相反,她总是要普希金陪她游乐,出席一些豪华的晚会、舞会,普希金为此丢下创作,弄得债台高筑,最后还为她决斗而死,使一颗文学巨星过早地陨落。在普希金看来,一个漂亮的女人也必然有非凡的智慧和高贵的品格,然而事实并非如此,这种现象被称为晕轮效应。


所谓晕轮效应,就是在人际交往中,人身上表现出的某一方面的特征,掩盖了其他特征,从而造成人际认知的障碍。在日常生活中,“晕轮效应”往往在悄悄地影响着我们对别人的认知和评价。比如有的老年人对青年人的个别缺点,或衣着打扮、生活习惯看不顺眼,就认为他们一定没出息;有的青年人由于倾慕朋友的某一可爱之处,就会把他看得处处可爱,真所谓“一俊遮百丑”。


晕轮效应是一种以偏概全的主观心理臆测,其错误在于:第一,它容易抓住事物的个别特征,习惯以个别推及一般,就像盲人摸象一样,以点代面;第二,它把并无内在联系的一些个性或外貌特征联系在一起,断言有这种特征必然会有另一种特征;第三,它说好就全都肯定,说坏就全部否定,这是一种受主观偏见支配的绝对化倾向。总之,晕轮效应是人际交往中对人的心理影响很大的认知障碍,我们在交往中要尽量地避免和克服晕轮效应的副作用。

霍桑效应


心理学上的一种实验者效应。20世纪20-30年代,美国研究人员在芝加哥西方电力公司霍桑工厂进行的工作条件、社会因素和生产效益关系实验中发现了实验者效应,称霍桑效应。


实验的第一阶段是从1924年11月开始的工作条件和生产效益的关系,设为实验组和控制组。结果不管增加或控制照明度,实验组产量都上升,而且照明度不变的控制组产量也增加。另外,又试验了工资报酬、工间休息时间、每日工作长度和每周工作天数等因素,也看不出这些工作条件对生产效益有何直接影响。


第二阶段的试验是由美国哈佛大学教授梅奥领导的,着重研究社会因素与生产效率的关系,结果发现生产效率的提高主要是由于被实验者在精神方面发生了巨大的变化。参加试验的工人被置于专门的实验室并由研究人员领导,其社会状况发生了变化,受到各方面的关注,从而形成了参与试验的感觉,觉得自己是公司中重要的一部分,从而使工人从社会角度方面被激励,促进产量上升。


这个效应告诉我们,当同学或自己受到公众的关注或注视时,学习和交往的效率就会大大增加。因此,我们在日常生活中要学会与他人友好相处,明白什么样的行为才是同学和老师所接受和赞赏的,我们只有在生活和学习中不断地增加自己的良好行为,才可能受到更多人的关注和赞赏,也才可能让我们的学习不断进步,充满自信!

习得性无助实验


习得性无助效应最早有奥弗米尔和西里格曼发现,后来在动物和人类研究中被广泛探讨。简单地说,很多实验表明,经过训练,狗可以越过屏障或从事其他的行为来逃避实验者加于它的电击。但是,如果狗以前受到不可预期(不知道什么时候到来)且不可控制的电击(如电击的中断与否不依赖于狗的行为),当狗后来有机会逃离电击时,他们也变得无力逃离。而且,狗还表现出其他方面的缺陷,如感到沮丧和压抑,主动性降低等等。


狗之所以表现出这种状况,是由于在实验的早期学到了一种无助感。也就是说,它们认识到自己无论做什么都不能控制电击的终止。在每次实验中,电击终止都是在实验者掌控之下的,而狗会认识到自己没有能力改变这种外界的控制,从而学到了一种无助感。


人如果产生了习得性无助,就成为了一种深深的绝望和悲哀。因此,我们在学习和生活中应把自己的眼光在开阔一点,看到事件背后的真正的决定因素,不要使我们自己陷入绝望。

证人的记忆


证人,在我们的认识里,通常都是提供一些客观的证据的人,就是把自己亲眼看到、亲耳听到的东西如实地讲出来的人。然而,心理学研究证明,很多证人提供的证词都不太准确,或者说是具有个人倾向性,带着个人的观点和意识。


证人对他们的证词的信心并不能决定他们证词的准确性,这一研究结果令人感到惊讶。心理学家珀费可特和豪林斯决定对这一结论进行更深入的研究。为了考察证人的证词是否有特别的东西,他们将证人的记忆与对一般知识的记忆进行了比较。


他们让被试者看一个简短的录象,是关于一个女孩被绑架的案件。第二天,让被试者回答一些有关录象里内容的问题,并要求他们说出对自己回答的信心程度,然后做再认记忆测验。接下来,使用同样的方法,内容是从百科全书和通俗读物中选出的一般知识问题。


和以前发生的一样,珀费可特和豪林斯也发现,在证人回忆的精确性上,那些对自己的回答信心十足的人实际上并不比那些没信心的人更高明,但对于一般知识来说,情况就不是这样,信心高的人回忆成绩比信心不足的人好得多。


人们对于自己在一般知识上的优势与弱势有自知之明,因此,倾向于修改他们对于信心量表的测验结果。一般知识是一个数据库,在个体之间是共享的,它有公认的正确答案,被试可以自己去衡量。例如,人们会知道自己在体育问题上是否比别人更好或更差一点。但是,目击的事件不受这种自知之明的影响。例如,从总体上讲,他们不大可能知道自己比别人在记忆事件中的参与者头发颜色方面更好或更差。

罗森塔尔效应


美国心理学家罗森塔尔等人于1968年做过一个著名实验,他们到一所小学,在一至六年级各选三个班的儿童进行煞有介事的“预测未来发展的测验”,然后实验者将认为有“优异发展可能”的学生名单通知教师。其实,这个名单并不是根据测验结果确定的,而是随机抽取的。它是以“权威性的谎言”暗示教师,从而调动了教师对名单上的学生的某种期待心理。8个月后,再次智能测验的结果发现,名单上的学生的成绩普遍提高,教师也给了他们良好的品行评语。


这个实验取得了奇迹般的效果,人们把这种通过教师对学生心理的潜移默化的影响,从而使学生取得教师所期望的进步的现象,称为“罗森塔尔效应”,习惯上也称为皮格马利翁效应(皮格马利翁是古希腊神话中塞浦路斯国王,他对一尊少女塑像产生爱慕之情,他的热望最终使这尊雕像变为一个真人,两人相爱结合)。


教育实践也表明:如果教师喜爱某些学生,对他们会抱有较高期望,经过一段时间,学生感受到教师的关怀、爱护和鼓励,常常以积极态度对待老师、对待学习以及对待自己的行为,学生更加自尊、自信、自爱、自强,诱发出一种积极向上的激情,这些学生常常会取得老师所期望的进步。相反,那些受到老师忽视、歧视的学生,久而久之会从教师的言谈、举止、表情中感受到教师的“偏心”,也会以消极的态度对待老师、对待自己的学习,不理会或拒绝听从老师的要求,这些学生常常会一天天变坏,最后沦为社会的不良分子。尽管有些例外,但大趋势却是如此,同时这也给教师敲响了警钟。

虚假同感偏差


我们通常都会相信,我们的爱好与大多数人是一样的。如果你喜欢玩电脑游戏,那么就有可能高估喜欢电脑游戏的人数。你也通常会高估给自己喜欢的同学投票的人数,高估自己在群体中的威信与领导能力等等。你的这种高估与你的行为及态度有相同特点的人数的倾向性就叫做“虚假同感偏差”。有些因素会影响你的这种虚假同感偏差强度:


(1)当外部的归因强于内部归因时;


(2)当前的行为或事件对某人非常重要时;


(3)当你对自己的观点非常确定或坚信时;


(4)当你的地位或正常生活和学习受到某种威胁时;


(5)当涉及到某种积极的品质或个性时;


(6)当你将其他人看成与自己是相似时。

巴菲特和马云算什么?盘点人类历史上的“首富”

当我们说到首富,我们可能想到比尔盖茨,贝索斯,巴菲特,还有国内的马云马化腾——不过,这些都是现代社会的衡量。

把时间轴拉长,纵观整个人类历史,从被誉为“史上最富”的曼萨·穆萨,到所罗门王,奥古斯都甚至武则天,富人几乎全部出自统治阶级。即使是德国商人雅各布•富格尔,也是王室的财阀。

我们可以看到,这些君主致富的途径,几乎都来自三方面:疆土、黄金、还有国民经济。


所罗门王(公元前970-公元前931) 以色列王国第三任君主

资产规模:2.2万亿美元

在圣经的记载中,所罗门王是以色列王国的第三任君主,拥有超人的智慧,大量的财富和无上的权力。

所罗门王资产中的黄金和宝石主要来自进贡。有说法指,所罗门王每年能受到25吨的黄金。在位39年,黄金总价值合计400亿美元。

所罗门王还从与阿拉伯和黎凡特的商贸往来中获得了大量财富。

据说,所罗门王的宝座以象牙切成细片雕刻成各种样式,外面贴上黄金,还有一个纯金的脚踏。


马库斯·李锡尼·克拉苏(前115-前53) 古罗马将军、商人

资产规模:1698亿美元

马库斯·李锡尼·克拉苏在罗马由共和国转变为帝国的过程之中,扮演了重要角色;也是一位成功的黑心奴隶商人,后人认为他是罗马史上最富裕的人。

政治家苏拉上台后,马库斯·李锡尼·克拉苏通获得了大量显著低于市价的不动产,聚敛了大量财富。

马库斯·李锡尼·克拉苏至少拥有740万盎司的黄金资产。


奥古斯都(前63-14) 罗马帝国开国君主

资产规模:4.6万亿美元

奥古斯都是罗马帝国的开国君主,在罗马的属省中,埃及为奥古斯都个人所有。

埃及当时贡献全球25-30%的GDP,而且在地中海附近有着丰饶的农耕用地。


武则天(624-705) 中国唯一一位女性皇帝

资产规模:全球GDP的22.7%

在位的15年间,武则天将唐朝疆土拓展到亚洲中部,助力唐朝成为当时最大的国家之一。

武则天被认为是有史以来最富裕的女性,超过了埃及艳后和前俄罗斯帝国女皇叶卡捷琳娜二世。


巴西尔二世(958-1025) 马其顿王朝的东罗马帝国(拜占廷,今土耳其)皇帝

资产规模:1694亿美元

巴西尔二世在位49年,热衷于打仗、对外扩张。此人离世时,拥有合计100吨黄金。


威廉一世(1028-1087) 第一位诺曼英格兰国王

资产规模:2280亿美元

威廉一世,亦称“征服者威廉”,财富主要来自1066年诺曼征服英格兰后,诺曼王朝疆土的扩张。


鲁福斯(1040-1093) 英国伯爵

资产规模:1950亿美元

鲁福斯是威廉一世的侄子,也是他早期的支持者。威廉一世将部分土地和资产分给支持者,鲁福斯得到了25万英亩,成为了关键的财富来源之一。

鲁福斯财富达到峰值时,约合当时英国GDP的7%。


宋神宗(1048-1085) 宋朝第六代皇帝

资产规模:全球GDP的25-30%

宋神宗是宋朝第六代皇帝,即位后命王安石推行变法,显著增加财政收入。加上垦田面积大幅增加,宋朝的城镇商品经济取得了空前发展。


成吉思汗(1162-1227) 元太祖

资产规模:>1万亿美元(土地)

成吉思汗将中国的版图一路扩张到了欧洲,占据了全球22%的土地。

尽管成吉思汗常年征战硕果累累,但他并未拥有自己的宫殿,多数财富都给予了士兵及属下家属。


曼萨·穆萨(1280-1337) 马里帝国(西非伊斯兰教帝国)国王

资产规模:4150亿美元

曼萨·穆萨领导的马里帝国可能是世界上最大的黄金产地,而当时黄金的需求极高。

穆萨的个人资产“无法形容”,但2015年,《时代》发表了一篇〈史上富豪排行榜TOP10〉,穆萨名列榜首。

关于曼萨-穆萨的麦加朝圣之旅有一些传说,说他带了几十上百头骆驼,每一头都驮了几百磅黄金,还有人说穆萨的随行队伍由20万战士组成,其中有4万弓箭手;而这位国王一路上慷慨大度四处散财,甚至给埃及带来了一场高通胀的货币危机。


科西莫·德·美第奇(1389-1464) 佛罗伦萨商人

资产规模:1290亿美元(美第奇家族)

美第奇家族是佛罗伦萨13至17世纪在欧洲实力强大的家族,被称为文艺复兴教父,赞助了米开朗琪罗等多名艺术家。

尽管科西莫·德·美第奇并无国王之名,但文艺复兴时期的佛罗伦萨,政务依旧由他掌控。科西莫家族长时间统治佛罗伦萨。

科西莫·德·美第奇之父乔凡尼控制了税收、矿业,并且是家族中第一个进入银行业的,都帮助家族财富急剧扩张。


雅各布·富格尔(1459-1525) 德国银行家

资产规模:2770亿美元

雅各布·富格尔是典型的商人,对矿业、银行业还有贸易有着广泛的兴趣。

14世纪末,富格尔家族的祖先从事香料、丝绸和毛织业原料的贸易,获得了家族的第一桶金。雅各布·富格尔则把家族财富积累到了顶峰,并将商业领域的资金投入金融领域,进行信贷活动,贷款对象甚至包括君主。

富格尔家族堪称哈布斯堡王朝的财阀,而哈布斯堡王室部分领地上的银矿、铜矿、铁矿亦全部落入福格尔家族囊中。

1498年,富格尔家族与另外三个贸易家族联合,成立了卡特尔合作组织,统一抬高铜的价格。


阿克巴(1542-1605) 莫卧儿帝国(今属巴基斯坦)第三任皇帝

资产规模:全球GDP的25%

阿克巴在莫卧儿帝国境内建立起一套有效率的管理机构,从而遏止了国家的分裂,促进经济繁荣。他还改变了几百年来穆斯林统治者的做法,允许印度教徒担任高级职务。

阿克巴致力于以武力扩大莫卧儿帝国版图,他在位期间,该国疆土扩大到原有的三倍。

有经济学家指出,阿克巴领导的莫卧儿帝国,人均GDP水平相当于伊丽莎白一世时期的英国。

【AI TOP 10】SIGIR公布最佳论文微软清华成赢家

马化腾称毕业论文跟人工智能有关,能预测股票走势

昨天,面对参加首届粤港澳湾区青年营的来自香港、澳门、广东的100名高中生,Pony打开了话匣子,抛出一段段大家都没听过的创业故事和心路历程。


马化腾说:这两年AI很火其实我93年毕业的时候也有一波人工智能热。所以当时我的毕业论文还是跟这个有点关系写的是股票分析软件其中有一个模块是用神经算法人工智能预测股票的走势。


现在听起来好象有点可笑,但当时好像是很有道理的,用人工智能来模拟人的心态,对市场的心理压力的变化,一些神经算法等等的。但很快发现这个不靠谱......


二十年过去,到去年看到谷歌收购的Deepmind写了一个论文,讲了深度学习在围棋中的应用,并且开发了AlphaGo,打赢了人类最强的围棋冠军。这个案例对很多人都很震动,震动点不在围棋,而是它通过深度学习可以在某一个垂直领域让机器自我学习,能够在它的强大计算后端自己跟自己训练,自己找出来很多规律。这个算法,在未来很多领域发现都是可以用的,比如是金融、医学等。


腾讯最近有一个团队做识别医学影像片,不管CT、核磁共振或者切片的图,通过机器学习可能在识别这些片子时,做到比有经验的医生判断得更准确,花的时间更少。我们一个团队用类似技术应用在这方面,发现效果非常好。这就是很好的实例。 


我们还希望应用在很多产品后台,比如微信里语音翻译,包括最近非常火的建军节换头像穿军装的运用,就是用人脸识别技术和人脸智能融合技术,把一个人的头像融合在军装里,而且看起来非常真实。这都是融合了人工智能的技术,只是听起来不像围棋这么性感。 


我们在围棋方面,也开发了一个人工智能的计算机程序,在今年AlphaGo没参赛的世界比赛里获得第一名,至今为止还没有跟AlphaGo交手,不知道谁厉害。 


人工智能我们感觉才一年多时间,刚刚打开大门。现在全球包括国内几家大的互联网公司,都非常关注这个领域。可能很多同学选专业也希望选人工智能甚至机器人等等方面的专业。我觉得大有可为,而且落实在每一个行业都有很多机会。



 全球85座高科技城市榜:旧金山拔得头筹,北上深入围前25

9日Business Insider网站根据城市创新研究机构2thinknow的分析评出全球85座高科技城市,排名第一的是硅谷所在地美国旧金山,北京、上海、深圳和中国香港四座城市进入前25名,中国台北排名第5。


该榜单的评分标准是与科技进步相关的10个因素,包括人均提交专利申请数量、初创公司和科技风投资本家数量,智能手机使用水平,以及其他创新数据。


进步最大的是印度班加罗尔(Bangalore),从去年的第49位升至第19位,主要是由于大量IT公司的涌入,以及该市庞大的程序员群体。台北排名第5,是亚洲排名最高的城市。




  

TensorFlow用户区域热度图,能反应不同国家AI热度还是AI实力?



 

刚刚,我们详细对比了吴恩达和Udacity的深度学习课程,你们感受下...


我今年三月份报名参加了 Udacity 的深度学习纳米学位,经过几个月的学习,基本了解了神经网络、CNN、RNN、GAN 的概念,并且通过五个项目的联系,具备了一定的动手能力。我的体会是,Udacity 的这个纳米学位课程,精华在于项目。


现在吴恩达的课程一上线,我马上就注册了,看了几节课,更重要的是看了一下项目的设计。我曾经上过吴恩达的机器学习课程,对他讲授理论的水平超级钦佩,看上去很复杂的问题,他抽丝剥茧、举重若轻的就给讲明白了。还可以在线练习、在线训练、在线提交。目前,7天的免费试用已经开启。




 微软赢得SIGIR 2017最佳论文,清华张帆等人赢得最佳学生论文


清华计算机系信息检索课题组在本次会议发表长文4篇,短文2篇,是全球发表论文最多的课题组之一。计算机系刘奕群副教授担任了本次会议的短文主席(Short Paper Co-chair)职务,并在会上被任命为信息检索领域重要国际期刊Foundations and Trends in Information Retrieval (FnTIR,IF=3.500)新任主编(Co Editor-in-chief)。


清华计算机系硕士生张帆(导师:刘奕群)为第一作者的论文“Evaluating Web Search with a Bejeweled Player Model”(作者:张帆、刘奕群、李昕、徐盈辉、张敏、马少平)获得唯一的最佳学生论文奖。


 ACM SIGIR是国际计算机学会主办的信息检索领域的最重要学术会议,2017年恰逢SIGIR会议40周年,本届会议参会人数达到900人以上,全球40多个国家的研究人员与谷歌、微软、FaceBook;百度、阿里巴巴、搜狗等国内外产业巨头均积极参加了本次盛会。本届SIGIR会议共收到稿件760篇(其中长文投稿362篇),长文录用仅为78篇。


最佳论文、最佳短论文均花落微软。获奖和提名论文共9篇,6篇有华人作者。四大奖项名单如下:


最佳论文:BitFunnel: Revisiting Signatures for Search
Bob Goodwin (Microsoft), Michael Hopcroft (Microsoft), Dan Luu (Microsoft), Alex Clemmer (Heptio), Mihaela Curmei (Microsoft), Sameh Elnikety (Microsoft), Yuxiong He (Microsoft)


最佳学生论文:Evaluating Web Search with a Bejeweled Player Model
Fan Zhang (Tsinghua University), Yiqun Liu (Tsinghua University), Xin Li (Tsinghua University), Min Zhang (Tsinghua University), Yinghui Xu (Alibaba Group), Shaoping Ma (Tsinghua University)


最佳短论文:LiveMaps – Converting Map Images into Interactive Maps
Michael R Evans (Microsoft Corp), Dragomir Yankov (Microsoft Corp), Pavel Berkhin (Microsoft Corp), Pavel Yudin (Microsoft Corp), Florin Teodorescu (Microsoft Corp), Wei Wu (Microsoft Corp)


最经时间考验论文:Personalizing search via automated analysis of interests and activities
Jaime Teevan, Susan T. Dumais, Eric Horvitz, SIGIR 2005. 




  

科大讯飞的上半年成绩表:营收21亿、增速43.79%



又到了上市公司半年度财报对外公开的日子,人工智能企业很迷人,但是财报也让人兴奋,关于科大讯飞的财报几个重要的数据,给大家罗列一下,2017上半年营收21亿元,同比增速43.79%。毛利总额10.27亿元,同比增速46.99%。


但是i归属于上市公司股东的净利润比上年同期减少1.49亿元,下降58.11%,这个科大讯飞表示这是由于人工智能核心技术及应用研发费用增长等几方面造成的。



 九寨沟地震,第一个发布该消息的竟是人工智能机器人

前天,四川九寨沟发生了七级地震以及一系列余震的消息,刷爆了朋友圈,据智能菌了解,最新发布该消息的,竟然是中国地震台网的一个人工智能写作机器人,其中关于7级地震这一篇,用时22秒,其中部分余震的报道,只用了5秒。


这篇七级地震报道,一共用了500字左右,配了五张图,可谓图文并茂。




  

微软设计的海底数据中心,可能会伪装在珊瑚丛中



陆上的数据中心往往建在电费便宜、气候凉爽、地广人稀的位置,因此往往远离人口密集区域,限制了访问速度。因为沿海地区人口密集,海底又凉快,微软想把数据中心建在海底,最近的一项专利申请则设想了如何保护数据的安全。


2014 年开始筹备的海底数据中心名为“纳提克项目”,名字来源于马萨诸塞州的地名。项目还处于原型机下水测试的阶段,但研究人员们已经在考虑更长远的维护问题。相比容易维护的陆上数据中心,更为自主的水下数据中心会面临一系列独特的挑战,比如潜艇和海洋动物的冲撞等。




 硅谷上周21家公司获总计超8.441亿美元融资,机器人融资最多

在过去一周,硅谷周边方圆 300 英里内,共有 21 家初创公司获得总计  8.441 亿美元融资。除此之外,还有 7 项并购发生。



  

2017年人工智能行业分析:计算机视觉与图像企业融资最多,芯片企业最少



在企业数量方面,中国拥有592人工智能企业,其中基础层企业为14家,技术层企业为273家,应用层企业有304家。


在中国人工智能细分领域企业数量分布统计情况情况中,计算机视觉与图像领域企业数量为146家,排名第一;智能机器人领域企业数量为125家,排名第二;排名第三的是自然语言处理,企业数量为92家。其后是机器学习应用、智能无人机、语音识别、技术平台、自动驾驶/辅助驾驶以及处理器/芯片,企业数量分别为61家、51家、36家、35家、31家以及14家。


计算机视觉与图像融资金融领跑

在中国人工智能各细分领域融资统计情况中,计算机视觉与图像融资金额为158.3亿元,融资金融最多;自然语言处理领域融资金融为122.36亿元,排名第二;排名第三的是自动驾驶/辅助驾驶,融资金额为107.15亿元。

山东大学陈宝权团队等用水做 3D 重建

说起 3D 物体形状重建,你可能首先想到了先进的激光扫描仪。但是,最近一项在 SIGGRAPH 2017 发表的研究却另辟蹊径,用水(而非光)这一介质来获取物体表面,将 3D 物体表面建模的任务转化为体积问题,成功将目前的 3D 形状建模技术向前推进了一步。这种新的方法可以准确重建物体中的隐藏部分,比常见的 3D 激光扫描先进很多。


相关论文《基于浸入转换 3D 形状重建》(Dip Transform for 3D Shape Reconstruction) 由陈宝权教授率领北京电影学院未来影像高精尖创新中心和山东大学研究团队,联合以色列特拉维夫大学、内盖夫本·古里安大学(Ben-Gurion University),还有加拿大英属哥伦比亚大学的研究人员合作完成,成果获得了包括 Science Daily、phys.org 在内的多家国外科技媒体的报道。



论文:基于浸入转换的 3D 重建

作者:


  • Kfir Aberman*, 北京电影学院未来影像高精尖创新中心(AICFVE),特拉维夫大学

  • Oren Katzir*, AICFVE,特拉维夫大学

  • 周强,山东大学

  • 罗泽刚,山东大学

  • Andrei Sharf,内盖夫本·古里安大学,AICFVE

  • Chen Greif,英属哥伦比亚大学

  • 陈宝权,山东大学

  • Daniel Cohen-Or,特拉维夫大学



全新的数据获取方法:将 3D 物体形状建模转化为体积问题

这项研究最大的突破就在于能够方便地测量物体看不见的部分,研究负责人山东大学计算机学院院长、北京电影学院未来影像高精尖创新中心首席科学家陈宝权教授在接受新智元采访时说。


传统 3D 扫描和形状建模方法基于光学设备,最常见的是使用激光扫描仪和摄像头对物体表面进行扫描。但是,这样做有一定的局限,比如光线照不到的地方无法取样,缝隙、微小突起等结构取样不完整,还有透明等特殊的材料难以处理。


为了解决这些问题,研究人员将液体作为获取物体形状的介质,将物体浸入水中,测量物体的排水量,然后利用这种体积上的信息重建物体的表面形状。这时,使用液体(水)的优势就体现了出来,水能很好地贴合复杂的表面,还能渗透到空腔里,计算排水量也不需要考虑光线的折射率和偏振等问题,轻松绕过了光学设备面临的种种限制。


实验中,研究人员制作了一套简便的“3D 浸入装置”——用机械臂夹住物体,将物体浸入水槽,然后测量水位上升变化的曲线,得出沿当前角度浸入水中的物体的横截面。这样,通过多次将物体以不同角度浸入水中,研究人员就能得出物体多个横截面的信息,进而精确地计算出物体的几何形状,包括平时激光扫描仪很难捕捉到的部分。

以不同角度将 3D 大象浸入水槽,记录排水信号,得到不同横截面的信息:左边代表 20°、50°、90°和 130°浸入的正弦值,右边代表形状重建的结果。来源:irc.cs.sdu.edu.cn

以不同角度浸入物体,浸入次数越多,浸入转换重建的结果也越精确:(从左到右)浸入 100 次、500 次和1000 次的结果。来源:irc.cs.sdu.edu.cn



用水做 CT:结果精确,应用范围广

这种方法让人想起了计算机断层成像(Computed Tomography),也即平时说的 CT。不过,CT 设备体积庞大,而且只能在特定的环境中使用,成本也很高。相比之下,研究人员提出的浸入转换法以较低的计算成本生成完整的形状,性价比高,而且应用范围更广。


“只要是能浸入水槽的物体,不论多大,都能进行重建。”陈宝权教授告诉新智元。此外,浸入转换装置搭建起来也很简单。


论文中,研究人员还展示了其他复杂 3D 形状重建的示例。实验表明,浸入重建的结果与几乎与原始的 3D 模型一样。


3D 浸入重建比较:(a)浸入期间的物体,(b)3D 打印的物体,(c)结构化光扫描重建的结果,(d)使用浸入机器进行 3D 重建的结果。可以发现,在隐蔽和复杂部分的重建上,3D 浸入是优于结构化光扫描的。来源:irc.cs.sdu.edu.cn


不仅如此,为了改善浸入转化法数据采集速度较慢的问题——机械臂一步一步垂直浸入物体,而且必须每一步都读数,研究团队正在开发新的方法,比如连续浸入和读取,或者基于压缩感测的稀疏恢复技术。


研究人员表示,利用多模式的形状获取,比如结合激光扫描和浸入变换,我们能够进行更加精确的 3D 形状重建。

理解大脑如何控制运动,斯坦福用AI技术开发完美骨骼和神经模型

对控制我们的身体的骨骼、肌肉和神经进行更好的建模可以帮助医生研究大脑性瘫痪之类的运动障碍。一个新的竞赛正在通过众包的方式寻找这些工具。

 


计算机生成的骷髅正在进行虚拟的竞赛,在虚拟的实验室中赛跑,跳跃,直到崩溃。与此同时,在现实世界,他们的教练——机器学习和人工智能的研究者组成的团队也正在竞争,看谁能将他们的骷髅训练得最好,以模仿那些复杂的人类运动。也许这些教练是为了奖励或乐趣去做,但该竞赛的发起者有一个伟大的终极目标:为脑瘫患者带来更好的生活。


Łukasz Kidziński 是斯坦福大学生物工程博士后,他想出这个竞赛,作为更好地了解脑瘫患者对肌肉放松手术反应的方式。通常,医生会采取手术来改善病人的步态,但并不总是奏效。


Kidziński 说:“关键的问题是如何预测手术后病人是如何行走的。这是个大问题,而且非常困难。”



建模:一个人的肌肉和四肢如何响应大脑的信号

Kidziński 在 Scott Delp 的实验室工作,Scott Delp 是生物工程和机械工程教授,研究了数十年人体力学。作为这项工作的一部分,Delp 和他的合作者收集了数百人的走路和跑步时的运动数据和肌肉活动数据。


有了这些数据,Delp,Kidziński 和他们的团队可以为一个人的肌肉和四肢如何响应大脑的信号建立准确的模型。


但是他们没法做到的预测人们在手术后如何重新学习走路——因为事实证明,没有人能够确定大脑如何控制复杂的过程,例如走路,尤其是在障碍物中穿行,或在手术后重新学习走路。


Delp 说:“虽然我们在构建肌肉、关节和骨骼的计算模型,以及整个系统如何连接(人体构造)方面已经做得很好,但存在一个挑战,就是理解大脑如何安排和控制这个复杂的动力学系统。”


机器学习,以及各种类型的人工智能技术,已经成为大脑运动控制系统建模的有用工具,但是在大多数情况下,这些技术的实践者感兴趣的是自动驾驶汽车、玩复杂的游戏或提供更有效的线上广告


Delp 表示:“现在举行这样一个挑战赛正是时候。”部分原因是机器学习社区中的一些人正在寻找更有意义的问题来研究,以及生物工程师正在从了解更多机器学习中获益。Delp说,他的实验室最成功的模拟人类运动的努力来自表达运动的神经控制的研究,机器学习可以是理解人类如何学习走路的一种有效方式。



NIPS 2017 的5项竞赛之一

到现在为止,已经有63支团队向这个竞赛提交了145项想法,这项竞赛也是 NIPS 2017 的5项竞赛之一。Kidziński 为每个团队提供人体和虚拟环境的计算机模型,包括楼梯,容易滑倒的地面,等等。除了外部挑战之外,参赛团队还需要应对内部的挑战,比如肌肉虚弱。每个团队的成绩都根据模拟人在给定时间内通过这些障碍的程度进行判断。


Kidziński 和 Delp 希望有更多的队伍参加比赛。距离比赛结束还有两个月的时间,他们希望至少有几支队伍能够克服所有的虚拟障碍。(目前还没有队伍实现——最好的队伍大部分只征服了步行,但没有能够尝试更多的运动)。Kidziński 说,这些挑战“在计算上非常昂贵”。


从长远来看,Kidziński 说他希望这项工作不仅能让脑瘫的孩子受益。例如,它可能有助于人们设计更好的校准设备来协助步行或负载行走,或可以使用类似的想法来找到更好的棒球或赛跑技巧。


但是,Kidziński 说,他和他的合作者已经创造出一些重要的东西:一种解决生物力学问题的新方法,即利用虚拟的人在虚拟的环境中研究如何解决问题。