• 项目
首页>>文章列表 >>文化教育
文章列表

千亿身价马首富,百亿捐款盖茨豪,十亿涅槃罗永浩|科技圈最热人物盘点

 01、马化腾PK马云,首富如何由庞大长成伟大?

贝索斯和比尔·盖茨的世界首富换位赛刚过去不久,马化腾和马云就上演了一出中国首富“轮流坐”戏码。

根据8月7日福布斯首富实时排行榜统计,腾讯集团董事局主席马化腾当天以362亿美元身家,第一次问鼎中国首富。半天之后,阿里巴巴董事局主席马云重新夺回了首富宝座。

马云第一次登顶中国内地富豪榜是在2014年9月19日,那时阿里巴巴刚刚登陆纽交所。如果说马云缔造了全球最大的IPO,马化腾则缔造了全世界最赚钱的手游——腾讯二季度盈利225亿元,单单《王者荣耀》就贡献了一半收入,堪称手游界的印钞机。

作为中国第一代互联网创业明星,马化腾和马云的造富才干毋庸置疑,但首富光环背后也缠绕着网游监管、假货监管等难题。人们好奇:在“AT”跻身全球十大上市公司之列后,两位小马哥能否带领公司从庞大走向伟大?


 02、比尔·盖茨:豪捐47亿美元,退休后缘何还能富可敌国?

每每提起全球前十大上市公司,微软是一个绕不过的名字,这家早在1986年就已上市的公司,其市值目前达到了5610亿美元,位列全球前三。微软的成功,也让其创始人比尔·盖茨成了全球顶级富豪。

凭借手上持有的微软股票,再加上入股加拿大国家铁路公司、可口可乐等的股权投资,即便已经退休多年,比尔·盖茨如今仍然稳坐世界首富之位。

2008年,比尔·盖茨从微软管理层退休,开始将重心转移在慈善事业上。过去十年,他最乐于谈论的话题就是公益和慈善,尤为关注疟疾疫苗研究和穷人生活改善。

最近,比尔·盖茨被曝豪捐6400万股微软股份,基于目前微软股价来看,这笔捐赠总值高达46.8亿美元,这是比尔盖茨自2000年来做出的最大一笔捐赠,也是今年全球慈善史上最大一笔捐赠。

自1994年以来,比尔·盖茨夫妇一共捐出367亿美元资产给了梅琳达·盖茨基金会。比尔·盖茨早前最大的两笔捐赠分别发生在1999年和2000年,当时分别捐赠了价值160亿美元和51亿美元的微软股票。

在比尔·盖茨看来,预计到2035年,世界上将不再有贫穷国家存在——这是世界首富做慈善的动力,也是他的殷切期望,但贫穷真的会消失吗?


03、罗永浩:融资10亿元,能否涅槃重生?

 

有人愁钱如何花,有人愁钱怎么筹。当世界首富豪捐百亿资产时,锤子科技CEO罗永浩则为成功融资10亿元而松了一口气。

过去的2016年对罗永浩来说是非常凶险的一年,市场一度传出过锤子科技面临被收购、濒临倒闭、借钱度日的传言。没有人知道罗永浩到底经历了何样生死攸关的局面,不过这位处在险境中的“北派相声大师”总爱以革命乐观主义精神自嘲:“如果一个创始人不想让公司倒闭,他总有办法。”

罗永浩优先解决了钱的问题,有了资本傍身后,慢悠悠的锤子科技正在加速奔跑。“我们从明年开始会像一个正规的手机厂商一样,以高、中、低三个段位,每年推出 5-6 款产品。”在最近的极客公园Rebuild大会上,罗永浩如是说。按此节奏,锤子科技未来一年的产品产出数量,将是过去五年的总和。

过去几年,国产品牌华为、OPPO、vivo和小米凭借各自优势闯出了一片天。接下来这一年,罗永浩能找到办法带领锤子科技冲进手机市场的第一阵营吗?


 04、牛文文:创业黑马A股上市,个人财富暴涨600

 

当为了“情怀”创业的前媒体人罗永浩,还在为锤子科技的明日希望苦熬时,创业黑马创始人牛文文则已敲响了上市钟声。

曾经报道过一个又一个上市故事的牛文文,这一次将自己化身成了上市主角。历经危机、寒冬、资金匮乏和茫然之后,牛文文终于迎来了人生中极为闪耀的时刻——8月10日,创业黑马登陆深交所,借由上市,牛文文的财富随之暴涨600倍,以当天收盘价15.48元计算,其所持股份市值超过了4亿元,当年其投入不过66.34万元。

这位前《中国企业家》总编辑,9年前下海成了商人,他是淘金潮里最不可忽视的“卖铲人”,他办《创业家》杂志,也办黑马大赛和黑马学院。当很多媒体还在盯着广告营收这块蛋糕时,牛文文已将营收聚焦在了“创业培训+融资对接”上,以此收取佣金和服务费。

2013年,牛文文干脆关闭了《创业家》杂志的广告部和发行部,他还向记者们宣布:“未来,一个创业黑马的记者必须掌握三种技能,首先会看项目,其次会做黑马大赛服务,最后才是会写文章。”

就在创业黑马上市当天,财经媒体人吴晓波撰文感叹说:“我不知道文文是否喜欢现在的自己。我们被时代改变的部分,一定大于我们改变时代的那一部分。”

在向前迈进的滚滚红尘中,转身成商人的牛文文,一路在得到,一路也在失去,作为媒体人“铁肩担道义”的那颗初心,如今或许已渐行渐远。


 05、阿北:豆瓣拟境外上市,文艺如何插上商业翅膀?

比牛文文熬了更久才看见上市曙光的是豆瓣创始人杨勃(阿北)。近日,阿北发内部信透露,豆瓣将在境外上市。

豆瓣上一轮融资还是在六年前,那时它刚刚完成5000万美元融资、估值4.6亿美元,一度是当年炽手可热的互联网公司。

在互联网圈中,“慢公司”豆瓣是一个特别的存生,它静静生长了12年,一直被视为文艺青年的精神角落,不过在商业化道路上,它却始终不温不火,而背后的阿北也如他的产品一样静谧,他不爱热闹,鲜少接受媒体。

从上线虚拟城市“阿尔法城”、推行豆瓣FM音乐电台付费,再到尝试电子出版、电影票业务,推出社交电商产品形态“东西”和C2C社交电商平台豆瓣市集等,阿北低调地试水过多种盈利方式,但均未能对外展示豆瓣的商业爆发力。如今在各类商业化探索中,豆瓣广告依然是最主要的收入来源。

释放上市信号后,豆瓣亟需加速奔跑。根据阿北内部信显示,为了更好的管理成本,豆瓣计划陆续关闭一些长期没有起色、或在小营收规模亏损的产品和业务,包括一拍一、豆瓣东西、一刻和同城票务交易等。

在关心文艺如何变现的同时,豆瓣用户也许还会好奇:当“最文艺”的互联网平台插上资本和商业翅膀后,未来的豆瓣到底会长成什么样子?


06、李开复:拉上搜狗今日头条投入200万,如何催化AI落地?

文艺如何商业化是个难题,前沿的AI如何落地也是个难题。

为了加快AI落地,创新工场CEO李开复最近和搜狗CEO王小川、今日头条技术战略研究院院长张宏江一起组了个局,三方携手发起了首届“AI Challenger全球AI挑战赛”,竞赛设置200万元奖金池,力求吸引AI高手竞技比拼,拟打造中国最大的科研数据集与世界级AI竞赛平台。

数据、算法和计算能力是人工智能的三大基石,而数据则又是一切科研的基础。李开复如今感叹说:“在30多年前自己作为AI科研人员的时代,能接触到真实世界的海量数据是个遥不可及的梦想。”

在最近发表的名为《从1983到2017:我的幸运与遗憾》的自述文章中,李开复回溯起了自己的AI科研缘起。1980年代,还在卡内基·梅隆大学做科研的他,曾将机器的语音识别率从40%提高到了96%,这项研究成果一度让他名声大噪,不过意识到语音AI研究很难商业化,当时他很快便决定离开学界,转型进了商界。

人工智能热潮一波接一波,拥有AI科研情结的李开复,这一次能等来一个美好的商业化结局吗?

中国称霸AI三大优势,一初创公司将打破商汤单笔融资最高纪录

商汤的全球人工智能领域单轮融资最高纪录,很快会被另一家中国初创公司超越

徐立博士的软件可以扫描的脸部数量可以说是世界之最了。而这一点,他要感谢中国的警方。

 

徐博士创立的SenseTime(商汤科技)专注于开发可以识别物件和面部的人工智能软件。中国几家最大的智能手机品牌都是他们的客户。七月份的时候,SenseTime获得B轮融资4.1亿美元,创下全球人工智能领域单轮融资最高纪录。然而,这样耀眼的成绩很可能会很快被同样来自中国的竞争者们超越。

 

中国在人工智能上押上了巨大的赌注,来自中国的投资者、大型互联网公司和政府的资金源源不断地涌入人工智能领域。他们都相信,科技可以重塑整个经济与国防。同样的浪潮也在席卷大洋彼岸的美国,但是,在这场新型的全球竞赛中,中国有着三大优势:大量的软件工程师储备、可供测试的7.51亿巨型互联网用户基础,以及政府的强力支持。第三点的作用尤为重要,政府可以为研究提供海量的居民数据,而这一点,恰恰是西方政府束手无策的。

 

数据是一切的关键,因为AI工程师们就是通过数据来训练、测试算法,来让机器在没有人类工程师干预的情况下学习适应新环境、学习新技能。徐博士表示,SenseTime使用了来自广州公安的录像资料来开发自己的视频分析软件。大多数中国的大型城市也都设立了人工智能研究所,并且进行数据共享。“中国的人口众多,所以我们可以很轻松地收集到所需要的任何使用场景的数据信息。”他说。“而最大的数据源,就是政府。”

 


数据的浪潮只会越涨越高。中国刚刚把人工智能上升到了国家战略的高度。根据中国国务院印发的文件,中国的人工智能水平会在2030年达到世界领先水平,核心产业规模超过4000亿元。中国的科技巨头,特别是腾讯和百度,已经在摩拳擦掌。人工智能的应用已经慢慢出现在了人们的生活中:在上海,未来法院人工智能系统“上海刑事案件智能辅助办案系统(又称206)”正在测试中,该系统可通过学习大量的卷宗来判断证据的有效性,防治冤假错案的产生。


“在中国,数据一向是很容易得到的,只是现在,政府、组织以及公司终于明白了数据的价值。”在罗切斯特大学研究中国的计算机科学教授罗杰波表示。“只要能找到可以信任的伙伴,他们就会愿意共享这些数据。”


80%的政府数据已经在公众手中,并且会在保护好敏感数据的同时进一步公开

准星高考机器人 AI-Maths 在答高考北京文科数学卷   


几乎每个美国的科技公司都在人工智能领域砸下重金。机器学习是一种可以让无人驾驶汽车找到路线,让聊天机器人开口说话,让机器分析金融信息的人工智能。它要求电脑从原始数据中学习,而不是被手动编写的程序控制,而取得足够的数据一直是一个难题。

 

徐博士认为,这是一个全球性的现象。“目前,把数据公开化是一个趋势。比如说,NHS和谷歌最近就共享了一些医学图像数据。”

 

但是,这个例子却更能说明中国的优势。

 

谷歌的人工智能实验室 DeepMind 为了一款诊断学的app花费了近两年的努力才从英国国家医疗机构取得了医疗记录。DeepMind 使用了160万条病例记录来进行试验,然而在上个月,英国的顶尖隐私检查机构宣布该试验违反了英国数据保护法规。目前,这个试验的未来发展还不得而知。


而在中国福州,政府在6月26日举行了一个由风投Sequoia Capital协办的活动。参加活动的人员中包括来自戴尔、IBM和联想等公司的代表。来自戴尔公司的发言人表示,这次活动可以说是中国首次“健康医疗大数据生态峰会”。

 

根据参会的一家公司透露,在这次峰会上,政府官员向科技公司分享了80艾字节的心脏超声波视频。拿到如此海量的数据集的参会公司会开发出可以识别出心脏疾病的人工智能工具,其速度能够超过人类医疗专家。这个工具预计在今年秋天完成交付。

 

参会的企业之一Skymind的联合创始人ChrisNicholson表示:“中国人工智能市场的迅速发展是因为在这个快速成长的经济体中,人们勇于冒险、敢于尝试新科技。人工智能需要大数据,而中国政府就正在致力于提供用于人工智能研究的数据。”

 

来自IBM和联想的代表婉拒评论。上个月,联想的总裁杨元庆说,他会在接下来的三到四年时间里,在人工智能领域投资十亿人民币。

 

除了医疗之外,中国的金融业也欣欣向荣。某种程度上,这是由于中国的个人隐私管理要比西方宽松得多。几十年来,中国政府掌握着几乎每个人的档案,记录着档案持有人从医疗记录到学校成绩等大大小小的信息。这份档案可以决定一个居民的未来——从工作升迁到居留核准,影响力巨大。

 

与中国合作的美国的公司认为,中国在人工智能方面的努力并非用于军备。罗教授表示,大多数国防研究已经降到了与高校合作的层级,然而,政府的国家级计划之一就是把民用的、学术的和军用的人工智能发展进行更好的融合。

 

在2015年政府曾表示,他们正在建造一个用于衡量国民信用等级的全国数据库。去年,李克强总理表示,80%的政府数据已经在公众手中,并且会在保护好敏感数据的同时进一步公开。目前,中国直播视频的热度急剧上升,网民们每天花费数小时观看网上的视频——这些行为都被政府严密监控着。这也显示出了中国与西方在隐私管理上的鸿沟。同时,在中国司空见惯的监控摄像头也在夜以继日地产生着大量数据。



中国 AI 公司顶尖研究者年薪是美国公司的两倍

一些机器学习的研究者并不认为数据是万灵丹。Demis Hassabis在五月份的赴华行程中表示,如DeepMind的高级人工智能依赖的是“模拟的”数据。DeepMind使用的是Atari视频游戏来训练自己的系统。自动驾驶汽车软件的工程师们也经常模拟高速公路的岔口或者虚拟的车祸进行测试。

 

“确实,你确实能在中国得到一些在美国无法接触到的数据”来自Allen人工智能学院的OrenEtzioni表示。“但是这并不能说明美国处于绝对的劣势。重要的是算法设计,洞察力以及研究力。”

 

曾经在历史上,中国的科研力量很弱。中国曾经历了严重的人才流失,无数学者和专家逃离了中国。“中国目前面临着人才缺失的问题,缺少顶尖的人工智能专家”来自风投机构Andreessen Horowitz的ConnieChan说。“从2016年以来,虽然中国发布的深度学习论文要比美国还要多,但是这些论文的影响力还不及英美。”

 

陆奇 


但是中国正在成长之中。越来越多的中国顶尖工程师在美国的公司里创造着人工智能算法,渐渐地,也会有更多中国的公司出现。中国的高校和私人企业正在全球范围内积极地招募人工智能专家。来自罗切斯特大学的罗教授说,在美国的科技公司中,顶尖的研究者可以拿到50万的年薪,而通常中国的公司出价是美国公司的两倍。

 

同时,中国本土的人才开始展露锋芒。人工智能研究领域的一个标杆性竞赛ImageNet中,去年和今年的赢家队伍都是由来自中国的选手,其中还包括中国公安部三所。

 

中国大都市的污染是中国公司招募顶尖人才的阻碍之一。为此,一些中国公司转战硅谷。腾讯最近就在西雅图设立了自己的人工智能研究实验室。同样,百度也在西雅图开张了(编者注:2017年7月5日,百度全资收购了西雅图的初创公司kitt.ai),科技界巨擘、前微软的高管陆奇加入了百度,领导百度人工智能方面的研究。陆奇表示,科技的发展将巩固中国的“国家实力”,目前,在该领域中,有将近一半的学术研究出自华人学者之手。

 

“中国(在人工智能研究)有结构性的优势,因为中国可以得到更多、更好的数据来推动人工智能的发展。”陆奇说:“我们必须抓住这个能够领导世界的机遇!”

Alex Smola论文详解:准确稀疏可解释,三大优点兼具的序列数据预测算法LLA

近日,ICML2017收录的一篇论文引起了AI科技评论的注意。这篇关于序列数据预测的论文是 Alex Smola 和他在 CMU 时的两个博士生 Manzil Zaheer 和 Amr Ahmed 共同完成的,后者目前已经加入谷歌大脑。

Alex Smola是机器学习界的重要人物,他的主要研究领域是可拓展算法、核方法、统计模型和它们的应用,已经发表超过200篇论文并参与编写多本学术专著。他曾在NICTA、雅虎、谷歌从事研究工作,在2013到2016年间任CMU教授,之后来到亚马逊任AWS的机器学习总监。MXNet 在去年成为 Amazon AWS 的官方开源平台,而 MXNet 的主要作者李沐正是 Alex Smola 在 CMU 时的学生。

以下AI 科技评论就对这篇名为「Latent LSTM Allocation: Joint Clustering and Non-Linear Dynamic Modeling of Sequential Data」(潜LSTM分配:序列数据的联合聚类和非线性动态建模)的论文做具体的介绍。

研究背景

序列数据预测是机器学习领域的一个重要问题,这个问题在文本到用户行为的各种行为中都会出现。比如在统计学语言建模应用中,研究目标是在给定的语境下预测文本数据的下一个单词,这和用户行为建模应用中根据用户历史行为预测下一个行为非常类似。准确的用户行为建模就是提供用户相关的、个性化的、有用的内容的重要基础。

一个好的序列数据模型应当准确、稀疏、可解释,然而目前所有的用户模型或者文本模型都不能同时满足这三点要求。目前最先进的序列数据建模方法是使用 LSTM(Long-Short Term Memory)这样的 RNN 网络,已经有许多例子证明他们可以有效地捕捉数据中的长模式和短模式,比如捕捉语言中表征级别的语义,以及捕捉句法规律。但是,这些神经网络学到的表征总的来说不具有解释性,人类也无法访问。不仅如此,模型所含的参数的数量是和模型能够预测的单词类型或者动作类型成正比的,参数数量往往会达到千万级甚至亿级。值得注意的是,在用户建模任务中,字符级别的 RNN 是不可行的,因为描述用户行为的往往不是单词而是 hash 指数或者 URL。

从另一个角度看这个问题,以 LDA 和其它一些变种话题模型为代表的多任务学习潜变量模型,它们是严格的非序列数据模型,有潜力很好地从文本和用户数据中挖掘潜在结构,而且也已经取得了一些商业上的成果。话题模型很热门,因为它们能够在不同用户(或文档)之间共享统计强度,从而具有把数据组织为一小部分突出的主题(或话题)的能力。这样的话题表征总的来说可以供人类访问,也很容易解释。


LLA模型

在这篇论文中,作者们提出了 Latent LSTM Allocation(潜LSTM分配,LLA)模型,它把非序列LDA的优点嫁接到了序列RNN上面来。LLA借用了图模型中的技巧来指代话题(关于一组有关联的词语或者用户行为),方法是在不同用户(或文档)和循环神经网络之间共享统计强度,用来对整个(用户动作或者文档)序列中的话题进化变化建模,抛弃了从单个用户行为或者单词级别做建模的方法。

LLA 继承了 LDA 模型的稀疏性和可解释性,同时还具有 LSTM 的准确率。作者们在文中提供了多个 LLA 的变种,在保持解释性的前提下尝试在模型大小和准确率之间找到平衡。如图1所示,在基于Wikipedia数据集对语言建模的任务中,LLA 取得了接近 LSTM 的准确率,同时从模型大小的角度还保持了与 LDA 相同的稀疏性。作者们提供了一个高效的推理算法用于LLA的参数推理,并在多个数据集中展示了它的功效和解释性。

柱状图是参数数量,折线是复杂度。根据图中示意,在基于 Wikipedia 数据集的语言建模任务中,LLA 比 LDA 的复杂度更低,参数数量也比 LSTM 大大减少。

LLA 把分层贝叶斯模型和 LSTM 结合起来。LLA 会根据用户的行为序列数据对每个用户建模,模型还会同时把这些动作分为不同的话题,并且学到所分到的话题序列中的短期动态变化,而不是直接学习行为空间。这样的结果就是模型的可解释性非常高、非常简明,而且能够捕捉复杂的动态变化。作者们设计了一个生成式分解模型,先用 LSTM 对话题序列建模,然后用 Dirichlet 多项式对单词散播建模,这一步就和 LDA 很相似。

假设话题数目为K、单词库大小为V;有一个文档集D,其中单篇文档d由Nd个单词组成。生成式模型的完整流程就可以表示为(上图 a 的为例):

在这样的模型下,观察一篇指定的文档d的边际概率就可以表示为:

式中,就是文档中给定某个话题下的前几个词之后,对下一个次生成话题的概率;则是给定了话题之后生成单词的概率。这个公式就展现出了对基于 LSTM 和 LDA 的语言模型的简单改动。


这种修改的好处有两层,首先这样可以获得一个分解模型,参数的数量相比 RRLM 得到了大幅度减少。其次,这个模型的可解释性非常高。

另一方面,为了实现基于 LLA 的推理算法,作者们用随机 EM 方法对模型表示进行了近似,并设计了一些加速采样方法。模型伪码如下:

LLA变体

作者们认为,模型直接使用原始文本会比使用总结出的主题有更好的预测效果。所以在 Topic LLA之外,又提出了两个变体 Word LLA 和 Char LLA (前文 a、b、c 三个模型),分别能够直接处理原文本的单词和字符(Char LLA自己会对字符串做出转换,从而缓和 Word LLA 单词库过大的问题 )。

实验结果

在几个实验中,作者们把60%的数据用于训练模型,让模型预测其余40%作为任务目标。同步对比的模型有自动编码器(解码器)、单词级别LSTM、字符级别LSTM、LDA、Distance-dependent LDA。

柱状图部分的参数数量用来体现模型大小,折现的复杂度用于体现模型的准确率。可以看到,两个任务中 LDA 仍然保持了最小的模型大小,而单词级别LSTM表现出了最高的准确率,但模型大小要高出一个数量级;从单词级别LSTM到字符级别LSTM,模型大小基本减半,准确度也有所牺牲。

在这样的对比之下就体现出了 LLA 的特点,在保持了与 LDA 同等的解释性的状况下,能够在模型大小和准确度之间取得更好的平衡(目标并不是达到比LSTM更高的准确率)。


其它方面的对比如下:

收敛速度  LLA的收敛速度并没有什么劣势,比快速LDA采样也只慢了一点点。不过基于字符的LSTM和LLA都要比其它的变体训练起来慢一些,这是模型本质导致的,需要在单词和字符层面的LSTM都做反向传播。

特征效率  作者们做了尝试,只具有250个话题的三种 LLA 模型都比具有1000个话题的 LDA 模型有更高的准确率。这说明 LLA 的特征效率更高。从另一个角度说,LLA 的表现更好不是因为模型更大,而是因为它对数据中的顺序有更好的描述能力。

解释性  LLA和LDA都能对全局主题做出揭示,LLA 总结出的要更加明确。如下表,LDA 会总结出“Iowa”,仅仅因为它在不同的文档中都出现了;而 LLA 追踪短期动态的特性可以让它在句子的不同位置正确切换主题。 

联合训练  由于论文中的模型可以切分为 LDA 和 LSTM 两部分,作者们也对比了“联合训练”和“先训练 LDA,再在话题上训练 LSTM”两种不同训练方式的效果。结果表明,联合训练的效果要好很多,因为单独训练的 LDA 中产生的随机错误也会被之后训练的 LSTM 学到,LSTM 的学习表现就是由 LDA 的序列生成质量决定的。所以联合训练的状况下可以提高 LDA 的表现,从而提高了整个模型的表现。


中国今年包揽前三,KDD Cup 20年全回顾

从1997年至今,KDD Cup已有二十年历史。日前,第23届KDD大会在加拿大召开,会上,KDD Cup2017优胜者将进行成果展示。

2017年8月13-17日,第23届KDD大会在加拿大哈利法克斯召开,AI科技评论也在前线带来第一手报道。从7月到8月,围绕KDD,热点不断。先是加拿大西蒙弗雷泽大学计算机学院裴健博士当选ACM SIGKDD 新一任主席,紧接着,官方宣布裴健博士荣获 2017 SIGKDD 创新奖、香港科技大学教授杨强博士荣获 2017 SIGKDD 杰出服务奖。大会还没开始就吸引了不少目光。


当然,除了裴健博士和杨强博士的杰出表现,还有一个议程也让这届大会的关注量倍增——加拿大时间8月16日,KDD Cup2017优胜者将在会议上进行成果展示。由微软、美团联合北京航空航天大学的Convolution团队在KDD Cup 2017的两项任务中包揽第一。

两项任务的前三名名单如下:


KDD Cup迎来第二十年

从1997年举办至今,这届赛事已迎来第20个年头。作为目前数据挖掘领域最有影响力、最高水平的国际顶级赛事,KDD Cup每年都会吸引世界数据挖掘界的顶尖专家、学者、工程师、学生等前来参赛。它被誉为大数据领域的“奥运会”。


KDD Cup 2017 今年的任务是交通领域赛题,分两个任务:

  • Task 1: To estimate the average travel time from designated intersections to tollgates(预测车辆从路口到收费站的平均用时)

  • Task 2: To predict average tollgate traffic volume(高速收费站车流量预测)

赛程共计两轮,第一轮需要选手在20天内完成预测算法并提交测试结果,第二轮则会更换测试数据并要求选手在一周内完成新一轮的结果提交。


高速公路收费站是交通网络中众所周知的瓶颈。如果可以提前预测接下来一小时的交通拥堵状况,那么交通管理部门可以及时采取措施进行上游路口的流量诱导和控制。KDD Cup 2017希望参赛者可以设计一套预测交通流量和车辆到达时间的算法,用算法和数据来赋能交通领域,减少拥堵的发生。

2017年年初,KDD Cup组委会宣布采纳阿里云交通领域赛题时,曾有新闻报导:本次赛题源自阿里云人工智能ET在交通领域实施的案例之一,阿里云赛题负责人闵万里说,技术垂直化一直是阿里云的重要战略。在交通领域,我们打造了路况预测,信号灯优化控制一系列前沿项目,这些实践证明了本次赛题的技术可行性和业务实用性。

纵观KDD Cup历史,不只是2017,近年来,许多试题都有很强的应用背景。


亮点之一:强应用背景

2011年的主题是理解节奏韵律,预测音乐评分。比赛的数据集是雅虎音乐提供的超过1百万匿名用户的3亿条评分数据,这些评分分别针对歌曲、专辑、艺术家和音乐流派。比赛有两个任务,一是准确的预测用户的评分,二是区分用户喜爱的歌曲与其他歌曲。

2012年的任务一是根据腾讯微博中的用户属性、SNS社交关系、在社交网络中的互动记录等,来预测接下来最有可能被用户接受的推荐item列表。任务二是广告的点击率预估,提供用户在腾讯搜索的查询词、展现的广告信息、广告的相对位置和用户点击情况等,来预测后续时间用户对广告的点击情况。


连续两年,比赛的主题都为推荐系统。对用户而言,每天面对海量的资讯服务信息时,如何快速找到自己感兴趣的内容是件耗费时间和精力的事情。对于企业而言,手握海量资源,如何挖缺数据中的潜在价值从而留住用户,也是一种极大的挑战。个性化推荐系统则是解决上述问题的有效工具。

2015年,KDD Cup的主题是预测学生在学堂在线这个全中国最大的慕课平台中的逃课率。MOOC在线学习平台上学生的逃课率极高,因此预测他们接下来是否会选择逃课将对保持和激励学生的学习积极性十分有益,参赛者需要基于用户个人行为预测接下来10天内他们的逃课几率。

知乎上多名网友认为,2015年的比赛题目“挺有意思,也比较有实际意义”,有网友认为这个题目的设置跳脱了推荐大框架的桎梏,更具创新性。

此外,教育部于2015年4月出台《关于加强高等学校在线开放课程建设应用与管理的意见》时曾表明,教育部正密切关注世界范围内迅速兴起的大规模在线开放课程(MOOC)等新型在线开放课程的发展,将积极推动大规模在线开放课程与高等教育教学改革的大讨论。


亮点之二:国内企业越来越多的参与

当然,除了试题的纵深应用,盘点近几年比赛的承办方,国内企业出现的频率也越来越高。

上文就已经提到,2017年的比赛由阿里云承办。阿里云创立于2009年,隶属于阿里巴巴集团。从诞生到现在,阿里云目前覆盖欧洲、中东、日本和澳洲,本月4号,阿里云刚刚与澳门政府签署合作城市大脑计划。值得一体的是,阿里巴巴集团也是今年KDD大会的白金赞助商。


2014年的比赛由学堂在线(Xuetangx.com)承办。学堂在线是以清华大学计算机科学与技术系为主体的开发团队基于OpenEdX平台开发的,于2013年10月10日正式上线,可向全球用户提供MOOC课程。2015年5月,清华大学宣布依托学堂在线启动国内首个基于混合式教学模式的学位项目——“数据科学与工程”专业硕士项目。目前,学堂在线已是教育部在线教育研究中心的研究交流和成果应用平台。

而2012年的KDD CUP则由腾讯协办,试题也是基于腾讯微博海量的数据集。目前腾讯两个垄断性的社交工具——微信、QQ中,庞大的用户基数与海量的数据,都有待去慢慢挖掘和利用。

上图来自于网络,从中可以看出,2005-2010年的举办方中,还没有出现过中国企业的身影。

这一系列承办团队也从一个方面印证了国内企业的科研实力越来越强。据业内人士介绍,赛事的承办者需提供极有前沿应用价值的赛题和大规模数据作为挖掘样本。换言之,要想承办这场“奥运会”,如果没有深厚的学术积累和行业实践,是完全不可能的。


亮点之三:中国团队越来越靠前的排名

除了看到国内企业越来越雄厚的实力,AI科技评论了解到,中国团队也接二连三拿到不俗的表现。

  • 早在2004、2005连续两年,香港科技大学教授、IEEE Fellow杨强就引导其团队连续两年拿下KDD Cup比赛冠军。

  • 2011年的任务一预测用户的评分中,上海交通大学的InnerPeace团队获得季军,2012年的任务一预测用户偏好item中,同样来自上海交通大学的ACMClass@SJTU 团队夺得冠军。

  • 2015年的比赛冠军由多国军团——“the Intercontinental Ensemble”获得。在这支冠军队伍中,有两位中国的数据科学家,分别来自清华大学和网易公司。

  • 而在2017年,中国团队更是几乎包揽前20名。 

图为2017年KDD Cup得分排行榜

AI科技评论总结:纵观KDD Cup20年的历史,2010年之前,鲜少出现国内企业和学界的身影,而在2010之后,腾讯、清华、阿里一个一个相继出现。此外,在比赛中,中国团队的影响力也与日俱增。

滴滴大数据预测用户目的地,准确率超90%

在KDD 2017中滴滴研究院副院长叶杰平所带的滴滴团队关于出租车组合优化分单模型和目的地预测的论文《A Taxi Order Dispatch Model based On Combinatorial Optimization》被收录。


论文解读

相比于在搜索引擎中找到一个想要的网页,在茫茫车潮中匹配到一辆载你去目的地的车辆会更加复杂。因为网页可以持续呈现一整天,甚至半个月;但车辆是高速移动的,乘客和司机的相对位置一直在实时变动。匹配的过程和方式也极其重要,在一个既定区域,乘客有很多,车辆也有很多,系统需要全局考虑区域内的需求、供给,以毫秒级的速度进行计算,实时地进行最合理的分单,最大化用户的出行效率和出行体验。

这篇论文中介绍在滴滴出租车中使用的基于组合优化的分单模型,该模型相较于别的分单模型,整体成交率得到了提升。此外为了进一步提高用户叫车时的体验,滴滴还开发了一个目的地预测模型,能在用户打开软件时,2毫秒为用户推荐出他最可能前往的地点。目前这一功能的预测准确率已经超过90%。


1、分单时优化整体成交率

早期,出租车打车软件的订单分配主要聚焦在每个订单与每个出租车司机的相关性算法上。当一个乘客发起一单需求,系统会尽量匹配调度最近距离的司机,力图让接驾时间最短。然而此时往往会忽略到这些司机是否更适合其他订单。

此前业界曾提出过一个基于多代理体系结构的新模型NTuCab,它的目的是最小化乘客的等待时间和接驾距离。这一模型会将每个代理视为一个计算单元,它会同时计算处理N个订单和司机的匹配,但一个订单只会匹配一个出租车司机。如果一个出租车司机拒绝该订单,系统才会转发给下一司机。


然而这些方法的调度时间往往偏长,成功率较低。对此,滴滴出行提出了新的组合优化方法。在这个模型中,一个订单会播报给几个出租车司机,当多个出租车司机收到相同的订单时,最先抢单的人会获得订单。如果订单未被应答,则进入下一轮播单,直到它被出租车司机应答或被乘客取消。而模型的目标则是最大化订单成交率,从而确保司机和乘客的出行体验。实验数据也显示,这一模型下打车的全局成功率比同类模型高出了4%。

在滴滴的模型中一个主要的改进是使用“整体”的概念,即会整体考虑当前时刻所有待分配司机和订单群体的多对多的匹配问题。以成交率为优化目标,通过整体分配司机与乘客,提升乘客订单的整体成交率。

模型的数学形式即:

 

其中,max(E) 为整个模型的优化目标,即成交率;g(a)≤0 为模型必须要满足的约束条件,在这里可能是一些业务规则,比如一个司机同一时刻只能分配一个订单等;a 为模型的解,即如何对整体的订单和整体的司机进行分配。

假设当前有n个待分配订单,m 个待分配出租车司机,那么整体的待分配订单与待分配司机的匹配结果可以定义为一个m*n的矩阵A_m*n,其元素a_ij的含义如下:

 

其中,下标i代表订单,j代表司机。考虑到每个出租车司机同一时刻只能播送1个订单,那么对每个司机,也就是每个j而言,其至多只能播送n个订单中的一个,表现在矩阵中,就是对每个j的一列,至多只能出现1个“1”,其余必须全部为“0”。即:


2、Logistics Regression模型计算司机接受概率

虽然对模型的目标和求解进行了定义,但这其中,还存在一个关键因素,需要考虑司机对订单的接受意愿。司机接受订单的概率往往取决于诸多因素,如订单的价值、接驾距离、方向夹角、行驶方向等。这些信息可以编码成特征向量x_ij。

作者用p_ij表示司机dj对订单oi的接受概率,关于这个概率的计算,作者借鉴了计算广告学中CTR预估的方法,采用logistics regression模型来进行计算。

 

作者采用日志中的数据对logistics regression进行训练,以司机是否接受为y,其余特征为向量x,训练得到sigmod函数 y = 1/(1+exp(-w*x)) 中的权重向量w。将司机对订单的接受概率与模型关联起来,第i个订单的成交概率即为:

这样整个组合优化模型即为:

研究人员在北京进行了严格的AB测试,将该模型与另外两种行业普遍运用的模型进行了比较,把成交率、平均接驾时长、订单应答时长、取消率等业务关键指标作为核心评价指标。实验结果显示,该模型有更好的表现效果,订单整体的成交率提高了4%。


3、预测目的地:循环正态分布下的概率计算

在寒风凛冽的冬天,让用户哆哆嗦嗦地输入目的地,这个体验并不算好。如果能够在用户发出订单前,率先为用户推荐他最可能前往的地点,往往可以大幅减少他自行操作软件时间。

基于滴滴平台海量的历史数据,研究人员发现,人们的出行往往存在一定的规律,用户往往倾向在类似的时间到达相同的目的地;而对订单的位置进行分析,也有助于精准推荐用户的实时目的地。

基于这一观察,研究人员使用了贝叶斯公式建立用户目标的概率分布模型:

其中,T代表当前时间,D表示日期,(lat, lng)表示经纬度,{y1,y2,…,yi,…,yn}表示目的地的可能性,X表示出发地的时间和经纬度。那么剩下的问题是估计出发时间和地点 (经度和纬度)的概率分布:


而历史数据分析显示,用户目的地的出发时刻的频率直方图往往呈现如下正态分布,于是研究人员采用正态分布对出发时刻T的条件分布进行估计。但如何估计这个分布的期望和标准差,这就成为一个需要思考的问题。

考虑到时间和经纬度的分布具有周期循环性,均值和方差不能用传统方法来估计。因此研究人员使用了循环正态分布,建成一个优化模型,通过求解,得到了期望的平均值和方差。

这样整个算法的流程变为:首先根据用户的历史订单,依次计算每个目的地对应的发单时刻的期望和方差;然后根据当前时间计算每个目的地概率的中间数据;第三步用贝叶斯框架计算每个目的地的概率;最后确定阈值,满足阈值的就是研究人员要的计算结果:

Step1:根据用户订单历史,估计每个目的地的发单时刻集合的平均值和方差;

Step2:根据当前时间,计算每个目的地的P(T|X_i)和频率P(X_i);

Setp3:计算每个目的地的概率P(X_i | T )

Step4:确定支持度阈值s和概率阈值p,对满足阈值的予以首屏展示。

实验数据显示,这一预测模型明显优于基线模型,这一模型下的预估准确率达93%,较基线模型高出了4个百分点。

论文地址:http://www.kdd.org/kdd2017/papers/view/a-taxi-order-dispatch-model-based-on-combinatorial-optimization

比尔盖茨再捐46亿美元

初创企业对抗巨头碾压的5大策略

亚马逊,苹果,Facebook,谷歌和微软这些成功的大公司/平台持续增长,积累了更多的市场份额,创造了几十亿美元的收入。但是,这是否意味着一旦有新玩家“弄出些声响”,就会被这五巨头粉碎呢?


本文将介绍初创公司在日益被巨头主导的市场中生存和发展的 5种方式。


在开始讲之前,我们需要看一下背景——如今,技术领域愈发由少数巨头企业主导。我们重点关注“亚马逊,苹果,Facebook 和谷歌”这四驾马车。


Lee Hower 简洁地总结了这四大科技巨头的地位:……都拥有数千亿的市值,都占据一个庞大的市场类别,同时对 AR/VR,自动驾驶汽车,语音(voices),AI 等新兴技术进行战略的投资。传统观念认为,这四家公司在核心市场上是无可争议的,经济和政策力量使其地位更加稳固。”


苹果正在成为有史以来第一家万亿美元级别的公司。而 Facebook 和谷歌占据了 2016 年美国数字广告收入增长的 99%。亚马逊是全球最大的电子商务公司,创始人杰夫·贝佐斯(Jeff Bezos)在 2017 年 7 月成为世界上最富有的人。


此外,过去几年来,越来越多的人担心App 开发人员里“中产阶级”正在消失,因为极少数的开发人员获得了 App 销售的绝大部分资金,而且趋势越来越明显。


随着巨头将其业务扩展到越来越多的市场——Facebook 是虚拟现实,谷歌是人工智能,亚马逊是零售食品等——初创企业生存的空间在哪里?如何与这些巨头竞争?


下面我们来看看 5 种具体的方法。


1、了解你的独特优势

在任何一个由巨大主导的市场上,成功建立技术创业公司的第一步,就是确保你清楚地了解你作为一家小型创业公司独一无二的优势。


Facebook 和谷歌这样的大型企业具有以下主要优势:


  • 拥有庞大的资源(金钱,人事,社会资本);

  • 几乎可以在营销和广告方面胜过所有竞争对手;

  • 比规模小一些的公司拥有更多的知名品牌,并建立了客户忠诚度;

  • 可以利用大规模经济在定价上占据更多话语权;

  • 比资金不足的公司,能购买更先进的技术。


但是,小型科技创业公司也有亚马逊和苹果这样的企业没有的好处和特权:


  • 初创公司可以更快更有效地跟随市场(pivot),调整速度更快,更精确——大企业往往遭受“创新者困境”的困扰,不能拥抱并有效地适应颠覆性技术;

  • 小公司可以以客户服务为导向,用户小因此与用户的个人互动也就多;

  • 可以省去官僚主义和“繁文缛节”,因此可以更有效地针对客户的需求,调整产品和服务;

  • 有更大的能力与客户建立一对一的“真正”关系,这对客户粘性至关重要;

  • 因为姿态低,小公司往往更“灵活”,以便处在市场发展和客户需求等的前沿。


一旦认识到你的创业公司该如何有效地将自身置于利用自己的独特优势,那么现在就该采取一些行动。



2、开辟自己的蓝海,避免在巨头的主航道竞争

当一家庞大的科技公司“入侵”你的创业公司所在的市场时,你不应该直面对手。当然,也有例外情况,但在大多数情况下,一家试图与庞大的企业直接竞争的小公司将会失败。


在这一点上,安德鲁·布莱克曼(Andrew Blackman)提到蓝海战略,并建议:


公司应该找到一片平静的蓝色水面,没有其他人在这里游泳,而不是加入大家都拼死拼活的红海(血海)。换句话说,与其与竞争对手的优势相抗衡,不如寻找机会回避他们,并在市场上创造属于自己的空间。



3、提供无与伦比的客户服务

如果你正在经营一家可能必须得跟 Apple、Amazon 等竞争的初创公司,那么你必须得承诺为你的每一位客户提供世界一流的服务。


正如 Henry Elkus 曾经指出,一个调整好自己的方向的小企业在客户服务方面可以轻松胜过它的较大的竞争对手。


这被称为“店主优势”(shopkeeper’s advantage)。大企业往往很难为每位客户提供同等的亲切、一对一的服务,而小企业在这方面有明显优势。


我最近一篇文章也强调了对于创业公司来说提供一流的客户服务的重要性:“提供卓越的客户服务是逐步取得客户信任,形成品牌忠诚度和客户支持的一种方式。此外,有效的客户服务对于长期吸引新客户和留住老客户来说至关重要。”


在与 Appster 的创业公司合作时,我们建议创始人始终确保他们的客服人员要做到:


  • 礼貌、谦恭、真诚地做事;

  • 迅速回应用户的帮助请求;

  • 寻求客户反馈,改善客户服务;

  • 定期对客户的忠诚度和应用评级/评价提供奖励;

  • 为客户提供大量免费、有用的信息(例如网站上的FAQ)。


像 Facebook 和谷歌这样的大企业有时候很难理解的是:


4、将后端最大化

为了在当今的时代取得成功一个app必须要远远提供超出智能手机屏幕上显示的内容。


应用程序公司应该提供精心设计、可靠而且广泛的后端服务,例如消息传递,共享,同步和其他基于Web的功能,并且是全天候提供。


这是另一个小公司能够做得很好,不输于巨头企业的领域。


Brent Simmons 坚持认为,独立的开发人员在基于云的服务方面可以不比大公司逊色,他说:


“我认为我们将开始看到更多移动开发人员将他们的应用程序视为一种在线服务的美丽呈现,他们在开发app的同时也是在创造。”


大部分人很容易认为,只有大的玩家才能创造引人注目的在线服务。但是,我越来越认为不是这样。相关工具和技术的发展进步如此之快,开发的成本也在不断下降。


因此,请确保你的应用程序的后端服务与应用程序本身的核心功能受到同等的重视。



5、与巨头达成战略合作

奇怪的是,有时候初创公司得到大生意的最有效方式是与主导该业务的巨头公司合作。


有时候最有效率的创业公司可以使得当一家巨型企业开始在其利基工作时,是与该主导业务合作。


Sharon Hadary 认为,通过“确定你的公司可以为双方成功带来什么利处”,与新公司合作(或成为分包商),新公司往往能够获益匪浅。


虽然这种做法的适当性取决于具体情况,但有时可能会帮助创业公司避免被大型玩家“吞噬”,而且还能获得新业务,增加声誉。