• 项目
首页>>文章列表
文章列表

与游戏厂商合作 DeepMind为何在3D游戏中训练AI

据《福布斯》报道,DeepMind与游戏开发平台商Unity Technologies已针对人工智能在虚拟环境中的模拟训练结成了重要的合作关系。



参加伦敦的奥莱利人工智能大会期间,Unity的人工智能副总裁丹尼·兰格(Danny Lange)在接受《福布斯》采访时指出,“就目前而言,DeepMind将把对深度强化学习的研究提升到新的高度。”深度强化学习是一种更接近人类思维方式的人工智能方法,可同时利用积极和消极信号来训练算法。


兰格表示,“我们正与DeepMind携手,使他们能够打造一种虚拟世界环境。这为处理实际的复杂问题开启了大门。”


利用Unity的虚拟世界平台,DeepMind工程师可展开大规模的3D模拟,这些模拟结合了时间和空间等物理数据点以及预先编程的数据。《神庙逃亡》和《炉石传说》等全球一半的移动游戏使用着Unity研发的游戏开发平台。


这意味着“我们可以训练机器人来充当管家,解决家中的各项事务,”兰格称,“还可以训练无人车。这些事情都可以在虚拟环境中执行。”


作为全球最先进的人工智能公司之一,谷歌旗下的DeepMind已经发表了200多篇经同行审议的论文。DeepMind出品的AlphaGo程序能够自学,还击败了世界顶级的围棋高手。但DeepMind也一直在亏钱。


四年前,谷歌以6亿美元收购DeepMind。2016年及2017年,DeepMind分别亏损1.64亿美元和3.68亿美元。尽管有报道称谷歌和DeepMind因经营亏损而关系紧张,但业内普遍认为,DeepMind是谷歌对未来的一大赌注——未来在人类每日使用的各种服务中,深度学习算法将举足轻重。



DeepMind和Unity的合作背后其实有着深厚的前世因缘。DeepMind的共同创始人是前国际象棋神童德米斯·哈萨比斯(Demis Hassabis,上图)和儿时朋友穆斯塔法·苏莱曼(Mustafa Suleyman)。在游戏方面,DeepMind拥有一定根基,曾使用过Atari平台等游戏环境,DeepMind实验室也曾致力于算法训练。


DeepMind常表示,其长期使命是推进人工智能研究,解决长期存在的“人工智能”难题,让计算机能够像人类一样学习和思考。DeepMind的一些研究已在谷歌的一些产品中得到应用,如,Google Home中融合的文本到语音技术以及辅助冷却谷歌数据中心的人工智能推荐系统。


然而,即使怀有崇高的使命,DeepMind并不是非营利组织,某种程度上它需要开始赚钱。与Unity的合作有望帮助DeepMind的人工智能研究投入商用、找到生财之道。

AI寒冬将至?行业大咖呼吁重启AI再出发

AI仍在继续兴起,尽管它并没有成为人们所期待的那种广泛性力量。在过去几年中,AI领域的发展速度令人震惊。自2000年以来,活跃的AI初创企业数量增加了14倍,风投对AI初创企业的投资增加了6倍,需要AI技能的工作比例增长了4.5倍。


不过,领先的互联网数据统计机构Statista发布的调查结果显示,截止2017年,全球只有5%的企业在其流程和产品中广泛采用了AI,32%的企业尚未采用AI,22%的企业甚至没有采用AI的计划。知名AI研究人员菲利普·皮恩尼斯基(Filip Pieniewski)最近在科技媒体Venturebeat上撰文,阐述了他的观点,宣称“AI寒冬即将到来。”


皮恩尼斯基说:“我们现在正处于2018年中后期,AI领域的情况已经发生了变化。尽管表面上看似乎并非如此,比如NIPS会议仍然超受欢迎,企业公关团队在新闻发布会上仍然充斥着AI,美国连续创业家伊隆·马斯克(Elon Musk)仍在承诺打造无人驾驶汽车,谷歌也始终在推动吴恩达(Andrew Ng)的理念,即AI比电力更强大。但这种叙述已经开始崩溃。”


我们极力宣传无人驾驶汽车的愿景。今年春天早些时候,一名行人被无人驾驶汽车撞死,这一事件引起了人们的警觉,人们不仅质疑这项技术,还质疑无人驾驶系统决策的背后是否存在道德问题。无人驾驶汽车的问题不是在挽救1个人还是5个人之间做出简单的二元选择,而是在演变成一场关于良知、情感和感知的辩论,使机器做出合理决策的道路变得更加复杂。


皮恩尼斯基等人得出的结论是:全自动无人驾驶汽车的梦想可能比我们想象的遥远得多。AI专家们越来越担心,无人驾驶系统要想可靠地避免事故,可能还需要数年甚至数十年时间的努力。”


AI落地只是试点

让我们以史为鉴来看下,云计算和网络工业都花了大约5年的时间才开始对人们的生活产生重大影响,而这些行业影响市场的重大转变也花了近10年时间。我们正在为AI设想一个类似的时间表。正如平台技术、开源和封闭源系统以及AI技术方面经验丰富的工程主管凯伦·班尼特(Karen Bennet)解释的那样:


“为了让每个人都能采用,一款产品需要方便可用,需要是能够扩展至被所有人使用,而不仅仅是服务于数据科学家。该产品将需要考虑数据生命周期中数据捕获、准备、培训模型和预测等环节。随着数据被存储在云端,数据管道可以不断地提取,并准备用它们来训练模型,从而做出预测。模型需要借助新的训练数据不断改进,从而保持模型的相关性和透明性。这就是目标和希望。”


我(本文作者杰西·琼斯(Jessie Jones))和班尼特都来自科技和AI初创企业。我们所见证的以及在AI社区中与同行讨论中我们所意识到的是,我们正在众多商业问题上进行广泛的实验,然而这些实验往往停留在实验室中。这篇最近的文章证实了当今普遍存在的AI炒作问题:


“AI技术供应商往往会受到激励,让他们的技术听起来比实际中更强,但这也暗示了它们在现实世界中的吸引力比实际上更大……企业中的大多数AI应用程序不过是‘试点’。在AI领域兜售营销解决方案、医疗保健解决方案和金融解决方案的供应商,基本上只是在测试这项技术。在任何特定的行业中,我们发现,在销售AI软件和技术的数百家供应商中,只有大约三分之一的公司具备开发AI所需的技能。”


风投公司意识到,他们可能在一段时间内看不到投资回报。然而,AI还没有准备好迎接黄金时段的到来,原因之一就在于几乎无处不在的AI实验几乎都没有看到曙光。


算法需要负责任吗

我们听说过AI“黑箱”,即研究人员目前还不清楚AI如何做出决策。这种做法是在银行和大型机构面临要求问责制的合规标准和政策的情况下出现的。由于系统是作为“黑箱”操作的,只要这些算法的创建经过了审查,并且满足了关键涉众的一些标准,人们就可能对算法产生固有的信任。


鉴于大量证据表明开发中的算法存在缺陷,以及由此产生意想不到的有害结果,这种观点很快就引发了争议。我们的许多简单系统都像“黑箱”一样运作,超出了任何有意义的审查范围,原因包括公司有意保密、缺乏足够的教育以及缺乏了解如何批判性地检查输入、结果,最重要的是,不理解为何会出现这些结果。


班尼特表示:“如今,AI行业正处于企业准备采用的早期阶段。AI是非常有用的,可以通过大量的数据进行发现和分析,但是它仍然需要人类的干预作为对数据及其结果进行评估和行动指南。”



班尼特还澄清说,如今的机器学习技术使数据能够被标记出来,以帮助识别真知灼见。然而,作为这个过程的一部分,如果有些数据被错误地标记,或者没有足够的数据训练,亦或者有问题的数据产生偏见,很可能会出现糟糕的决策结果。她还表示,目前的流程仍在不断完善:“目前,AI都是关于决策支持的,以提供洞察,让企业可以从中得出结论。在AI发展的下一个阶段,AI可将数据中的动作自动化,还有些额外的问题需要解决,比如偏见、可解释性、隐私性、多样性、伦理和持续的模型学习等。”


这表明,要想真正理解AI产品,需要有个关于对象和人的常识世界模型,以帮助AI去真正了解它们。一个模型只暴露在有限数量的标记对象和有限种类的训练中,这将限制这个常识世界模型的有效性。企业需要进行研究,以确定模型如何处理其输入,并以人类可以理解的方式得出其结论。亚马逊发布的面部识别技术Rekognition,是目前正在研发和许可使用的AI技术的典型例子,但其有效性存在明显的差距。


美国公民自由联盟发布的一项研究称:“亚马逊的技术将28名国会议员的照片与罪犯公开的脸部照片混淆了。鉴于亚马逊积极向美国各地的执法机构推销自己的Rekognition,这显示其还远远不够好。”算法正义联盟(Algorithmic Justice League)的创始人乔伊·布拉马维尼(Joy Buolamwini)在最近的一次采访中,呼吁暂停这项技术,称其无效,并需要更多监管。此外,在这些系统被公开发布之前,政府应该制定更多相关标准。


数据的完整性问题

如今的AI需要大量的数据才能产生有意义的结果,但无法利用其他应用程序的经验。虽然班尼特认为克服这些局限性的工作正取得进展,但是在模型以可扩展的方式应用之前,学习的转移是有必要的。然而,在某些情况下,AI可以在今天得到有效的应用,比如在图像、声音、视频和翻译语言方面的洞察力。


企业正在学习应该关注的问题:

1)数据的多样性,包括适当人群的代表性。

2)在创建算法的过程中确保不同的经验、观点和思维。

3)数据质量优先于数量。这些都是非常重要的,特别是随着偏见的引入,对AI的信任和信心数据都在下降。例如,在土耳其语中属于中性的语言,谷歌翻译中的AI模型在将其翻译成英语时却错误地预测了性别。


此外,癌症识别AI在图像识别训练时只使用皮肤白皙的人照片。从上面的计算机视觉例子中,乔伊·布拉马维尼(Joy Buolamwini)测试了这些AI技术,并意识到它们在识别男性VS女性或浅色VS深色皮肤方面更有效。识别男性的错误率低至1%,而识别深色皮肤女性的错误率则高达35%。这些问题的发生是因为没有使用多样化的数据进行培训。


班尼特承认:“AI的概念很简单,但通过获取越来越多的真实世界数据,算法会变得越来越聪明,然而要解释这些决策却变得极其困难。数据可能会不断变化,AI模型需要进行过滤,以防止错误的标签,比如将非洲人贴上大猩猩的标签,或者将熊猫误认为长臂猿。企业依靠错误的数据来做出决策,将导致更加糟糕的结果。”


幸运的是,由于AI的狭义存在,很少有公司会根据今天的数据做出重大商业决策。从我们所看到的情况来看,大多数解决方案主要是产品推荐和个性化营销沟通。由此得出的任何错误结论都不会对社会造成太大影响,至少目前如此。使用数据来进行业务决策并不新鲜,但发生变化的是使用结构化和非结构化数据的数量和组合正呈指数级增长。AI使我们能够持续性地使用来自他们源头的数据,并更快地获得洞察力。对于具有处理来自不同数据源的数据和结构能力的企业来说,这意味着巨大的机会。


然而,对于其他企业来说,大量的数据可能代表着一种风险,因为不同的来源和格式使得转换信息变得更加困难。这些信息来自电子邮件、系统日志、网页、客户记录、文档、幻灯片、非正式聊天、社交网络以及图像和视频更丰富的媒体。数据转换仍然是开发干净数据集和有效模型的绊脚石。


偏见比我们意识到的更普遍

许多商业模型都存在偏见,以最小化风险评估和优化目标机会,虽然它们可能产生有利可图的商业结果。但众所周知,它们会导致意想不到的后果,导致个人伤害,加大经济差距。保险公司可能会利用位置信息或信用评分数据向较贫穷的客户发放更高的保费。银行可能会批准信用评分较低的贷款申请,尽管这些人已经负债累累,可能无法负担更高的贷款利率。


由于AI的引入不仅会使现有的偏见永久存在,而且这些学习模型的结果可能会推广到加深经济和社会鸿沟的程度,因此围绕着偏见的谨慎程度也越来越高。在当前情况下,偏见出现在类似“替代性制裁的惩罚性罪犯管理分析”(Correctional Offender Management Profiling for Alternative Sanctions,简称COMPAS)的算法中。


COMPAS是由名为Northpointe的公司创建的,目的旨在评估审前听证中被告犯罪行为的风险,并作出预测。COMPAS初步研究中使用的问题类型足以显示,无意中对待黑人的偏见会在系统中延续。在没有公共标准可用的情况下,Northpointe得以自己创建公平的定义,并在没有第三方评估的情况下开发了一种算法。这篇文章证明:一个流行的算法在预测犯罪方面并不比随机的人更好。


如果这款软件和未受过训练的人对在线调查的反应一样准确,我认为法院在做决定时应该考虑到这一点。班尼特称:“当我们试图修复现有系统以最小化这种偏见时,关键是要对不同的数据集进行模型训练,以防止将来产生危害。”由于错误模型的潜在风险遍布企业和社会,企业没有治理机制来监督不公平或不道德的决策,而这些决策将无意中影响最终消费者。



对隐私日益增长的需求

我和班尼特都曾在雅虎工作过,我们与强大的研究和数据团队合作,能够在我们的平台上对用户的行为进行仔细研究。我们不断地研究用户行为,了解他们在音乐、主页、生活方式、新闻等众多属性方面的倾向。当时,对数据使用没有严格的标准或规定。隐私被降级为平台上用户被动遵守的协议中的条款和条件,与今天的情况类似。


最近的剑桥分析公司滥用Facebook用户数据丑闻把个人数据隐私问题推到了风口浪尖。主要信贷机构(如Equifax)、最近的Facebook和Google +频繁发生的数据泄露,继续加剧了这一问题。2018年5月25日生效的欧洲《通用数据保护条例》(GDPR)将改变企业的游戏规则,特别是那些收集、存储和分析个人用户信息的公司。它将改变企业经营多年的商业规则。毫无节制地使用个人信息已经到了紧要关头,因为企业现在会意识到,数据的使用将受到重大限制。更重要的是,所有权之争更为激烈。


我们看到了定位广告的早期效果。这个价值750亿美元的行业,预计到2021年将以21%的年复合增长率增长,但仍受到Facebook和谷歌的寡头垄断的阻碍,它们获得了大部分收入。现在,GDPR加大了风险,让这些广告技术公司担负起更多责任。这种风险非常高,以至于(广告商)必须非常确定,你被告知的内容实际上是符合要求的。对于什么最终会构成违规,似乎存在着足够多的普遍困惑,人们对此采取了广泛的方法,直到你能够准确地了解合规。


尽管监管最终会削弱营收,但至少就目前而言,移动和广告平台行业也正面临着越来越多的审查,这些行业多年来一直在从消费者身上赚钱。这一点,再加上围绕既定实践的审查,将迫使行业改变收集、聚合、分析和共享用户信息的方式。对隐私进行操作需要时间、重大投资以及心态上的改变,这些将影响企业政策、流程和文化。


AI与伦理道德不可避免的结合

AI的普遍因素确保了社会效益,包括简化流程、增加便利性、改进产品和服务,以及通过自动化检测潜在的危害。在最后一点上妥协可能意味着,更容易依据更新的制造过程、服务和评估解决方案、生产和产品质量结果来衡量投入/产出。随着关于AI的讨论和新闻的持续,“AI”这个术语和“伦理”的结合,揭示了越来越严重的担忧,即AI技术在哪些方面会造成社会损害,从而考验人类的良知和价值观。



除了个人隐私问题,今天我们看到了一些近乎不合情理的创新例子。如前所述,Rekognition被用于执法和公民监视,而该技术被认为是错误的。谷歌决定向美国国防部提供AI技术支持,用于分析无人机拍摄的视频,目标是帮助创建一个复杂的系统,在名为project Maven的项目中对城市进行监测,许多员工为此发起抗议,甚至不惜辞职。


决策者和监管机构将需要引入新的流程和政策,以恰当地评估AI技术的使用方式、用途和过程中是否会出现意外后果。班尼特指出了AI算法中数据使用的新问题需要考虑,包括如何检测敏感数据字段并匿名化它们,同时保留数据集的重要特性?我们能在短期内训练合成数据作为替代品吗?在创建算法时,我们需要问自己一个问题:我们需要哪些字段来提供我们想要的结果?此外,我们应该创建哪些参数来定义模型中的“公平”,这意味着是否会区别对待两个个体?如果是这样,原因是什么?我们如何在我们的系统中持续监控这一点?


AI寒冬?也许是AI走向更美好未来的良机

AI已经走了很长的路,但还需要更多的时间来成熟。在一个自动化程度和认知计算能力不断提高的世界里,即将到来的AI寒冬也为企业提供了必要的时间,让它们来决定如何将AI融入企业中,以及如何利用AI解决面临的问题。AI面临问题需要在政策、治理以及对个人和社会的影响方面加以解决。


在下一次工业革命中,AI的影响要大得多,因为它的无处不在将在我们的生活中变得更加微妙。杰夫·辛顿(Geoff Hinton)、李飞飞(Fei Fei Lee)和吴恩达(Andrew Ng)等AI领域的领军人物,都在呼吁重启AI,因为深度学习尚未被证明具有可扩展性。AI的前景并没有减弱,相反,人们对其真正到来的期望被进一步推高,也许还需要5到10年。


我们有时间在深度学习、其他AI方法以及有效从数据中提取价值的过程中研究这些问题。这种商业准备、监管、教育和研究过程的完成对于加快商业和消费者的步伐,确保一个适当约束技术的监管体系到位,以及让人类在更长时间内掌控科技的监管体系来说都是非常必要的。

华为发力AI,寒武纪很受伤?

10月10日,华为的全联接2018大会在AI界刷屏,也让华为供应商——芯片设计公司寒武纪引来了不少议论。这次大会上,华为首次对外系统阐述其AI战略,推出了全栈全场景AI解决方案和算力超群的昇腾910、昇腾310两款AI芯片。


处于议论另一端的寒武纪,一直致力于提供终端AI处理器IP和云端智能芯片,这与华为如今发布的AI战略想要瞄准的市场有一定程度的重合,华为建立在完全自制的AI计算架构上的昇腾方案,同样采用云+端的策略。而寒武纪此前也为华为麒麟970芯片提供NPU(神经网络单元)当中的AI核心架构,与华为是合作关系。


外界好奇,力推AI战略的华为今后是否还需要寒武纪?华为与寒武纪是否真如外界所说,会从合作关系变为竞争对手,以及AI独角兽寒武纪的商业化落地究竟做的如何?


寒武纪与华为从合作变竞争?


寒武纪把自己定位成一家独立的芯片公司,为下游厂商提供不同尺寸、面向不同应用场景的终端AI处理器IP以及覆盖inference(推断)和training(训练)的不同处理能力的云端智能芯片。


2017年9月初,华为在IFA 2017柏林消费电子展上发布了传闻已久的”人工智能芯片“——Kirin 970(麒麟970)。这是“全球首款第一枚手机AI芯片”。这款芯片就集成了寒武纪1A处理器的IP作为其核心人工智能处理单元(NPU——Neural Network Processing Unit)。


不过,市场上关于华为自己做AI的说法就没断过,华为的AI架构“达芬奇” (Da Vinci)也传闻已久。在日前的全连接大会上,徐直军首次公开回应,他称, “(达芬奇)是基于我们对人工智能的理解和我们的需求自然而然产生的。寒武纪的也很好,但是没法支持我们所需要的全场景”。


徐直军表示,华为需要的是从云到边缘、到端、到各种物联网终端,全场景的支持,因此必须要开创一个全新的架构,要能实现极致的功耗需求、极致的算力需求全覆盖。


实际上,在麒麟970芯片发布时,对于与寒武纪的合作,华为对外就显得轻描淡写;寒武纪在自家官网则大方写到,集成寒武纪1A处理器的世界首款人工智能手机芯片华为麒麟970正式发布并在华为Mate 10手机中投入大规模商用。


今年8月底,华为发布的新一代旗舰处理器麒麟980搭双核NPU,搭载了寒武纪1A的优化版本,但具体采用了哪个优化版本,华为未做出说明。对此,麒麟980芯片相关负责人曾对媒体表示,华为原本是不打算做宣传的,而是靠口碑营销,因为“消费者只要用了就知道有多好”。


对此,有接近华为的人士表示,寒武纪只是华为的其中一个供应商,华为的做法应该是符合双方合作规定的,不然寒武纪是可以状告华为的。


业界也有声音认为,随着华为昇腾系列IP以及达芬奇架构的正式发布,麒麟900系列处理器很快将集成自家的昇腾IP而非寒武纪的NPU,实现与寒武纪彻底切割,甚至成为寒武纪的直接竞争对手。寒武纪的AI架构看起来更像是华为AI过渡时期的救急产品,这或许也是华为对与寒武纪合作态度相对低调,不愿宣传的一个原因。


“这件事(达芬奇架构)在意料之中”,寒武纪创始人兼CEO陈天石近日公开回应称,“如果华为这样的有能力、有平台的巨头都不打算自研AI芯片,只能说明AI芯片还不够重要。”


不过,陈天石否认寒武纪与华为的竞争关系,他称,目前与华为的合作仍在继续,而华为发布的峰值性能16T的昇腾310和寒武纪今年5月发布的128T峰值的MLU100没有竞争,因为两者场景不同——前者主要是边缘端,而后者是云端,峰值性能也不同。


寒武纪的商业化与挑战


一向低调的寒武纪在一级资本市场备受追捧,成立至今吸引了一众知名投资机构和互联网巨头的投资。在2017年A轮融资后,它就第一个迈进了全球AI芯片领域的独角兽大门,一时风头无两。2018年5月,寒武纪科技宣布完成数亿美元B轮融资。其投后整体估值达25亿美元。


AI投资热潮后的今天,人工智能公司已经到了用业绩证明实力,对投资方有所交代的时候。


外界关于华为将与寒武纪切割、直接竞争的讨论让寒武纪的商业化落地备受关注。


寒武纪终端处理器IP产品已衍生出1A、1H、1M等多个型号,适用范围可覆盖智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备的芯片中。


寒武纪表示,其终端客户主要以SOC厂商为主,目前客户包含华为海思、紫光展锐、晨星(MStar)/星宸半导体等中国最顶尖SoC芯片公司。寒武纪的IP客户晨星(MStar)/星宸半导体的智能摄像头也已量产并发货,其它客户的产品也将陆续发货。 晨星(MStar)总部位于中国台湾,是全球知名的家电嵌入式IC芯片厂商。


而寒武纪MLU100和MLU200则主要服务于云端服务器端的智能处理需求,偏重于推理和训练两个用途。在此方面,寒武纪和中科院系的公司——中科曙光、中科创达的合作紧密。中科曙光利用寒武纪架构打造出针对推理应用优化的服务器。此外,联想和浪潮也发布了搭载寒武纪云端芯片的AI服务器产品。


不过,寒武纪面对的竞争也十分激烈。


在智能手机领域, 除了华为拥有了自己的AI战略,小米也在自研芯片,拥有自己的“澎湃”系列处理器;其它如VIVO、OPPO等手机厂商,则选择了高通骁龙系列或联发科等老牌巨头产品。苹果和三星则早已步入封闭式自我研发的阶段。寒武纪想要继续扩大市场份额,或许有些困难。


在安防监控领域,寒武纪与华为海思、深鉴科技、北京君正、国科微等抢夺同一块蛋糕,厮杀已久。后起之秀也源源不断,竞争非常激烈。


而在无人机领域,高通、英特尔、英伟达、联芯、华为海思、三星等巨头早已瓜分大部分市场。


除了华为,阿里、百度,格力等都在做自有的AI芯片,随着巨头纷纷入局,寒武纪作为独立的芯片公司如何找到自己的生存空间,这或许的当下更具挑战的问题。

亚洲股市继续走弱 港股跌超1% 腾讯大跌3%

香港超低息环境已经结束,正式进入加息周期。与此同时,亚洲股市继续下挫。


10月15日周一,香港恒生指数低开0.5%,跌幅随后扩大1%附近;日本日经225指数跌幅一度扩大至1.7%,早盘收跌1.4%;东证指数一度跌1.4%,早盘收跌1%;韩国综指现跌0.47%。


港股“股王”腾讯盘初跌幅一度扩大至3.1%,目前已收窄至1.2%左右,市值在2.7万亿港元附近徘徊。周末,央视《焦点访谈》报道了“沉迷于手机游戏的留守儿童”的问题。节目中提到,“大批农村孩子正在被手机游戏荒废掉。”


上周,腾讯创下史上最长连跌纪录连跌十日,相较于1月峰值已累计跌去近40%的市值。



周日,香港财政司司长陈茂波撰文称,香港的超低息环境已经结束,展望明年,利率继续上升无可避免。


他预期美联储加息和自去年十月开始的按月缩减资产负债表规模的行动仍会继续,这对美元汇率和全球息率都有影响。香港可能还会步入逐步加息,资产市场的风险不能忽视。


言论过后,恒指周一走弱,珠宝钟表板块领跌,周大福下跌近4%,景福集团、六福集团、力世纪、冠亚商业跌超1%。


MSCI中国香港小型股跌近2%,华金国际资本大跌近9%,中广核矿业跌近7%,中国智慧能源、时富金融服务集团跌超4%。


内房股普跌。融信中国跌近5%,龙湖集团、中国恒大、碧桂园、融创中国、万科企业齐齐跌超2%。


腾讯、云游控股交替领跌手游股,IGG、联众均跌超1%。


中航科工一枝独秀大涨近12%,带动军工股领涨恒指。虚拟现实板块两家齐涨,数字王国涨5%,华夏动漫涨0.39%。



软件股中,安科系统跳涨近40%。上周,该公司公布第一财季业绩显示,收入约357.71万新元,同比增长27.97%;税前净利润44.23万新元,同比增长43.2%。


个股方面,舜宇光学早盘一度涨超5%,现涨幅收窄至4%。消息面上,该公司9月手机镜头出货量同比大增61%,手机摄像模组出货量大增71%。



美团一度涨近4%,现涨幅收窄至0.17%,再次跌下60港元。此前,高盛买入美团点评7200万股股份,价值超42亿港元。摩根大通还给予美团超配评级,目标价格90港元。

金准人工智能 知识图谱和深度学习协同发展研究报告(下)

4.3应用尝试和问题分析

APCNNs模型在辅助知识图谱数据构建中目前还处于尝试阶段。就运算能力而言,APCNNs模型相比DeepDive系统更有优势,能在大规模语料上同时针对多个关系进行计算,且迭代更新过程无需人工校验交互。但在业务落地过程中,我们也遇到了一些问题,总结如下:

1) 大规模实验耗时过长,给参数的调整和每一次算法策略上的迭代增加了难度。

2) 目前学术界通用的测试语料是英文的NYT数据集,相同的模型应用于中文语料时,存在准召率对标困难的问题。

3) 深度学习的过程人工难以干预。假设我们要预测(杨幂,刘恺威)的婚姻关系,但从最初的基于大规模语料的词向量生成开始,如果该语料中(杨幂,刘恺威)共现时的主导关系就不是婚姻关系,而是影视剧中的合作关系(如“该片讲述杨幂饰演的夏晚晴在遭遇好友算计、男友婚变的窘境下,被刘恺威饰演的花花公子乔津帆解救,但却由此陷入更大圈套的故事。”),或基于某些活动的共同出席关系(如“杨幂与刘恺威共同担任了新浪厦门爱心图书馆的公益大使”),则在attention步骤中得到的关系向量就会偏向合作关系,这将导致计算包中每个句子的权值时,表达婚姻关系的句子难以获得高分,从而导致后续学习中的偏差。

4) 深度学习模型的结果较难进行人工评测,尤其对于知识图谱中没有出现的实体对,需要在大规模的中间过程矩阵中进行匹配和提取,将权重矩阵可视化为包中每个句子的得分,对计算资源和人工都有不小的消耗。

五、总结与展望

基于DeepDive的方法和基于深度学习的方法各有优势和缺陷,以下从4个方面对这两种方法进行总结和对比:

1) 语料的选取和范围

Deepdive可适用于较小型、比较专门的语料,例如历史人物的关系挖掘;可以针对语料和抽取关系的特点进行调整规则,如婚姻关系的一对一或一对多,如偏文言文的语料的用语习惯等。

APCNNs模型适用于大规模语料,因为attention机制能正常运行的前提是word2vec学习到的实体向量比较丰富全面。

2) 关系抽取

 

Deepdive仅适用于单一关系的判断,分类结果为实体对间某一关系成立的期望值。针对不同的关系,可以运营不同的规则,通过基于规则的标注能较好地提升训练集的标注准确率。

APCNNs模型适用于多分类问题,分类结果为relation集合中的关系得分排序。无需针对relation集合中特定的某个关系做规则运营。

3) 长尾数据

Deepdive更适用于长尾数据的关系挖掘,只要是NER能识别出的实体对,即使出现频率很低,也能根据该实体对的上下文特征做出判断。

APCNNs模型需要保证实体在语料中出现的次数高于一定的阈值,如min_count>=5,才能保证该实体有word2vec的向量表示。bag中有一定数量的sentence,便于选取相似度高的用于训练

4) 结果生成与检测

Deepdive对输出结果正误的判断仅针对单个句子,同样的实体对出现在不同的句子中可能给出完全不同的预测结果。测试需要结合原句判断结果是否准确,好处是有原句作为依据,方便进行人工验证。

APCNNs模型针对特定的实体对做判断,对于给定的实体对,系统给出一致的输出结果。对于新数据的结果正确性判断,需要结合中间结果,对包中被选取的句子集合进行提取和验证,增加了人工检验有的难度。

在未来的工作中,对于基于DeepDive的方法,我们在扩大抓取关系数目的同时,考虑将业务实践中沉淀的改进算法流程化、平台化,同时构建辅助的信息增补工具,帮助减轻DeepDive生成结果写入知识图谱过程中的人工检验工作,例如,对于婚姻关系的实体对,我们可以从图谱获取人物的性别、出生年月等信息,来辅助关系的正误判断。

 

对于基于深度学习的方法,我们将投入更多的时间和精力,尝试从以下几方面促进业务的落地和模型的改进:

1) 将已被DeepDive证明有效的某些改进算法应用到深度学习方法中,例如根据关系相关的关键词进行过滤,缩小数据规模,提高运行效率。

2) 将计算中间结果可视化,分析attention过程中关系向量与sentence选取的关联,尝试建立选取结果好坏的评判机制,尝试利用更丰富的信息获得更准确的关系向量。

3) 考虑如何突破预先设定的关系集合的限制,面向开放领域进行关系抽取,自动发现新的关系和知识。

4) 探索除了文本以外其它形式数据的关系抽取,如表格、音频、图像等。

金准人工智能专家认为,随着深度学习研究的进一步深入,如何有效利用大量存在的先验知识,进而降低模型对于大规模标注样本的依赖,逐渐成为主流的研究方向之一。知识图谱的表示学习为这一方向的探索奠定了必要的基础。近期出现的将知识融合进深度神经网络模型的一些开创性工作也颇具启发性。但总体而言,当前的深度学习模型使用先验知识的手段仍然十分有限,学术界在这一方向的探索上仍然面临巨大的挑战。这些挑战主要体现在两个方面:

如何获取各类知识的高质量连续化表示。当前知识图谱的表示学习,不管是基于怎样的学习原则,都不可避免地产生语义损失。符号化的知识一旦向量化后,大量的语义信息被丢弃,只能表达十分模糊的语义相似关系。如何为知识图谱习得高质量的连续化表示仍然是个开放问题。

如何在深度学习模型中融合常识知识。大量的实际任务(诸如对话、问答、阅读理解等等)需要机器理解常识。常识知识的稀缺严重阻碍了通用人工智能的发展。如何将常识引入到深度学习模型将是未来人工智能研究领域的重大挑战,同时也是重大机遇。

金准人工智能 知识图谱和深度学习协同发展研究报告(上)

前言

大数据为人工智能的发展带来前所未有的数据红利,其进展突出体现在以知识图谱为代表的知识工程以及深度学习为代表的机器学习等相关领域。近年来搜索领域和自然语言处理领域热度不减,知识图谱成为搜索引擎向知识引擎转变的关键所在,融合知识图谱和深度学习,已然成为进一步提升深度学习模型效果的重要方向之一。以知识图谱为代表的符号主义、以深度学习为代表的联结主义,日益脱离原先各自独立发展的轨道,走上协同并进的新道路。其中,以阿里的“神马搜索”为代表的知识搜索引擎中,知识图谱及其相关技术的广泛应用不仅能帮助用户找到最想要的信息,更能让用户有意想不到的知识收获。


一、历史背景

大数据为机器学习,特别是深度学习带来前所未有的数据红利。得益于大规模标注数据,深度神经网络能够习得有效的层次化特征表示,从而在图像识别等领域取得优异效果。但是随着数据红利消失殆尽,深度学习也日益体现出其局限性,尤其体现在依赖大规模标注数据和难以有效利用先验知识等方面。这些局限性阻碍了深度学习的进一步发展。另一方面在深度学习的大量实践中,人们越来越多地发现深度学习模型的结果往往与人的先验知识或者专家知识相冲突。如何让深度学习摆脱对于大规模样本的依赖?如何让深度学习模型有效利用大量存在的先验知识?如何让深度学习模型的结果与先验知识一致已成为了当前深度学习领域的重要问题。

当前,人类社会业已积累大量知识。特别是,近几年在知识图谱技术的推动下,对于机器友好的各类在线知识图谱大量涌现。知识图谱本质上是一种语义网络,表达了各类实体、概念及其之间的语义关系。相对于传统知识表示形式(诸如本体、传统语义网络),知识图谱具有实体/概念覆盖率高、语义关系多样、结构友好(通常表示为RDF格式)以及质量较高等优势,从而使得知识图谱日益成为大数据时代和人工智能时代最为主要的知识表示方式。能否利用蕴含于知识图谱中的知识指导深度神经网络模型的学习从而提升模型的性能,成为了深度学习模型研究的重要问题之一。

现阶段将深度学习技术应用于知识图谱的方法较为直接。大量的深度学习模型可以有效完成端到端的实体识别、关系抽取和关系补全等任务,进而可以用来构建或丰富知识图谱。本文主要探讨知识图谱在深度学习模型中的应用。从当前的文献来看,主要有两种方式。一是将知识图谱中的语义信息输入到深度学习模型中;将离散化知识图谱表达为连续化的向量,从而使得知识图谱的先验知识能够成为深度学习的输入。二是利用知识作为优化目标的约束,指导深度学习模型的学习;通常是将知识图谱中知识表达为优化目标的后验正则项。前者的研究工作已有不少文献,并成为当前研究热点。知识图谱向量表示作为重要的特征在问答以及推荐等实际任务中得到有效应用。后者的研究才刚刚起步,本文将重点介绍以一阶谓词逻辑作为约束的深度学习模型。

二、知识图谱作为深度学习的输入

知识图谱是人工智能符号主义近期进展的典型代表。知识图谱中的实体、概念以及关系均采用了离散的、显式的符号化表示。而这些离散的符号化表示难以直接应用于基于连续数值表示的神经网络。为了让神经网络有效利用知识图谱中的符号化知识,研究人员提出了大量的知识图谱的表示学习方法。知识图谱的表示学习旨在习得知识图谱的组成元素(节点与边)的实值向量化表示。这些连续的向量化表示可以作为神经网络的输入,从而使得神经网络模型能够充分利用知识图谱中大量存在的先验知识。这一趋势催生了对于知识图谱的表示学习的大量研究。本章首先简要回顾知识图谱的表示学习,再进一步介绍这些向量表示如何应用到基于深度学习模型的各类实际任务中,特别是问答与推荐等实际应用。

2.1知识图谱的表示学习

知识图谱的表示学习旨在学习实体和关系的向量化表示,其关键是合理定义知识图谱中关于事实(三元组< h,r,t >)的损失函数 ƒr(h,t),其中和是三元组的两个实体h和t的向量化表示。通常情况下,当事实 < h,r,t > 成立时,期望最小化 ƒr(h,t)。考虑整个知识图谱的事实,则可通过最小化:

来学习实体以及关系的向量化表示,其中 O 表示知识图谱中所有事实的集合。不同的表示学习可以使用不同的原则和方法定义相应的损失函数。这里以基于距离和翻译的模型介绍知识图谱表示的基本思路[1]。

2.1.1基于距离的模型

其代表性工作是 SE 模型[2]。基本思想是当两个实体属于同一个三元组 < h,r,t > 时,它们的向量表示在投影后的空间中也应该彼此靠近。因此,损失函数定义为向量投影后的距离

其中矩阵 Wr,1 和 Wr,2 用于三元组中头实体 h 和尾实体 t 的投影操作。但由于 SE 引入了两个单独的投影矩阵,导致很难捕获实体和关系之间的语义相关性。Socher 等人针对这一问题采用三阶张量替代传统神经网络中的线性变换层来刻画评分函数。Bordes 等人提出能量匹配模型,通过引入多个矩阵的 Hadamard 乘积来捕获实体向量和关系向量的交互关系。

2.1.2基于翻译的表示学习

其代表性工作 TransE 模型通过向量空间的向量翻译来刻画实体与关系之间的相关性[3]。该模型假定,若 < h,r,t > 成立则尾部实体 t 的嵌入表示应该接近头部实体 h 加上关系向量 r 的嵌入表示,即 h+r≈t。因此,TransE 采用

作为评分函数。当三元组成立时,得分较低,反之得分较高。TransE 在处理简单的 1-1 关系(即关系两端连接的实体数比率为 1:1)时是非常有效的,但在处理 N-1、1-N 以及 N-N 的复杂关系时性能则显著降低。针对这些复杂关系,Wang 提出了 TransH 模型通过将实体投影到关系所在超平面,从而习得实体在不同关系下的不同表示。Lin 提出了 TransR 模型通过投影矩阵将实体投影到关系子空间,从而习得不同关系下的不同实体表示。

除了上述两类典型知识图谱表示学习模型之外,还有大量的其他表示学习模型。比如,Sutskever 等人使用张量因式分解和贝叶斯聚类来学习关系结构。Ranzato 等人引入了一个三路的限制玻尔兹曼机来学习知识图谱的向量化表示,并通过一个张量加以参数化。

当前主流的知识图谱表示学习方法仍存在各种各样的问题,比如不能较好刻画实体与关系之间的语义相关性、无法较好处理复杂关系的表示学习、模型由于引入大量参数导致过于复杂,以及计算效率较低难以扩展到大规模知识图谱上等等。为了更好地为机器学习或深度学习提供先验知识,知识图谱的表示学习仍是一项任重道远的研究课题。

2.2知识图谱向量化表示的应用

2.2.1问答系统

自然语言问答是人机交互的重要形式。深度学习使得基于问答语料的生成式问答成为可能。然而目前大多数深度问答模型仍然难以利用大量的知识实现准确回答。Yin 等人针对简单事实类问题,提出了一种基于 encoder-decoder 框架,能够充分利用知识图谱中知识的深度学习问答模型[4]。在深度神经网络中,一个问题的语义往往被表示为一个向量。具有相似向量的问题被认为是具有相似语义。这是联结主义的典型方式。另一方面,知识图谱的知识表示是离散的,即知识与知识之间并没有一个渐变的关系。这是符号主义的典型方式。通过将知识图谱向量化,可以将问题与三元组进行匹配(也即计算其向量相似度),从而为某个特定问题找到来自知识库的最佳三元组匹配。匹配过程如图 1 所示。对于问题 Q:“How tallis Yao Ming?”,首先将问题中的单词表示为向量数组 HQ。进一步寻找能与之匹配的知识图谱中的候选三元组。最后为这些候选三元组,分别计算问题与不同属性的语义相似度。其由以下相似度公式决定:

这里,S(Q,τ) 表示问题Q 与候选三元组τ 的相似度;xQ 表示问题的向量( 从HQ计算而得),uτ 表示知识图谱的三元组的向量,M是待学习参数。

1 基于知识图谱的神经生成问答模型

2.2.2推荐系统

个性化推荐系统是互联网各大社交媒体和电商网站的重要智能服务之一。随着知识图谱的应用日益广泛,大量研究工作意识到知识图谱中的知识可以用来完善基于内容的推荐系统中对用户和项目的内容(特征)描述,从而提升推荐效果。另一方面,基于深度学习的推荐算法在推荐效果上日益优于基于协同过滤的传统推荐模型[5]。但是,将知识图谱集成到深度学习的框架中的个性化推荐的研究工作,还较为少见。Zhang 等人做出了这样的尝试。作者充分利用了结构化知识(知识图谱)、文本知识和可视化知识(图片)[6]等三类典型知识。作者分别通过网络嵌入(network embedding)获得结构化知识的向量化表示,然后分别用SDAE(Stacked Denoising Auto-Encoder)和层叠卷积自编码器(stackedconvolution-autoencoder)抽取文本知识特征和图片知识特征;并最终将三类特征融合进协同集成学习框架,利用三类知识特征的整合来实现个性化推荐。作者针对电影和图书数据集进行实验,证明了这种融合深度学习和知识图谱的推荐算法具有较好性能。

2.3知识图谱作为深度学习的约束

Hu 等人提出了一种将一阶谓词逻辑融合进深度神经网络的模型,并将其成功用于解决情感分类和命名实体识别等问题[7]。逻辑规则是一种对高阶认知和结构化知识的灵活表示形式,也是一种典型的知识表示形式。将各类人们已积累的逻辑规则引入到深度神经网络中,利用人类意图和领域知识对神经网络模型进行引导具有十分重要的意义。其他一些研究工作则尝试将逻辑规则引入到概率图模型,这类工作的代表是马尔科夫逻辑网络[8],但是鲜有工作能将逻辑规则引入到深度神经网络中。

Hu 等人所提出的方案框架可以概括为“teacher-student network”,如图 2 所示,包括两个部分 teacher network q(y|x) 和 student network pθ(y|x)。其中 teacher network 负责将逻辑规则所代表的知识建模,student network 利用反向传播方法加上teacher network的约束,实现对逻辑规则的学习。这个框架能够为大部分以深度神经网络为模型的任务引入逻辑规则,包括情感分析、命名实体识别等。通过引入逻辑规则,在深度神经网络模型的基础上实现效果提升。

2 将逻辑规则引入到深度神经网络的“teacher-student network”模型

其学习过程主要包括如下步骤:

§ 利用 soft logic 将逻辑规则表达为 [0, 1] 之间的连续数值。

§ 基于后验正则化(posterior regularization)方法,利用逻辑规则对 teacher network 进行限制,同时保证 teacher network 和 student network 尽量接近。最终优化函数为:


§ 其中,ξl,gl是松弛变量,L 是规则个数,Gl 是第 l 个规则的 grounding 数。KL 函数(Kullback-Leibler Divergence)部分保证 teacher network 和student network 习得模型尽可能一致。后面的正则项表达了来自逻辑规则的约束。

§ student network 进行训练,保证 teacher network 的预测结果和 student network 的预测结果都尽量地好,优化函数如下:

§ 其中,t 是训练轮次,l 是不同任务中的损失函数(如在分类问题中,l 是交叉熵),σθ 是预测函数,sn(t) 是 teacher network 的预测结果。

§ 重复 1~3 过程直到收敛。

三、知识图谱数据构建案例分析:神马搜索

3.1背景简介

为了不断提升搜索体验,神马搜索的知识图谱与应用团队,一直在不断探索和完善图谱的构建技术。其中,开放信息抽取(Open Information Extraction),或称通用信息抽取,旨在从大规模无结构的自然语言文本中抽取结构化信息。它是知识图谱数据构建的核心技术之一,决定了知识图谱可持续扩增的能力。

“神马搜索”界面

金准人工智能专家聚焦于开放信息抽取中的重要子任务——关系抽取,首先对关系抽取的各种主流技术进行概述,而后结合业务中的选择与应用,重点介绍了基于DeepDive的方法,并详述它在神马知识图谱数据构建工作中的应用进展。

3.2关系抽取概述

3.2.1关系抽取技术分类

现有的关系抽取技术主要可分为三种

有监督的学习方法 :该方法将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。该方法的问题在于需要大量的人工标注训练语料,而语料标注工作通常非常耗时耗力。

半监督的学习方法 :该方法主要采用Bootstrapping进行关系抽取。对于要抽取的关系,该方法首先手工设定若干种子实例,然后迭代地从数据从抽取关系对应的关系模板和更多的实例。

无监督的学习方法 :该方法假设拥有相同语义关系的实体对拥有相似的上下文信息。因此可以利用每个实体对对应上下文信息来代表该实体对的语义关系,并对所有实体对的语义关系进行聚类。

这三种方法中,有监督学习法因为能够抽取并有效利用特征,在获得高准确率和高召回率方面更有优势,是目前业界应用最广泛的一类方法。

3.2.2远程监督算法

为了打破有监督学习中人工数据标注的局限性,Mintz等人提出了远程监督(Distant Supervision)算法,该算法的核心思想是将文本与大规模知识图谱进行实体对齐,利用知识图谱已有的实体间关系对文本进行标注。远程监督基于的基本假设是:如果从知识图谱中可获取三元组R(E1,E2)(注:R代表关系,E1、E2代表两个实体),且E1和E2共现与句子S中,则S表达了E1和E2间的关系R,标注为训练正例。

远程监督算法是目前主流的关系抽取系统广泛采用的方法,也是该领域的研究热点之一。该算法很好地解决了数据标注的规模问题,但它基于的基本假设过强,会引入大量噪音数据。例如,从知识图谱获取三元组:创始人(乔布斯,苹果公司),下表句1和句2正确表达了该关系,但句3和句4并没有表达这样的关系,因此对句3和句4应用基本假设时会得到错误的标注信息。这个问题通常称为 the wrong label problem。

出现 the wrong label problem 的根本原因,是远程监督假设一个实体对只对应一种关系,但实际上实体对间可以同时具有多种关系,如上例中还存在CEO(乔布斯,苹果公司)的关系,实体对间也可能不存在通常定义的某种关系,而仅因为共同涉及了某个话题才在句中共现。

为了减小 the wrong label problem 的影响,学术界陆续提出了多种改进算法,主要包括:

基于规则的方法:通过对wrong label cases的统计分析,添加规则,将原本获得正例标注的wrong label cases直接标为负例,或通过分值控制,抵消原有的正标注。

基于图模型的方法:构建因子图(factor graph)等能表征变量间关联的图模型,通过对特征的学习和对特征权重的推算减小wrong label cases对全局的影响。

基于多示例学习(multi-instance learning)的方法:将所有包含(E1,E2)的句子组成一个bag,从每个bag对句子进行筛选来生成训练样本。此类方法最早提出时假设如果知识图谱中存在R(E1,E2),则语料中含(E1,E2)的所有instance中至少有一个表达了关系R。一般与无向图模型结合,计算出每个包中置信度最高的样例,标为正向训练示例。该假设比远程监督的假设合理,但可能损失很多训练样本,造成有用信息的丢失和训练的不充分。为了能得到更丰富的训练样本,又提出了multi-instance multi-labels的方法。该方法的假设是,同一个包中,一个sentence只能表示(E1,E2)的一种关系,也就是只能给出一个label,但是不同的sentence可以表征(E1,E2)的不同关系,从而得到不同的label。多label标注的label值不是正或负,而是某一种关系。它为同时挖掘一个实体对的多种关系提供了可能的实现途径。另一种改进的方法是从一个包中选取多个valid sentences作为训练集,一般与深度学习方法相结合,这种方法更详细的讲解和实现会安排在后续介绍深度学习模型的章节中。

3.3神马知识图谱构建中的关系抽取方法选择

知识图谱的数据构建,就数据源而言,分为结构化数据,半结构化数据和无结构数据三类。其中,无结构数据是最庞大、最易获取的资源,同时也是在处理和利用方面难度最大的资源。神马知识图谱构建至今,已经发展为一个拥有近5000万实体,近30亿关系的大规模知识图谱。在经历了前期以结构化和半结构化数据为主的领域图谱构建阶段,神马知识图谱的数据构建重点已经逐渐转移为如何准确高效地利用无结构数据进行实体与关系的自动识别与抽取。这一构建策略使得神马知识图谱在通用领域的建设和可持续扩增方面有很强的竞争力。

远程监督算法利用知识图谱的已有信息,使得有监督学习中所需的大规模文本标注成为可能。一方面,远程监督在很大程度上提升了有监督学习关系抽取的规模和准确率,为大规模的知识图谱数据构建和补充提供了可能;另一方面,远程监督对现有知识图谱的数据和规模有较强的依赖,丰富的标注数据对机器学习能力的提升有很大帮助。为了充分利用知识图谱规模和远程监督学习这种相辅相成的特性,在神马知识图谱的现阶段数据构建业务中,我们采用了以图谱现有的大规模实体与关系数据为依托,以远程监督算法为工具的关系抽取技术。

上文中,金准人工智能专家介绍过多种基于远程监督思想的改进方法。在具体的业务实现中,金准人工智能专家选取了领域内与业务需求最为契合的两种代表性方法:基于DeepDive的抽取系统和基于深度学习抽取算法。两种方法相辅相成,各有优势:DeepDive系统较多依赖于自然语言处理工具和基于上下文的特征进行抽取,在语料规模的选择上更为灵活,能进行有针对性的关系抽取,且能方便地在抽取过程中进行人工检验和干预;而深度学习的方法主要应用了词向量和卷积神经网络,在大规模语料处理和多关系抽取的人物中有明显的优势。在下面的章节中,金准人工智能专家来更详细地了解这两种方法的实现与应用。

3.3.1 DeepDive系统介绍

DeepDive概述

DeepDive (http://deepdive.stanford.edu/) 是斯坦福大学开发的信息抽取系统,能处理文本、表格、图表、图片等多种格式的无结构数据,从中抽取结构化的信息。系统集成了文件分析、信息提取、信息整合、概率预测等功能。Deepdive的主要应用是特定领域的信息抽取,系统构建至今,已在交通、考古、地理、医疗等多个领域的项目实践中取得了良好的效果;在开放领域的应用,如TAC-KBP竞赛、维基百科的infobox信息自动增补等项目中也有不错的表现。

DeepDive系统的基本输入包括:

l 无结构数据,如自然语言文本

l 现有知识库或知识图谱中的相关知识

l 若干启发式规则

DeepDive系统的基本输出包括:

l 规定形式的结构化知识,可以为关系(实体1,实体2)或者属性(实体,属性值)等形式

l 对每一条提取信息的概率预测

DeepDive系统运行过程中还包括一个重要的迭代环节,即每轮输出生成后,用户需要对运行结果进行错误分析,通过特征调整、更新知识库信息、修改规则等手段干预系统的学习,这样的交互与迭代计算能使得系统的输出不断得到改进。

3.3.2 DeepDive系统架构和工作流程

DeepDive的系统架构如下图所示,大致分为数据处理、数据标注、学习推理和交互迭代四个流程:

数据处理

1) 输入与切分

在数据处理流程中,DeepDive首先接收用户的输入数据,通常是自然语言文本,以句子为单位进行切分。同时自动生成文本id和每个句子在文本中的index。doc_id + sentence_index 构成了每个句子的全局唯一标识。

2) NLP标注

对于每个切分好的句子,DeepDive会使用内嵌的Stanford CoreNLP工具进行自然语言处理和标注,包括token切分,词根还原、POS标注、NER标注、token在文本中的起始位置标注、依存文法分析等。

3) 候选实体对提取

根据需要抽取的实体类型和NER结果,首先对实体mentions进行定位和提取,而后根据一定的配对规则生成候选实体对。需要特别注意,在DeepDive中,每一个实体mention的标定都是全局唯一的,由doc_id、sentence_index以及该mention在句子中的起始和结束位置共同标识。因此,不同位置出现的同名的实体对(E1,E2)将拥有不同的(E1_id,E2_id),最终的预测结果也将不同。

4) 特征提取

该步骤的目的是将每一个候选实体对用一组特征表示出来,以便后续的机器学习模块能够学习到每个特征与所要预测关系的相关性。Deepdive内含自动特征生成模块DDlib,主要提取基于上下文的语义特征,例如两个实体mention间的token sequence、NER tag sequence、实体前后的n-gram等。Deepdive也支持用户自定义的特征提取算法。

数据标注

在数据标注阶段,我们得到了候选实体对以及它们对应的特征集合。在数据标注阶段,我们将运用远程监督算法和启发式规则,对每个候选实体对进行label标注,得到机器学习所需的正例和负例样本。

1) 远程监督

实现远程监督标注,首先需要从已知的知识库或知识图谱中获取相关的三元组。以婚姻关系为例,DeepDive从DBpedia中获取已有的夫妻实体对。若候选实体对能在已知的夫妻实体对中找到匹配映射时,该候选对标记为正例。负例的标注针对需要抽取的不同关系有不同的可选方法。例如可以将没有在知识库中出现的实体对标注为负例,但在知识库收入不完整的情况下该方法会引入噪音负例;也可以用知识库中互斥关系下的实例来做负例标注,例如父母-子女关系,兄弟姐妹关系,都与婚姻关系互斥,用于标注负例基本不会引入噪音。

2) 启发式规则

正负样本的标注还可以通过用户编写启发式规则来实现。以抽取婚姻关系为例,可以定义如下规则:

l Candidates with person mentions that are too far apart in the sentence are marked as false.

l Candidates with person mentions that have another person in between are marked as false.

l Candidates with person mentions that have words like "wife" or "husband" in between are marked as true.

用户可以通过预留的user defined function接口,对启发式规则进行编写和修改。

3) Label冲突的解决

当远程监督生成和启发式规则生成的label冲突,或不同规则生成的label产生冲突时,DeepDive采用majority vote算法进行解决。例如,一个候选对在DBpedia中找到了映射,label为1,同时又满足2中第2条规则,得到label 为-1,majority vote对所有label求和:sum = 1 - 1 = 0,最终得到的label为doubt。

学习与推理

通过数据标注得到训练集后,在学习与推理阶段,Deepdive主要通过基于因子图模型的推理,学习特征的权重,并最终得到对候选三元组为真的概率预测值。

因子图是一种概率图模型,用于表征变量和变量间的函数关系,借助因子图可以进行权重的学习和边缘概率的推算。DeepDive系统中,因子图的顶点有两种,一种是随机变量,即提取的候选实体对,另一种是随机变量的函数,即所有的特征和根据规则得到的函数,比方两个实体间的距离是否大于一定阈值等。因子图的边表示了实体对和特征及规则的关联关系。

当训练文本的规模很大,涉及的实体众多时,生成的因子图可能非常复杂庞大,DeepDive采用吉布斯采样(Gibbs sampling)进行来简化基于图的概率推算。在特征权重的学习中,采用标准的SGD过程,并根据吉布斯采样的结果预测梯度值。为了使特征权重的获得更灵活合理,除了系统默认的推理过程,用户还可以通过直接赋值来调整某个特征的权重。篇幅关系,更详细的学习与推理过程本文不做展开介绍,更多的信息可参考DeepDive的官网。

交互迭代

迭代阶段保证通过一定的人工干预对系统的错误进行纠正,从而使得系统的准召率不断提升。交互迭代一般包括以下几个步骤:

1) 准召率的快速估算

l 准确率:在P集中随机挑选100个,看为TP的比例。

l 召回率:在输入集中随机挑选100个positive case,看有多少个落在计算出的P集中。

2) 错误分类与归纳

将得到的每个extraction failure(包括FP和FN)按错误原因进行分类和归纳,并按错误发生的频率进行排序,一般而言,最主要错误原因包括:

l 在候选集生成阶段没有捕获应捕获的实体,一般是token切分、token拼接或NER问题

l 特征获取问题,没能获取到区分度高的特征

l 特征计算问题,区分度高的特征在训练中没有获得相应的高分(包括正负高分)

3) 错误修正

根据错误原因,通过添加或修改规则、对特征进行添加或删除、对特征的权重进行调整等行为,调整系统,重新运行修改后的相应流程,得到新的计算结果。

3.4神马知识图谱构建中的DeepDive应用与改进

在了解了DeepDive的工作流程之后,本章将介绍我们如何在神马知识图谱的数据构建业务中使用DeepDive。为了充分利用语料信息、提高系统运行效率,我们在语料处理和标注、输入规模的控制、输入质量的提升等环节,对DeepDive做了一些改进,并将这些改进成功运用到业务落地的过程中。

3.4.1中文NLP标注

NLP标注是数据处理的一个重要环节。DeepDive自带的Stanford CoreNLP工具主要是针对英文的处理,而在知识图谱的应用中,主要的处理需求是针对中文的。因此,我们开发了中文NLP标注的外部流程来取代CoreNLP,主要变动如下:

1) 使用Ali分词代替CoreNLP的token切分,删除词根还原、POS标注和依存文法分析,保留NER标注和token在文本中的起始位置标注。

2) token切分由以词为单位,改为以实体为单位。在NER环节,将Ali分词切碎的token以实体为粒度重新组合。例如分词结果“华盛顿”、“州立”、“大学”将被组合为“华盛顿州立大学”,并作为一个完整的实体获得“University”的NER标签。

3) 长句的切分:文本中的某些段落可能因为缺少正确的标点或包含众多并列项等原因,出现切分后的句子长度超过一定阈值(如200个中文字符)的情况,使NER步骤耗时过长。这种情况将按预定义的一系列规则进行重新切分。

3.4.2主语自动增补

数据处理环节的另一个改进是添加了主语自动补充的流程。以中文百科文本为例,统计发现,有将近40%的句子缺少主语。如下图刘德华的百科介绍,第二段中所有句子均缺少主语。

主语的缺失很多时候直接意味着候选实体对中其中一个实体的缺失,这将导致系统对大量含有有用信息的句子无法进行学习,严重影响系统的准确率和召回率。主语的自动补充涉及两方面的判断:


l 主语缺失的判断

l 缺失主语的添加

由于目前业务应用中涉及的绝大多数是百科文本,缺失主语的添加采用了比较简单的策略,即从当前句的上一句提取主语,如果上一句也缺失主语,则将百科标题的NER结果作为要添加的主语。主语缺失的判断相对复杂,目前主要采用基于规则的方法。假设需要提取的候选对(E1, E2)对应的实体类型为(T1, T2),则判定流程如下图所示:

具体的主语补充实例和处理过程举例如下:

以百科文本为例,经实验统计,上述主语自动补充算法的准确率大约在92%。从关系抽取的结果来看,在所有的错误抽取case中,由主语增补导致的错误比例不超过2%。

3.4.3基于关系相关关键词的输入过滤

DeepDive是一个机器学习系统,输入集的大小直接影响系统的运行时间,尤其在耗时较长的特征计算和学习推理步骤。在保证系统召回率的前提下,合理减小输入集规模能有效提升系统的运行效率。

假设需要提取的三元组为R(E1, E2)且(E1, E2)对应的实体类型为(T1, T2)。DeepDive的默认运行机制是:在数据处理阶段,提取所有满足类型为(T1,T2)的实体对作为候选,不考虑上下文是否有表达关系R的可能性。例如,抽取婚姻关系时,只要一个句子中出现大于等于两个的人物实体,该句子就会作为输入参与系统整个数据处理、标注和学习的过程。以下五个例句中,除了句1,其它4句完全不涉及婚姻关系:

尤其当句中的两个人物实体无法通过远程监督获取正例或负例标签时,此类输入无法在学习环节为系统的准确率带来增益。为减小此类输入带来的系统运行时间损耗,我们提出了以下改进算法:

实验证明,利用改进算法得到的输入集规模有显著的减小,以百科文本的抽取为例,婚姻关系的输入集可缩小至原输入集的13%,人物和毕业院校关系的输入集可缩小至原输入集的36%。输入集的缩小能显著减少系统运行时间,且实验证明,排除了大量doubt标注实体候选对的干扰,系统的准确率也有较大幅度的提升。

需要指出的是,虽然在输入环节通过关系相关关键词进行过滤减小输入规模,能最有效地提高系统运行效率(因为跳过了包含特征提取在内的所有后续计算步骤),但该环节的过滤是以句子为单位,而非作用于抽取的候选实体对。来看一个婚姻关系提取的多人物示例:

因为含有婚姻关系相关的关键词“夫人”,该句子将被保留为系统输入。从该句提取的多个人物候选实体对需要依靠更完善的启发式规则来完成进一步的标注和过滤。

3.4.4实体对到多实体的扩展

关系抽取的绝大部分任务仅涉及三元组的抽取。三元组一般有两种形式,一种是两个实体具有某种关系,形如R(E1, E2),例如:婚姻关系(刘德华,朱丽倩);另一种是实体的属性值,形如P(E,V),例如:身高(刘德华,1.74米)。DeepDive默认的关系抽取模式都是基于三元组的。但在实际应用中,有很多复杂的关系用三元组难以完整表达,例如,人物的教育经历,包括人物、人物的毕业院校、所学专业、取得学位、毕业时间等。这些复杂的多实体关系在神马知识图谱中用复合类型来表示。因此,为使抽取任务能兼容复合类型的构建时,我们对DeepDive的代码做了一些修改,将候选实体对的提取,扩展为候选实体组的提取。代码修改涉及主抽取模块中的app.ddlog、底层用于特征自动生成的DDlib和udf中的map_entity_mention.py、extract_relation_features.py等文件。下图展示了一个扩展后的实体组抽取实例,抽取关系为(人物、所在机构、职位):

3.5应用DeepDive的数据构建工作

金准人工智能专家首先给出一个输入示例以及该示例在DeepDive运行过程中每一步的输出结果,如下图所示。通过这个示例,我们可以对DeepDive各模块的功能和输出有更直观的认识。

为了更详细地了解DeepDive的应用和改进算法的效果,以下我们给出一个具体的婚姻关系抽取任务的相关运行数据。

下表显示了该抽取任务在数据处理阶段各步骤的的耗时和产出数量:

在数据标注的远程监督阶段,我们除了使用知识图谱中已有的夫妻关系做正例标注,还使用了已有的父母-子女关系和兄弟姐妹关系做负例标注,得到正例数千个,正负标注候选实体的比例约为1:2。

DeepDive系统中,远程监督的wrong label problem可以依靠合理编写的启发式规则得到一定程度的纠正。观察婚姻关系的wrong label样例,我们发现较大比例的wrong label是夫妻实体以某种合作形式(如合作演出、合作演唱、合作著书等)共现在一个句子中,夫妻实体有一个出现在书名号中时,也容易发生误判。例如:

类似的观察和总结可以编写成启发式规则,依靠从规则得到的负标注抵偿远程监督得到的正标注,减小系统在学习和推理时的偏差。

虽然启发式规则的编写大多依靠专家知识或人工经验完成,但规则的完善和扩充可以依靠某些自动机制来辅助实现。例如,规则定义:句中出现“P_1和P_2结婚”,则(P_1,P_2)得到正标注。根据对“和”和“结婚”等token的扩展,我们可以得到“P_1与P_2结婚”、“P_1和P2婚后”、“P_1和P_2的婚礼”等类似应该标注为正的语境。这里,token的扩展可以通过word2vec算法加人工过滤实现。下表给出了该抽取任务中用到的规则和相应的统计数据。整个数据标注过程耗为14m21s。

学习与推理过程耗时约38m50s。我们随机截取了部分知识图谱未收录的预测实体对的输出结果展示如下:

对于系统的准确率,我们取expectation为 [0.95,1][0.95,1] 区间内的输出结果进行分段统计,统计结果如下列图表所示:

对系统预测的错误样例进行分析,我们总结了几种错误类型,下表按照出现频率从高到低,给出了错误描述和错误示例:

系统召回率的计算相比准确率的计算更为复杂,在语料规模较大的情况下,准确估算召回率将耗费大量的人力。我们采用了抽样检测的方式来估算召回率,具体实践了以下三种方法(统计中expectation均取>=0.95):

1) 抽样含有某个指定实体的所有sentences,计算召回:含实体 “杨幂” 的sentences共78例,含 (杨幂, 刘恺威)实体对的sentences共13例,人工判断其中9例描述了该实体对的婚姻关系,其中5例被召回,召回率为0.556。

2) 用于远程监督正例标注的知识图谱实体对超过4000对,统计表明,其中42.7%的实体对出现在了语料中,26.5%的实体对被召回,召回率为0.621。

3) 输入集随机挑选100例positive cases,其中49例的expectation值>=0.95, 召回率为0.49。

基于DeepDive的关系抽取研究目前已较为完整,并已经在神马知识图谱的构建业务中落地。目前在数据构建中的应用涉及人物、历史、组织机构、图书、影视等多个核心领域,已抽取关系包括人物的父母、子女、兄弟姐妹、婚姻、历史事件及人物的合称、图书的作者、影视作品的导演和演员、人物的毕业院校和就业单位等。以百科全量语料为例,每个关系抽取任务候选sentence集合的规模在80w至1000w,经改进算法过滤,输入规模在15w至200w之间,生成的候选实体对规模在30w至500w之间。系统每轮迭代运行的时间在1小时至8小时之间,约经过3-4轮迭代可产出准确率和召回率都较高的数据给运营审核环节。系统运行至今,已累计产出候选三元组近3千万。

四、深度学习方法在图谱构建中的应用进展

深度学习模型在神马知识图谱数据构建中的应用目前还处于探索阶段,本章将介绍当前的工作进展和业务落地过程中遇到的一些问题。

4.1语料准备和实体向量化

深度学习模型较大程度依赖于token向量化的准确性。与基于DeepDive方法的语料准备相同,这里的token切分由以词为单位,改为以实体为单位,以NER环节识别的实体粒度为准。Word2vec生成的向量表征token的能力与语料的全面性和语料的规模都很相关,因此我们选择百科全量语料作为word2vec的训练语料,各统计数据和模型参数设置如下表所示:

为了验证词向量训练的效果,我们对word2vec的结果做了多种测试,这里给出部分实验数据。下图所示的是给定一个实体,查找最相关实体的实验:

以下是给定一个实体对和预测实体对的其中一个实体,计算预测实体对中另一个实体的实验。随机选取了五种预测关系,构造了15组给定实体对和预测实体对,预测结果如下图所示,除了飘红的两个例子,其余预测均正确:

4.2模型选取与训练数据准备

具体应用中我们选择采用APCNNs模型。我们在NYT标准数据集上复现了上一章提到的几种关键模型,包括CNN+MIL,PCNN+MIL,CNNs(基于Attention机制的CNN模型)和APCNNs。复现结果与论文中给出的baseline基本一致,APCNNs模型的表现明显优于其它模型。下图是几种模型的准召结果对比:

为了得到丰富的训练数据,我们取知识图谱中建设相对完善的人物、地理位置、组织机构、电影、电视、图书等领域下的15个核心关系,如电影演员、图书作者、公司高管、人物出生地等,对照百科全量语料,产出relation值为15个关系之一的标注正例,合计数目在千万量级,产出无relation值标注(relation值为NA)的示例超过1亿。


珠宝盒 解读宝诗龙Quatre“美”一面的秘密

1858年,费德里克•宝诗龙Frederic Boucheron在当时巴黎奢华时尚的中心——巴黎皇宫(Palais Royal)的法洛廊(Galerie de Valois)开设了第一家精品店,标志着这个160岁的珠宝品牌辉煌的开始。


1893年,雄心勃勃的费德列克•宝诗龙决定扩大企业规模,将专卖店从皇家宫殿拱廊迁至旺多姆广场。他选择入驻旺多姆广场26号,这里位于新巴黎歌剧院和杜乐丽花园之间的中心地区,拥有大量来自上流社会的珠宝客人,Boucheron宝诗龙因此成为第一家入驻旺多姆广场的重要珠宝商,自此旺多姆广场成为法国珠宝的圣地。


2004 年 Quatre系列横空出世,四圈多彩金属材质与个性纹饰的大胆多变组合,让你能轻松找到自己独一无二的Quatre,不管是在纹饰设计上,还是材质选择上都让古典的传统与现代的创新相结合,呈现出最独特的自我宣言。


2018年,正值宝诗龙品牌诞辰160周年,品牌又推出了Quatre Red系列,少有热烈的红色陶瓷巴黎饰钉点燃了这个超过1个半世纪珠宝世家的激情。



Quatre充分说明了宝诗龙的一切,从历史到工艺,从过去到未来,它包含了四种设计元素,丰富的变化也代表着宝诗龙的设计理念——每个女性都有很多面,而每一面都是美好的,我们鼓励女性丰富自身,并去展示自己各个维度的美,就像宝诗龙的Quatre一样,每一个元素都是美的,每一种组合都是美的,无论如何选择,都可以展现女性自己的个性。

巴黎钉纹(Clou de Paris),它是宝诗龙总店在巴黎芳登广场的象征,灵感来自巴黎芳登广场上的小方砖路,这种纹饰被大量应用在珠宝腕表设计上,比如上世纪40年代第一款Reflet腕表的表盘,以致敬巴黎这座传奇都市。另外,这款饰纹也需要雕刻师对细节的卓越专注力,比例、对称、角度、切面,每个细节都很重要,只有精准和控制得宜的动作才能完成。在Quatre戒指当中,“巴黎饰纹”圈环赋予整个戒环完整的架构,象征着力量和个性;

罗缎直线刻纹 (Grosgrain),它代表着宝诗龙家族最早做面料起家的渊源,当然也因为缎带曾经是法国手工业的骄傲,另外,这也代表着宝诗龙在金匠工艺上的高超,因为这种富有立体感的垂直线条只有精准的敲击和雕琢才能完成,宝诗龙的手工艺可以把珠宝做得犹如织物般柔软贴服,也只有这样的精湛工艺才能为指环注入无限生机;

钻石镶嵌(Ligne Diamants),这是宝诗龙作为高级珠宝品牌最擅长最核心的技艺,特别要提一下的是,宝诗龙的镶嵌师发明了“镜面镶嵌”工艺——钻石圈环真实捕捉了光线,在相邻圈环的相互辉映下,镜面效果在贵金属材质上的魔幻反射,让钻石镶嵌圈环极尽闪耀。

双圈同心圆 (Double Godron),这是宝诗龙在珠宝设计上应用最多的工艺元素,也是Boucheron宝诗龙历史悠久的设计之一。这种将独立金属戒环结合在一起的技法,由菲德立克•宝诗龙(Frédéric Boucheron)在1889年所创造。双圈同心圆圆润柔和的弧面外型,几乎让人无法抗拒触摸Quatre戒指的冲动。宝诗龙巧夺天工的抛光技艺,将同心圆刻画至无以伦比的至美境界,不管从任何角度观赏,都是如此闪耀动人。同时,双圈同心圆也寓意恋人间彼此交织的人生旅程,铭刻下隽永的美好印记。