• 项目
首页>>文章列表
文章列表

霍金的“娱乐精神”成为一种独特的流行文化

霍金本身成为流行文化的一个现象,这有助于公众对他所研究领域产生了解的兴趣,另一方面,霍金经历自身的“传奇性”,也在提醒公众,你所关注的,也许并非你想要关注的能指或所指本身。


霍金的影视形象弥补了新闻形象的单一


史蒂芬·霍金去世的消息一传来,朋友圈立刻掀起纪念狂潮。大家与霍金似乎都很熟,1991年上海人民出版社版《时间史之谜》相信是中国内地对其著作的首度中译化,迄今超过四分之一个世纪,一代甚至几代人多少都读过或者说挑战过他的《时间简史》、《果壳里的宇宙》,大多数情形是铩羽而归。作为当代最重要的物理学与宇宙学宗师,这些普及读物仍然令普通读者望而却步。


因此,很难回顾霍金的学术生涯。不妨将视线投向他数十年参与影视作品的情形——似乎也在彰显他大众传播环境中的偶像地位。最为世人所知的例子是詹姆斯·马什导演的《万物理论》,“小雀斑”埃迪·雷德梅恩饰演的青年时代乃至患病瘫痪时期的霍金呈现了一个公众视野中相对陌生的大师形象,高度还原的企图显然获得了相当程度的认可,埃迪凭借该片获得第87届奥斯卡最佳男主角。


意气风发的青年霍金在埃迪演来,颇有一些羚羊挂角的风范,但评价该片表演最重要的维度诚然只能是对霍金早年背景的熟悉度,这一点对大部分人来说可能比较困难。这部改编自霍金第一任妻子简·王尔德回忆录的作品尽管非常感人,但不可避免地被好莱坞化成相对于言情的面貌,对于霍金所阐释的物理学话语也做了简单化处理,因此收获掌声的同时亦收获一些批评。


尽管片名叫做《万物理论》,实际上影片侧重于呈现冷战时代生活细节及霍金夫妇之间的情感微妙变化,霍金惯常出现于大众面前的形象,被一定程度补全为有血有肉的完整塑形。


与其说“客串”,不如说就是“本色表演”


霍金常有惊人言语,比如预言外星人的到来以及地球人应对的艰难,在科学领域之外,他在普罗文化中的偶尔试水,更令大众感到亲切。比如在已经播出十余年的极客经典喜剧《生活大爆炸》中的客串,成为当时第五季剧集中最令人惊喜的一幕,轮椅上的霍金与谢尔顿同框的冷幽默画面,是21世纪10年代不可磨灭的电视印记。


与其说在此剧中霍金是在“客串”,不如说是一次“本色表演”,事实上他在剧中演的就是自己,但这种表演根植于其在那一集大部分时间“戈多”式的存在加上谢尔顿对于霍金一起工作这件事情的谜一样的自信。在最后两人相逢,霍金通过计算机告诉谢尔顿,其实他的研究有错漏,对霍金这名特殊的演员来说,他的没有表情与动作,其实说明了一切,无论是戏中还是戏外。


由于大半生时间都在轮椅上度过,所有与外界的交流都靠计算机,很容易令人联想起晚年的影评人罗杰·伊伯特,事实上霍金与罗杰看似风马牛不相及的职业生涯中最具关联的境遇也正在此,他们的身体状况与职业生涯的传奇交织本身已经成为大众娱乐关注的侧重点,纪录片《与霍金一起了解宇宙》之于霍金的意义也与记录罗杰·伊伯特的《生活本身》异曲同工。


霍金本身成为流行文化的一个独特现象

在过去二十多年中,霍金参加《星际迷航》的客串、为动画片配音,甚至突破身体物理极限,用电子发声器与pink floyd乐队合作。他本人亦富含娱乐精神,以最新技术将自己的影像投射到千里之外的彼邦与粉丝互动,甚至在中国的微博上开通账号,与流量明星互动,而他所发表的言论话题更涵盖中国高考、足球预测等。


当以上都成为了昨日种种,在纪念霍金的这一刻,我们是不是也必须反省自身:当我们纪念霍金,我们纪念的,到底是什么?事实上,有多少科学家能够像霍金这样获得如此广泛的大众认同?而专门领域的专家是否应该以这样的曝光度为荣?


霍金本身成为流行文化的一个现象,这有助于公众对他所研究领域产生了解的兴趣,另一方面,霍金经历自身的“传奇性”,也在提醒公众,你所关注的,也许并非你想要关注的能指或所指本身。


谷歌用AI技术识别恶意评论 助新闻机构大战嘴炮党

金准数据机器学习预测报告——以文本摘要自动生成为例

前言:

机器学习能力正在快速增长,将各种行业的商业应用从医疗和保健转向自动驾驶汽车,游戏和欺诈检测等等。 我们期望机器学习处理在2018年变得更加快速和更加智能,我们可以看到它在更多不同领域和业务问题中得到应用。2017年,我们看到人工智能融入了我们生活的许多方面以及无数社交项目。 2018年,我们会看到更多的初创公司展示高度先进的产品,而且在美国以外的这些科技公司以及中国和欧洲等硅谷典型场景中,这些公司的工作量也有明显增加。 准备好更好地融入我们的日常生活,并在AI革命中取得更多进展。

2018年,人工智能无处不在,或者更确切地说,机器学习将无处不在。这项技术几乎“无所不能”,并将在2018年创造出无限可能。

2018年,英国的IntelligentX有望推出世界上第一款AI酿造啤酒;俄罗斯的DeepFish致力于利用神经网络来识别雷达图像中的鱼类;瑞典的Hoofstep更是筹集了风投资金,计划为马匹进行深度行为分析。

机器学习对众多世界范围内的大数据行业都具有潜在影响,这将继续继续推动风险投资、私人股本(PE)融资、合并,和关注点在赢得这一领域知识产权(Ip)和专利竞赛的收购。

机器学习知识产权中增长最快的领域之一是定制芯片组(custom chipset)的开发。金准数据预计全球数据中心今年将使用多达800,000的机器学习芯片。在2018年,企业正加大对机器学习项目的研究、投资和试点力度。虽然不同预测来源的方法各不相同,但市场估计和预测都反映出,机器学习将提高公司的敏锐性和洞察力,在实现更快、更有利可图的增长方面。金准数据根据机器学习市场预测、市场评估和规划,关键数据如下:


一、2018年机器学习预测

1. 支持机器学习的数据科学平台大幅增长

在整个商业智能(BI)和分析市场中,预计到2021年,支持机器学习的数据科学平台(Data Science platform)将达到13%的复合年均增长率。同时,数据科学平台的增长率将超过更广泛的商业智能(BI)和分析市场,预计同期将达到8%的复合年均增长率,其价值将从2017的30亿美元增长到2021的48亿美元。



2.机器学习专利、实施项目数量激增

2013年至2017年,机器学习专利以34%的复合年增长率增长,在所有专利中增长速度排第三位。 IBM, Microsoft, Google, LinkedIn, Facebook, Intel和Fujitsu(富士通)是2017年最大的7家机器学习专利生产商。

金准数据根据德勤全球预计,与2017年相比,2018机器学习试点和实施项目的数量将翻一番,到2020将再次翻一番。推动机器学习试点项目增长的因素包括应用程序接口(APIs)更广泛的支持、自动化数据科学任务、减少培训数据的需要、加快培训和对解释性结果的洞见。

3.机器学习和人工智能投资引领行业

61%的机构最经常选择机器学习/人工智能作为公司明年最重要的数据计划。那些受访机构表示,他们积极使用机器学习和人工智能,58%的人表示他们在生产中运行模型。


包括Amazon, Apple, Google, Tesla和Microsoft在内的科技市场领导者,在机器学习和人工智能投资方面正大幅度地引领行业。每一个都将机器学习设计成未来的新一代产品,并使用机器学习和人工智能改善客户体验,提高销售渠道的效率。

金准数据预测, 在人工智能和机器学习上的的支出将会从2017年的120亿美元增长到2021年的576亿美元。

全球机器学习市场预计将从2017的14亿美元增长到2022的88.1亿美元,达到44.1%复合年增长率。市场快速增长的因素包括在数据聚合、集成和分析方面表现卓越的新技术,以及更可伸缩的云平台。

2017年的认知(cognitive)和人工智能系统的全球收入是125亿美元,到2020年将超过460亿美元。

基于金准数据在2017对14家供应商采用的23项评估标准,SAS*、IBM和SAP*领导了预测分析和机器学习市场。金准数据预测表明,预测分析和机器学习市场(the Predictive Analytics & Machine Learning market,PAML)将在2021年以21%的复合年增长率增长,这一点可以从他们看到的客户咨询和采购活动的增加中得到证明。




4.机器学习正在增强数据分析能力和洞察力

60%的机构处在采用机器学习的不同阶段,近一半(45%)的机构说这项技术导致了更全面的数据分析和洞察力,35%的机构可以完成更快的数据分析,提高洞察速度,这使他们的机构更加敏锐。35%的机构还发现机器学习正在增强他们对下一代产品的研发能力。


谷歌日前发布公告称60.3%的潜在恶意应用(Potentially Harmful Apps,PHAs)都是由机器学习技术检测出来的。这些潜在恶意应用的检测是由一项名为Google Play Protect的服务来完成的,该服务已经预装在了超过20亿台运行Android 4.3及以上系统版本的Android设备上,并将持续扫描并发现有恶意行为的应用程序。Google Play Protect运用了多种策略来确保Android手机用户的数据安全,而机器学习技术的加入让其检测潜在恶意应用的能力更上一层楼。

Play Protect机制在2017年累计自动扫描了超过500亿款手机应用,最终发现并移除了将近390亿款Android手机应用。Play Protect每天至少会自动扫描Android手机一次,如果用户愿意还可以自己手动扫描。

直到最近,Play Protect才要求在检测时需要设备联网。因为谷歌发现有35%的新潜在恶意软件安装都发生在设备离线或失去网络连接时,谷歌开发出了新的功能来解决此问题。在2017年10月,Play Protect推出了离线扫描功能,从那之后,该保护机制多阻止了1000万次潜在恶意应用的安装行为。

Google Play Store对比第三方应用商店

Android设备在出厂时一般都自带谷歌官方应用商店Google Play Store,大多数国家的Android用户都从这个平台上获取应用。然而在有些国家,第三方应用商店成了Android用户下载、安装应用的唯一选择,或者有时候用户间也会直接分享自己从其他来源下载到的应用。只从Play Store上下载、安装应用的Android设备遇到潜在恶意应用的几率比时常从其他来源获取应用的Android设备要低9倍。

在2017年,有0.56%的安装有Play Protect的Android设备检测出了潜在恶意应用,而在2016年,该比率为0.77%。另外,在2017年,Android用户在Play Store上下载到潜在恶意应用的几率是0.02%,该比率较2016年下降0.02%。

Play Protect可以随时移除Play Store上的潜在恶意应用,但是显然它不能对第三方应用商店采取同样措施。对于从其他来源下载的应用,Play Protect只能警告Android用户说这是一个潜在恶意应用,而如果检测到是勒索软件或者可能盗窃银行账户的恶意应用,Play Protect则会阻止其安装。

在2017年,谷歌通过发出警告阻止了74%的潜在恶意应用安装行为,在2016年该比率是55%。谷歌没有透露剩下的26%的或是忽略了警告提示,或是在安装前没有被确认为恶意应用的潜在恶意应用安装行为的具体数据。


5.人工智能和机器学习吸引外部投资

金准数据估计,2016年人工智能的年度外部投资总额在80亿至120亿美元之间,其中机器学习吸引了近60%的投资。机器人和语音识别是两个最受欢迎的投资领域。由于基于代码的初创企业在快速扩展,不断增加新功能,投资者们最青睐机器学习初创企业。基于软件的机器学习初创企业优于成本更高的基于机器的机器人竞争者,后者往往没有他们的软件同行。由于这些提到的和更多没提到的因素,企业并购在这一领域正飞速发展。下面的图片显示了不同技术分类的外部投资分布情况。


6.机器学习芯片市场广阔

金准数据分析预计,数据中心使用的机器学习芯片将从100,000增长到2016年的200,000,今年将增长到800,000。其中至少25%是现场可编程门阵列(FPGA)和专用集成电路(ASIC)。德勤发现,截至2020,机器学习加速器技术的总可用市场(Total Available Market,TAM)可能会达到260亿美元。


Amazon正依靠机器学习来改善其业务关键领域的客户体验,包括产品推荐、替代产品预测、欺诈检测、元数据验证以及知识获取。


二、机器学习附能文本摘要自动生成

金准数据研究了人工智能在信息大潮中帮助人们提高工作能力的方法——让算法自动归纳长文本。但是怎样训练能够产生长句、连贯和有意义的摘要的模型仍然是一个有待解决的研究问题。事实上,即使是较先进的深度学习算法,生成任何长文本也是很困难的。为了使模型能够成功地生成摘要,金准数据认为可以从两个独立的方法进行改进:一个更加语境化的词生成模型和一种通过强化学习(RL)训练摘要模型的新方法。

两种训练方法的结合使得系统能够创建相关且高可读性的多语句长文本(例如新闻文章)摘要,并在之前的基础上实现了显著的提升。我们的算法可以对各种不同类型的文本和摘要长度进行训练。在本文中,金准数据介绍了两种模型的主要贡献,并概述了文本摘要特有的自然语言挑战。

1.文本摘要的发展现状

目前主流的文本摘要声称有两种方式:提取式摘要(Extractive Summarization)与抽象式摘要(Abstractive Summarization)。

自动摘要模型可以通过以下两种方法实现:通过提取或抽象。提取式模型执行“复制和粘贴”操作:它们选择输入文档的相关短语并连接它们以形成摘要。它们非常稳健,因为它们使用直接从原文中提取的已有自然语言短语,但是由于不能使用新词或连接词,它们缺乏灵活性。它们也不能像人一样改述。相反,抽象式模型基于实际的“抽象”内容生成摘要:它们可以使用原文中没有出现的词。这使得它们有更多的潜力来产生流畅和连贯的摘要,但因为需要模型生成连贯的短语和连接词,这也是一个更难的问题。

虽然抽象式模型在理论上更强大,但在实践中也常出现错误。在生成的摘要中,典型的错误包括不连贯、不相关或重复的短语,特别是在尝试创建长文本输出时。从已有模型来看,它们缺乏一般连贯性、意识流动性和可读性。在本任务中,我们解决了这些问题,并设计了一个更稳健和更连贯的抽象式摘要模型。

抽取式摘要是一种比较成熟的方案,其中Text rank排序算法以其简洁、高效的特点被工业界广泛运用。大体思想是先去除文章中的一些停用词,之后对句子的相似度进行度量,计算每一句相对另一句的相似度得分,迭代传播,直到误差小于0.0001。再对上述得到的关键语句进行排序,便能得到想要的摘要。抽取式摘要主要考虑单词词频,并没有过多的语义信息,像“猪八戒”,“孙悟空”这样的词汇都会被独立对待,无法建立文本段落中的完整语义信息。


生成式文本摘要主要依靠深度神经网络结构实现,2014年由GoogleBrain团队提出的Sequence-to-Sequence序列,开启了NLP中端到端网络的火热研究。Sequence-to-Sequence又称为编、解码器(Encoder、Decoder)架构。其中Encoder、Decoder均由数层RNN/LSTM构成,Encoder负责把原文编码为一个向量C;Decoder负责从这个向量C中提取信息,获取语义,生成文本摘要。

但是由于“长距离依赖”问题的存在,RNN到最后一个时间步输入单词的时候,已经丢失了相当一部分的信息。这时候编码生成的语义向量C同样也丢失了大量信息,就导致生成的摘要不够准确。

Bahdanau等人在14年发表的论文《Neural Machine Translation by JointlyLearning to Align and Translate》中,第一次将Attention机制应用于NLP中。Attention机制是一种注意力(资源)分配机制,在某个特定时刻,总是重点关注跟它相关的内容,其他内容则进行选择性忽视。就像下图,在翻译“Knowledge”时,只会关注“知识”.这样的对齐能让文本翻译或者摘要生成更具针对性。

RNN/LSTM单元,由于每个词是按顺序输入网络的,所以会记录文章的序列信息。因此,大部分的NLP任务,都是采用的RNN架构。但是这也限制了网络训练及摘要生成的速度,因为RNN必须一个个输入,一个个生成,无法并行计算。2016年Facebook AI Research(FAIR)发表了《A Convolutional Encoder Model forNeural Machine Translation》,对Encoder部分采用似乎不擅长处理序列信息的卷积网络(CNN)来实现,结果在翻译、摘要任务中,也达到了当年的最高水准。

2017年5月,还是FAIR,发布了《ConvolutionalSequence to Sequence Learning》,第一次实现了Encoder、Decoder都采用CNN单元,使得网络在训练阶段,可以并行计算,效率进一步提升。同时引入了Multi-step Attention(多跳注意),相比之前只在最后一层生成翻译时往回看,多跳注意使得Decoder阶段生成每一层的语义向量时都往回看,进一步提升了准确度。同时还有一些其他的Trick:引入单词的位置信息,残差网络,计算Attention时候对高层语义信息和低层细节信息,兼收并取等。最后在生成翻译和摘要时,速度相比之前最快的网络,提升了近9倍。同时在WMT-14英德、英法两项的单模型训练结果中,BLEU得分达到了25.16、40.46,其中英法翻译也是迄今为止的最高得分。

时隔一个月,17年6月,Google团队发布了名为《Attention Is All You Need》的文章,即不用CNN和RNN单元,只用Self-Attention和Encoder-Decoder Attention,就完全实现了端到端的翻译任务。并且在WMT-14英德、英法翻译任务中,BLEU值达到了28.4和41.0的高分。因为同样可以并行计算,模型的训练及生成速度也有所提升。Self-Attention相比于之前的模型更加关注句子的内部结构,也就是word-pairs的信息,附图是论文中Attention可视化的结果,可以发现仅在源文端,模型便学习到了“making more difficult”的word-pairs信息。

同理对目标端,模型也会单独学习句子的内部结构信息。之后利用Encoder-Decoder Attention建立源文和目标词组、句子的对应关系。相比于FAIR的卷积模型到很高层才能看到句子的完整信息,Self-Attention在第一层便巧妙地建立了每个词和整个句子的联系,同时位置编码采用三角函数的相对位置法表示,理论上可以泛化到训练中未见过的更长长度句子的翻译中。目前Self-Attention仅用在了翻译任务中,但这样的思想,在文本摘要自动生成的任务中,也是可以参照的。

(Google Transformer模型的拆解)

2.监督式学习训练模型 VS. 强化学习训练模型

为了理解我们的新抽象式模型,我们首先定义基本构建块(building block),然后介绍我们新的训练方式。

用编码器-解码器模型读取和生成文本

循环神经网络(RNN)能够处理可变长度的序列(例如文本),并为每个短语计算有用的表征(或隐藏状态)。网络逐一处理序列的每个元素(在这种情况下,即每个词);对于序列中的每个新输入,网络通过该输入和之前隐藏状态的函数输出新的隐藏状态。从这个角度讲,在每个词处计算的隐藏状态是所有之前读到的单词的函数输出。

循环神经网络通过对每个词应用相同的函数(绿色)来读取输入语句

RNN 也可以用类似的方式产生输出序列。在每个步骤中,RNN 隐藏状态用于生成添加到最终输出文本的新词,该词将被用作该模型的下一个输入。

RNN 可以生成输出序列,并重使用输出单词作为下一个函数的输入

输入(读取)和输出(生成)RNN 可以组合在联合模型中,其中输入 RNN 的最终隐藏状态被用作输出 RNN 的初始隐藏状态。以这种方式组合,联合模型能够读取任何文本并从中生成不同的文本。该框架称为编码器-解码器(encoder-decoder)RNN(或 Seq2Seq),它是我们摘要模型的基础。另外,我们用双向编码器替代传统的编码器 RNN,它使用两个不同的 RNN 来读取输入序列:一个从左到右读取文本(如图 4 所示),另一个从右到左读取。这有助于我们的模型更好地表示输入语境。

编码器-解码器 RNN 模型可用于解决自然语言中的 sequence-to-sequence 任务(如摘要)

一种新的注意及解码机制

为了使我们的模型输出更连贯,我们允许解码器在生成新单词时回顾部分输入文档,这种技术称为时间注意(temporal attention)模型。与完全依赖自己的隐藏状态不同,解码器可以通过注意函数(attention function)整合不同部分的输入语境信息。调整注意函数,以确保模型在生成输出文本时使用不同部分的输入,从而增加摘要的信息覆盖度。

另外,为了确保我们的模型不产生重复信息,我们还允许它回顾解码器之前的隐藏状态。用类似的方式,我们定义内部解码注意函数(intra-decoder attention function),它可以回顾解码器 RNN 之前的隐藏状态。最后,解码器将来自时间注意模型的语境向量(context vector)与来自内部解码注意函数的语境向量相结合,在输出摘要中生成下一个词。下图展示了在给定解码步骤中这两个注意函数的联合过程。

由编码器隐藏状态和解码器隐藏状态计算得到的两个语境向量(标记为“C”),使用这两个语境向量和当前的解码器隐藏状态(“H”),生成一个新的词(右)并添加到输出序列中。

如何训练模型?监督式学习 VS. 强化学习

要训练这个模型并应用于新闻文章等真实数据,通常的方法是使用教师强迫算法(teacher forcing algorithm):一个模型在生成一个摘要时使用参考摘要(reference summary),并且该模型在每生成一个新单词时会被分配一个逐词误差(word-by-word error,或“局部监督/local supervision”,如下图所示)。

用监督式学习训练模型。每个生成的单词得到一个训练监督信号,通过与同一位置的正确摘要单词进行比较来进行训练。

该方法可用于训练任意基于循环神经网络的序列生成模型,具有非常好的结果。然而,对于我们的特定任务,正确的摘要不一定要按照逐字来匹配参考序列。你可以想像,对于同样的新闻文章,两个人可能在风格、单词或句子顺序上产生不尽相同的摘要,但仍然认为摘要是好的。教师强迫算法的问题是:一旦产生了前几个单词,训练就会被误导:严格遵守一个官方正确的摘要,但不能适应一个潜在正确但不同的开头。

考虑到这一点,我们可以比教师强迫的逐词方法做得更好。这里可以应用一种称为强化学习(RL)的不同类型的训练。首先,强化学习算法使模型生成自己的摘要,然后使用外部评分器(scorer)来比较生成的摘要与正确摘要。这个评分器然后向模型表明生成的摘要有多“好”。如果分数很高,那么模型进行更新,使得这些摘要更有可能在将来出现。否则,如果得分低,模型将受到惩罚,并改变其生成过程以防止生成类似的摘要。这种强化模型擅长得出用于评估整个序列而不是逐词预测的摘要分数。

在强化学习中,模型没有对应每个预测词的局部监督信号,而是用基于整个输出和摘要参考的奖励信号(reward signal)进行训练。

如何评估摘要?

评分器到底是什么?它如何分辨出一个摘要的“好坏”?由于要人手动评估数以万计的摘要在很大程度上是耗时并不切实际的,因此,我们使用一种名为 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)的自动评分指标。ROUGE 通过对比摘要中将生成的摘要中的匹配子短语和实际数据的参考摘要中的子短语来运作,即使它们并不是完全一致的。不同的 ROUGE 变体(ROUGE-1、ROUGE-2、ROUGE-L)都以相同的方式工作,但使用不同的子序列长度。

尽管 ROUGE 分数与人类判断总体上有很好的相关性,但 ROUGE 较高分的总结不一定是最可读或最自然的。当我们仅通过强化学习来训练模型使 ROUGE 得分较大化时,这就成为一个问题。我们观察到我们具有较高 ROUGE 分数的模型也会生成几乎不可读的摘要。

为了发挥两个领域的优势,我们的模式同时受到教师强迫和强化学习的训练,能够利用词级和整个摘要层面的监督使摘要具有连贯性和可读性。特别是我们发现 ROUGE 优化的强化学习有助于改善回调(即所有需要总结的重要信息实际上已经被总结),并且词级学习监督能确保良好的语言流畅性,使得摘要更连贯可读。

监督学习(红色)和强化学习(紫色)的组合,演示了我们的模型同时学习本地和全局奖励并同时优化可读性和整体 ROUGE 分数的方法

直到最近,CNN / Daily Mail 数据集中的抽象摘要的较高 ROUGE-1 分数是 35.46。结合解码器内部注意 RNN 模型的联合监督和强化学习训练,这个分数提高到了 39.87,并且,如果仅是强化学习,该分数为 41.16。下图显示了我们和其他的现有模型的摘要分数。即使我们的纯强化学习模型具有较高的 ROUGE 分数,我们监督的+ 强化学习模型具有较高的可读性,因此它与该摘要任务更加相关。注意: 由于使用稍微不同的数据格式,Nallapati et al 的结果与我们的和其他数据格式不能直接相比,但仍然给出了很好的参考。

CNN / Daily mail 数据集的摘要结果,比较我们的模型与现有的抽象式和提取式方法

样本输出

从传统的Textrank抽取式,到深度学习中采用RNN、CNN单元处理,再引入Attention、Self-Attention、机器生成摘要的方式,这些跟人类思维越来越像,都建立在对整段句子的理解之上。与此同时生成摘要的效果,也常常让我们惊艳。

但文本摘要自动生成依然还有很多难题,比如如果段落太长,那么机器对段落的理解时间就要很长,而过长的时间会导致机器对段落信息的记忆的损失。而且深度学习非常依赖有标签的样本,标注工作也是一笔非常大的开销。

总的来说,文本摘要自动生成是个非常具有前景但也非常具有挑战性的技术。


我们的模型生成的更多的摘要例子,对比同一篇文章的人工撰写的摘要

为了说明我们在文本摘要方面的主要贡献带来的影响,下图显示了如果不考虑内部注意力和强化学习训练,我们模型的输出是如何离题的。


我们的模型生成的示例摘要,有和没有我们的主要贡献。原始文章中不存在的新词将以绿色显示。摘要中重复的短语显示为红色。



结论:

金准数据认为,基于机器学习的训练模型显著提高了在多语句摘要生成方面的技术水平,优于现有的抽象式模型和提取式基线。我们相信,我们的贡献(解码器内部注意模块和组合的训练目标)可以改善其他的序列生成任务,特别是较长的输出。

我们的工作也涉及诸如 ROUGE 等自动评估指标的限制,这表明需要更好的指标来评估和优化摘要模型。一个理想的度量指标在摘要的连贯性和可读性方面应与人类的判断相一致。当我们使用这样的指标来强化摘要模型时,摘要的质量可能会进一步提高。

用于抽象式摘要的基于注意 RNN 的编码器-解码器模型已经在短输入和输出序列上取得了良好的表现。但是,对于更长的文档和摘要,这些模型通常会包含重复的和不连贯的短语。我们引入了一种带有内部注意(intra-attention)的神经网络模型和一种新的训练方法。这种方法将标准的监督式词预测和强化学习(RL)结合到了一起。仅使用前者训练的模型常常会表现出“exposure bias”——它假设在训练的每一步都会提供 ground truth。但是,当标准词预测与强化学习的全局序列预测训练结合起来时,结果得到的摘要的可读性更高。我们在 CNN/Daily Mail 和 New York Times 数据集上对这个模型进行了评估。我们的模型在 CNN/Daily Mail 数据集上得到了 41.16 的 ROUGE-1 分数,比之前的较佳模型高出了显著的 5.7 分。其也是第一个在 New York Times 语料库上表现良好的抽象式模型。人类评估也表明我们的模型能得到更高质量的摘要。



人工智能驱动教育信息化2.0 百度智慧课堂全面助力“新课标”建设

2018年开年,教育部印发了《普通高中课程方案和语文等学科课程标准(2017年版)》(以下简称新课标),从教育定位、课程体系、教学内容、核心素养、学业质量及实施评价等多个方面进行了大幅的修订和补充,对我国的新时代人才培养指明了新方向,也为智慧教育推动信息技术和教育实践的深度融合提供了无限旷阔的空间。


百度智慧课堂作为百度教育旗下的智慧教育平台,率先同步新课标内容,成为首家全面支持新课标的AI智慧教育平台,在备课、授课、课后、互动等各个环节为师生提供AI内容和智能工具解决方案。


AI教育助力教师专业发展,让人工智能走进课堂


百度智慧课堂积极响应国家“让人工智能在教育落地”的号召,年前上线“AI教育”模块提供三大类服务:“教学服务”支持信息技术教师进行课堂教学,提供AI技术体验、原理揭秘、教学应用场景;“学习中心”促进教师计算思维和创新能力提升,丰富信息技术课程内容和活动,建立教师信息技术能力发展不同知识梯度课程;“技术沙龙”拓展AI技术在ICT课程(信息技术)的应用和实践,分享百度技术沙龙成果。


“AI教育”模块直接面向未来人才培养,丰富一线教学场景,助力教师队伍建设,致力于发展便捷高效的智能服务,使用AI技术加快人才培养,达到实现教学方法改革,构建新型的教育体系的目的。


打破内容瓶颈,同步新教材助推教与学智慧升级


在内容建设方面,百度智慧课堂打破瓶颈,将新课标下多版本新教材的多种资源形态进行了匹配和升级,目前全面支撑新课标14学科方向的知识图谱挂载,还满足了不同学科新课标的差异化需求。


例如语文新课标体现了内容全、分量多、要求高的特点,据此百度智慧课堂更新的语文知识图谱,从先秦覆盖到清末,增加中华优秀传统文化、革命文化和社会主义先进文化教育等内容。针对理科,新课标整体上强调实际问题解决能力,百度智慧课堂则实现VR/AR等理科实验室的建立,将抽象晦涩的理科内容通过智能技术增强现实感知,使新课标下的教与学更加便捷、更加深入。面向信息技术学科,平台建设培养学生计算科学、编程教育等教育服务。


深化新课标理念,智慧课堂支持个性化教育实现


在平台服务方面,百度智慧课堂按照新课标指导,支持个性化教育的实现。新课标大力倡导个性化教育,常规的大班授课无法满足新课标从宏观和微观两个层面对“因材施教”的需求,智慧课堂通过先进的信息技术和智能技术,实现了分层教学和个性化学习。通过分析课上课下教学大数据,教师能根据不同学生学习能力和学习风格,实现智能分组、随机分组、一对一教学等,根据学生学习能力进行测验和试题推送。


百度智慧课堂基于大数据,可实时提供教学过程评价和精准诊断,当数据累积到一定体量后,还将生成学生的个性化学习报告,及教师教学风格报告。在教学模式方面,百度智慧课堂提供情景体验式、主题探究式、问题讨论式、实践拓展式等多种教学模式,支持教师根据不同学生的特点和教学内容差异化进行授课,适应学生的个体差异,以最有效的方式促进学生的知识建构和能力发展,使每个学生都获得全面发展的教育过程。


将AI技术应用到教育里,是国家教育信息化2.0的要求,也是新一代AI应用发展规划的要求。面向新时代智慧教育,无论从学科生态化、无边界的课堂、还是从学习方式、教学和评价方式等,百度智慧课堂正在落实新课标理念和要求,尊重师生的个性化与多元化发展需要,实现新课标下未来教育,帮助学校探索未来教学新模式,实现学区及校内个性化、内容化、数据化、智能化,推动智慧教育创新示范。


关于百度智慧课堂


百度智慧课堂是百度教育在基础教育和高等教育领域重点打造的一款以优质资源为核心,将人工智能技术与教育学习场景深度融合,整合了多达2亿优质资源来辅助教师教学,以及帮助学生自主学习的优质资源服务平台。百度智慧课堂拥有百度领先的人工智能技术,以及百万级专业知识图谱,可以实现知识的系统化智能教学和学习。同时,为校园提供了充足的优质资源,大幅提高学校资源利用率,便捷校园教师和管理者进行资源管理。



蓝色光标战略投资深圳众赢,加快向数据科技公司转型;维塔士完成1500万美元融资,并在新加坡设立新总部

3月14日晚间,蓝色光标发布公告,宣布以自有资金1.5亿元通过增资方式取得考拉 科技 旗下深圳众赢维融科技有限公司(以下简称“深圳众赢”)25%股权。本次交易完成后,深圳众赢将成为蓝色光标旗下参股公司。 通过此次 投资 ,蓝色光标将在未来依托深圳众赢强大的数据分析能力,结合自身积累的大量 社交 、广告数据对中国消费人群进行更加精准的画像,并开发更多算法模型和智能服务产品,从而为客户智慧经营提供更加实时、高效的全面服务。

此次战略投资深圳众赢,将为蓝色光标数据科技战略转型再添新引擎。蓝色光标董事长兼CEO赵文权先生表示: “经历三年的发展,蓝色光标已经夯实了自我转型的基础,深圳众赢高精度的金融科技力量,将进一步增强我们在用户画像、数据分析与产品研发的能力,与我们原有的创意和营销服务相结合,将进一步提升蓝色光标在大数据和社会化媒体时代的服务能力。未来的蓝色光标将既拥有传播企业的智能营销服务能力,同时拥有科技公司数据挖掘分析和深度学习的能力,我们将利用这些专业能力提供更快、更精准的智慧经营服务,在提升内部运营效率的同时提升客户的营销效率,为客户的 商业 成功赋能。”

这项技术广泛应用于航天飞船,获高捷资本投资

高温合金材料先进成形技术一体式解决方案商达峰科技获高捷资本投资。达峰成形科技主营 轻质、高强、耐高温结构 的材料热成型,在材料热成型领域处于领先地位,其技术广泛应用于航天飞船等关键部件。 该项自主核心技术根植于哈尔滨工业大学材料学院,通过王国峰教授团队在航天领域的新材料研发应用,经历十年打磨,成为载人航天飞船的关键技术。产品广泛应用于航空航天、轨道交通、汽车、武器装备、医疗、新能源等领域。

达峰作为行业领先的新材料公司,集装备研发、设计、制造及服务为一体,目前已拥有铝合金、钛合金、镁合金、高温合金等材料先进成形技术一体式解决方案,轨道车辆、汽车先进钣金成形技术及研发等综合服务,并能够研发生产先进材料精密热成形专用装备。

获数千万元Pre-A轮融资,圣贝拉要打造“护理中心+护理学院”综合母婴生态圈

据悉,圣贝拉母婴月子会所已完成数千万元Pre-A轮融资,本轮由唐竹资本领投,高榕资本跟投。据悉,这是国内第一家月子会所在早期便获得融资的企业。贝康国际创始人向华对猎云网表示,此轮融资后,将继续在北京、华中地区开设高端母婴月子会所,并优化管理体系,引进人才。

圣贝拉母婴月子会所成立于2016年12月,隶属贝康国际,主打高端艺术路线,瞄准中端,为年轻的妈妈群体提供从产前服务到月子护理及产后恢复的一体化护理服务,并且注重用艺术疗养方法来关注妈妈们的精神健康。

「香气博览」获千万元Pre-A轮融资,小众香水品牌的故事如何讲好?

获悉,全球小众香水集合平台“香气博览”已于近期完成 1000 万元 Pre-A 轮融资,投资方为七熹投资。

总体来看,香气博览的未来路径很可能是以反向控股甚至收购的方式,打造一个小众香水集团,并可能孵化/经营出下一个 diptyque。

那么,为什么是小众香水?小众香水引入后该如何运营?香水市场在如何随着消费者变化?

华东地区最强人工智能团队获360数千万投资

据悉,人工智能科技公司硅基科技获得360和澎湃资本数千万投资,此前我们曾独家报道硅基获得和君资本、好望角资本2000万天使投资。

硅基科技专注人工智能,拥有人工智能领域专家40人,是华东顶级的人工智能研发团队,他们在全球率先推出硅基智慧服务模式,向传统行业注入人工智能解决方案,帮助企优化资源配置机构,从而增强企业竞争力。现在硅语全自动电话机器人已经应用到金融、房地产、电商、汽车、保险等十几个行业领域,达到了同行业内的领先水平,获得众多客户的认可和肯定,目前业务已拓展到韩国和澳大利亚。

峰瑞资本投资会潜水清污的爬壁机器人

据悉,爬壁机器人研发商行知行科技获得峰瑞资本投资,具体金额尚未透露。行知行主要研发爬壁机器人,已经成功研发一款船舶爬壁机器人,并申请多项专利。

该船舶爬壁机器人大幅提高了船舶除锈爬壁机器人的吸附、越障能力,增强了对船舶壁面的适应能力,提高除锈效率,实现无污染、高效率的除锈作业。

维塔士完成1500万美元融资,并在新加坡设立新总部和研发中心

新加坡-2018年3月15日-维塔士是全球领先的视频游戏内容制作公司,专精于主机游戏和手机游戏的开发与AAA级3D美术制作。维塔士宣布已经成功融资1500万美元,并在新加坡设立新总部和研发中心。

维塔士新投资方是3D Capital Partners,这是一家由法国投资公司Enthéos和香港投资公司Leitmotiv Private Equity组成的合资企业。维塔士首席执行官兰吉利(Gilles Langourieux)依然是公司最大股东,其余股份由维塔士分区经理,3D Capital Partners和长期投资方徐汇科投所有。

“视频游戏开发行业正趋于成熟,维塔士也是如此。如今,我们可以在更多元、更强大的平台上向玩家提供更丰富的游戏体验。”维塔士首席执行官兰吉利(Gilles Langourieux)表示,“公司的全新架构,融资的扩大以及在新加坡建立的研发中心都将确保我们继续站在游戏科技创新的前沿,继续成为优质游戏开发工作室的理想合作伙伴。”


平安银行断臂疗伤:对公贷款锐减790亿,消费金融能否补位?

按照惯例,平安银行打响了2018年银行股年报披露第一枪,本周发布了今年首份银行业年报。


2017年,对于平安银行来说至关重要,因为这是2016年高层大换血后的第一个完整财年。


去年,因为一起震惊业界的“踩雷”事件,面包财经曾盘点过平安银行近些年踩过的违约地雷,在金融圈引发热议。


今天,我们就着这份新鲜出炉的年报,来粗略解读一下高层大换血之后,首个完整财年平安银行的表现。


前情提要:入主近4年零售业务无大起色,平安银行高层大换血


2012年6月,深发展银行发出公告称,正在实施对平安银行股份的吸收合并,并于当年8月初将上市公司更名为平安银行。更名后不久,上市公司发出公告称,两行的股份吸收合并已完成。自此,平安系正式入主深发展,成为代码000001.SZ的主人。


很显然,具有庞大零售金融业务资源的中国平安对于平安银行的零售业务寄予厚望。在2013年的年报中,平安银行提出“公司、零售、同业、投行”的“四轮驱动”战略,零售业务被置于相当重要的位置。


但直到2016年,平安银行的零售银行业务起色并不算太大。


以个人贷款为例。2013年至2016年,平安银行的个人贷款占贷款总额占比从38.43%下降至36.65%。尽管个贷绝对值有增加,但占比反而略有下滑。


信用卡贷款余额在这几年提升较为显著,从2013年的868亿元增至2016年的1810.85亿元,年复合增长率为27.8%,并不算低。但是考虑到整个平安系庞大的客户基数,这一成绩也只能算是差强人意。2017年,这一数字同比增长率高达67.7%,亦可反衬前几年的增速不高。


另外,这几年,平安银行在风控方面也有诸多缺失。此前几起重大的违约事件,平安银行均未能幸免踩雷。从东北特钢债务违约、上海云峰债务违约到辉山乳业债务违约以及仍在持续发酵的丹东港债务违约,在这些债务雷区中都能看到平安银行“不幸踩雷”的身影。


平安银行从2016年末开始对管理层进行一次大换血。原董事长孙建一在2016年届满后离职,由谢永林接任。另外,2017年有多名副行长离职,比如,2017年9月,同时兼任副行长及首席财务官的陈蓉递交辞呈,后由项有志替任首席财务官一职。


从董事长到CFO,平安银行在2017年完成了主要的管理人员的更换。2016年,平安银行启动零售银行战略,随后完成高层人士调整。


所以,这一份年报格外引人注目,不仅是新管理层的成绩单首秀,也是零售银行战略实施的首份成绩单。


急速调整:对公贷款锐减796亿 个贷占据半壁江山


提出战略转型后,2017年,平安银行零售业务增速迅猛,以银行零售业务的核心——信用卡业务来看:2017年,平安银行信用卡新增发卡量为1509万张,同比增长80%,而过去两年新增信用卡量总和不过1512.2万张。一年完成两年的任务,这个态势确实猛。


截至2017年末,平安银行信用卡有效卡量为3834万张,同比增长49.73%。


直接来看对公贷款和个人贷款占比的变动:



在大力发展以消费金融为主的零售业务同时,平安银行的对公贷款在2017年却锐减了约796亿元。对公贷款占比从2016年的63.35%降至2017年的50.18%,而个人贷款占比则从36.65%提升至49.82%,目前两者已十分接近。


众所周知,银行的对公业务和零售业务,就好比贸易领域的批发和零售,零售这种点对点的服务,很大程度上会抬升运营成本。


在2013年至2016年期间,平安银行的对公贷款占比有所提升的情况下,成本收入比在不断减小,从2013年的40.77%下降至2016年的25.97%。随着零售业务铺开局面,2017年的成本收入比骤增至29.89%,同比增加了近4个百分点。


另外,根据平安银行披露的两种贷款的平均收益率来看,2017年个人贷款的平均收益率为7.95%,较2016年的9.05%同比减少了近1个百分点。


从数据对比中,可以明显看出,平安银行2017年,急速向零售金融业务转型。


成本收入比提升,个人贷款收益率下滑,但是平安银行在2017年的净利润却仍旧录得了2.61%的微增长。


营收降利润升的背后:贷款减值计提减少


先直接看业绩情况:



根据平安银行2017年年报,其营收为1057.86亿元,同比减少1.79%,归母净利润为231.89亿元,同比增加2.61%。


2017年营收减少的部分原因在于2016年下半年的营改增,不过这一因素的实际影响可能不会太大,这从平安银行2017年连续四个季度营收同比增速均小于1%可以看出,且其在第二和第三季度分别录得为-3.22%和-5.29%的降幅。


营收微降的同时,能够录得净利润的增长,可能要归因于资产减值损失减少,其中主要是贷款减值损失减少:2017年,计提贷款减值损失408.03亿元,同比减少10.19%。若剔除资产减值损失,则平安银行2017年录得的营业利润为731.48亿元,同比将减少4.13%。


之所以减少计提,从表面上看,是因为不良贷款率降低了:2017年不良贷款率为1.7%较上年年末的1.74%减少了0.04个百分点。


但是,纵观平安银行一直以来的贷款分类指标,不良率下降的含金量仍存在疑问。


不良认定偏离度较高 风控仍为关注点


在上数据之前,先科普一个业内常用的检测不良率含金量的指标计算:不良认定偏离度。计算公式是这样的:不良认定偏离度=逾期90天以上贷款/不良贷款。


翻查银行股财报,会发现,现在的银行将贷款分为五个等级,即正常、关注、次级、可疑和损失。后三类的总和就是呈现在年报中的不良贷款。


尽管,监管文件上对这五类贷款分类进行了一定的指导,但是在实际操作中,各家银行还是有调控空间的。


因此,分析银行的不良贷款情况时,通常还会引入逾期90天以上贷款这一数据作为参考。这背后的原理主要是,有些贷款人,尤其是零售贷款人经常会忘记还款日,从银行不断提醒到贷款人还款,这一来一回可能会耽搁一段时间,一般以3个月来衡量还款能力和意愿。


从严谨分析的角度来看,如果一家银行足够保守,那么其在对贷款进行分类后,一般逾期90天以上贷款余额会小于不良贷款余额,也就是说不良认定偏离度要小于1。在这一归类上,招商银行一直是业界楷模,该比值长期保持在80%左右。


再回到平安银行。直接上图:



我们可以看到,尽管平安银行的不良率终于在2017年降至1.7%,但实际上在2017年第三季度不良率还有1.75%。


若结合逾期贷款来看,平安银行不良贷款的归类含金量存疑:2017年,平安银行的不良认定偏离度为142.98%,虽然已经较2014年的279%大幅下降,但长期大于1的走势,仍旧难说不良认定的严谨。


2017年各家银行的全本年报才刚刚开始发,我们用8家股份行2017年中报的数据做个对比。可以看一下各家不良贷款认定的松紧程度:



近两年来,华夏银行和平安银行的不良认定偏离度在8家股份行中一直包揽前两名,各家股份行不良贷款认定的松紧程度高下立现。


进入3月下旬,在大A股上市的银行股将密集发布年报,至于平安银行的相对表现究竟如何,我们可以等股份行年报都出齐了再回过头来看看。


对比前几年的数据,可以明显看出,平安银行在2017年的转型力度在明显加大,零售银行业务数据也得到诸多券商分析师的正面评价。


但是,冰冻三尺非一日之寒。风控不严以及不良贷款认定标准过松的老问题依然存在,而零售金融业务急速上量之后,对风控的压力只会有增无减。


平安银行能否“平安”转型,有待时间来检验,但利润的含金量确实需要投资者多思量。

谷歌母公司5600万美元投资AI芯片初创企业SambaNova


据美国媒体CNBC报道,由谷歌母公司Alphabet的风险投资部门--Google Venture(GV)领衔,初创公司SambaNova System获得5600万美元的A轮融资。SambaNova是一家生产计算机处理器以及人工智能和数据分析软件的公司。这是GV首次对人工智能芯片公司进行投资。


近几年谷歌非常重视人工智能,从去年开始,谷歌CEOPichai就不断强调人工智能的重要性,称谷歌的发展方向已经从“mobile first” 转变到“AI第一”上,但是新成立的GV对投资人工智能硬件公司一向非常谨慎。GV合伙人Munichiello对CNBC说,(SambaNova)的时机非常好.....有些更大的公司的已有产品对AI的未来并不合适。


近年来AI芯片一直是各大科技公司明争暗斗的对象。2016年谷歌宣布已经制造出可以快速训练AI模型的芯片-张量处理单元TPU,以对抗英伟达的GPU。老牌芯片CPU巨头英特尔并购了AI芯片初创公司Nervana。


在收购AI初创公司方面,谷歌也位列各大科技公司榜首。据媒体Venturebeat报道,人工智能初创公司的并购案已由2013年的22个增加到2017年的115个。从2012年至今,谷歌并购的AI公司最多(14个),苹果公司位居第二。


SambaNova总部位于加州的Palo Alto,成立于去年11月,拥有50名员工,其创始人包括两位斯坦福大学的教授和一位前甲骨文公司高管。创始人之一Olukun表示,SambaNova的重点领域不止人工智能模型训练,其基础架构将能够适应其他类型的计算,包括快速查询数据库。


目前这家初创公司还没有第一代芯片,但已与潜在客户以及公共云提供商进行了谈话。除了GV以外,其他参与投资的公司包括Walden International,Redline Capital和 Altantic Bridge Ventures 。


截止发稿,周四谷歌母公司Alphabet股价上涨0.21%,报1151.27美元。