文章列表 - 蓝海商信 - 蓝海硅谷-金地毯

行业研究

行业研究

4.3应用尝试和问题分析

APCNNs模型在辅助知识图谱数据构建中目前还处于尝试阶段。就运算能力而言，APCNNs模型相比DeepDive系统更有优势，能在大规模语料上同时针对多个关系进行计算，且迭代更新过程无需人工校验交互。但在业务落地过程中，我们也遇到了一些问题，总结如下：

1) 大规模实验耗时过长，给参数的调整和每一次算法策略上的迭代增加了难度。

2) 目前学术界通用的测试语料是英文的NYT数据集，相同的模型应用于中文语料时，存在准召率对标困难的问题。

3) 深度学习的过程人工难以干预。假设我们要预测（杨幂，刘恺威）的婚姻关系，但从最初的基于大规模语料的词向量生成开始，如果该语料中（杨幂，刘恺威）共现时的主导关系就不是婚姻关系，而是影视剧中的合作关系（如“该片讲述杨幂饰演的夏晚晴在遭遇好友算计、男友婚变的窘境下，被刘恺威饰演的花花公子乔津帆解救，但却由此陷入更大圈套的故事。”），或基于某些活动的共同出席关系（如“杨幂与刘恺威共同担任了新浪厦门爱心图书馆的公益大使”），则在attention步骤中得到的关系向量就会偏向合作关系，这将导致计算包中每个句子的权值时，表达婚姻关系的句子难以获得高分，从而导致后续学习中的偏差。

4) 深度学习模型的结果较难进行人工评测，尤其对于知识图谱中没有出现的实体对，需要在大规模的中间过程矩阵中进行匹配和提取，将权重矩阵可视化为包中每个句子的得分，对计算资源和人工都有不小的消耗。

五、总结与展望

基于DeepDive的方法和基于深度学习的方法各有优势和缺陷，以下从4个方面对这两种方法进行总结和对比：

1) 语料的选取和范围

Deepdive可适用于较小型、比较专门的语料，例如历史人物的关系挖掘；可以针对语料和抽取关系的特点进行调整规则，如婚姻关系的一对一或一对多，如偏文言文的语料的用语习惯等。

APCNNs模型适用于大规模语料，因为attention机制能正常运行的前提是word2vec学习到的实体向量比较丰富全面。

2) 关系抽取

Deepdive仅适用于单一关系的判断，分类结果为实体对间某一关系成立的期望值。针对不同的关系，可以运营不同的规则，通过基于规则的标注能较好地提升训练集的标注准确率。

APCNNs模型适用于多分类问题，分类结果为relation集合中的关系得分排序。无需针对relation集合中特定的某个关系做规则运营。

3) 长尾数据

Deepdive更适用于长尾数据的关系挖掘，只要是NER能识别出的实体对，即使出现频率很低，也能根据该实体对的上下文特征做出判断。

APCNNs模型需要保证实体在语料中出现的次数高于一定的阈值，如min_count>=5，才能保证该实体有word2vec的向量表示。bag中有一定数量的sentence，便于选取相似度高的用于训练

4) 结果生成与检测

Deepdive对输出结果正误的判断仅针对单个句子，同样的实体对出现在不同的句子中可能给出完全不同的预测结果。测试需要结合原句判断结果是否准确，好处是有原句作为依据，方便进行人工验证。

APCNNs模型针对特定的实体对做判断，对于给定的实体对，系统给出一致的输出结果。对于新数据的结果正确性判断，需要结合中间结果，对包中被选取的句子集合进行提取和验证，增加了人工检验有的难度。

在未来的工作中，对于基于DeepDive的方法，我们在扩大抓取关系数目的同时，考虑将业务实践中沉淀的改进算法流程化、平台化，同时构建辅助的信息增补工具，帮助减轻DeepDive生成结果写入知识图谱过程中的人工检验工作，例如，对于婚姻关系的实体对，我们可以从图谱获取人物的性别、出生年月等信息，来辅助关系的正误判断。

对于基于深度学习的方法，我们将投入更多的时间和精力，尝试从以下几方面促进业务的落地和模型的改进：

1) 将已被DeepDive证明有效的某些改进算法应用到深度学习方法中，例如根据关系相关的关键词进行过滤，缩小数据规模，提高运行效率。

2) 将计算中间结果可视化，分析attention过程中关系向量与sentence选取的关联，尝试建立选取结果好坏的评判机制，尝试利用更丰富的信息获得更准确的关系向量。

3) 考虑如何突破预先设定的关系集合的限制，面向开放领域进行关系抽取，自动发现新的关系和知识。

4) 探索除了文本以外其它形式数据的关系抽取，如表格、音频、图像等。

金准人工智能专家认为，随着深度学习研究的进一步深入，如何有效利用大量存在的先验知识，进而降低模型对于大规模标注样本的依赖，逐渐成为主流的研究方向之一。知识图谱的表示学习为这一方向的探索奠定了必要的基础。近期出现的将知识融合进深度神经网络模型的一些开创性工作也颇具启发性。但总体而言，当前的深度学习模型使用先验知识的手段仍然十分有限，学术界在这一方向的探索上仍然面临巨大的挑战。这些挑战主要体现在两个方面:

如何获取各类知识的高质量连续化表示。当前知识图谱的表示学习，不管是基于怎样的学习原则，都不可避免地产生语义损失。符号化的知识一旦向量化后，大量的语义信息被丢弃，只能表达十分模糊的语义相似关系。如何为知识图谱习得高质量的连续化表示仍然是个开放问题。

如何在深度学习模型中融合常识知识。大量的实际任务（诸如对话、问答、阅读理解等等）需要机器理解常识。常识知识的稀缺严重阻碍了通用人工智能的发展。如何将常识引入到深度学习模型将是未来人工智能研究领域的重大挑战，同时也是重大机遇。

金准人工智能知识图谱和深度学习协同发展研究报告（上）

前言

大数据为人工智能的发展带来前所未有的数据红利，其进展突出体现在以知识图谱为代表的知识工程以及深度学习为代表的机器学习等相关领域。近年来搜索领域和自然语言处理领域热度不减，知识图谱成为搜索引擎向知识引擎转变的关键所在，融合知识图谱和深度学习，已然成为进一步提升深度学习模型效果的重要方向之一。以知识图谱为代表的符号主义、以深度学习为代表的联结主义，日益脱离原先各自独立发展的轨道，走上协同并进的新道路。其中，以阿里的“神马搜索”为代表的知识搜索引擎中，知识图谱及其相关技术的广泛应用不仅能帮助用户找到最想要的信息，更能让用户有意想不到的知识收获。

一、历史背景

大数据为机器学习，特别是深度学习带来前所未有的数据红利。得益于大规模标注数据，深度神经网络能够习得有效的层次化特征表示，从而在图像识别等领域取得优异效果。但是随着数据红利消失殆尽，深度学习也日益体现出其局限性，尤其体现在依赖大规模标注数据和难以有效利用先验知识等方面。这些局限性阻碍了深度学习的进一步发展。另一方面在深度学习的大量实践中，人们越来越多地发现深度学习模型的结果往往与人的先验知识或者专家知识相冲突。如何让深度学习摆脱对于大规模样本的依赖？如何让深度学习模型有效利用大量存在的先验知识？如何让深度学习模型的结果与先验知识一致已成为了当前深度学习领域的重要问题。

当前，人类社会业已积累大量知识。特别是，近几年在知识图谱技术的推动下，对于机器友好的各类在线知识图谱大量涌现。知识图谱本质上是一种语义网络，表达了各类实体、概念及其之间的语义关系。相对于传统知识表示形式（诸如本体、传统语义网络），知识图谱具有实体/概念覆盖率高、语义关系多样、结构友好(通常表示为RDF格式)以及质量较高等优势，从而使得知识图谱日益成为大数据时代和人工智能时代最为主要的知识表示方式。能否利用蕴含于知识图谱中的知识指导深度神经网络模型的学习从而提升模型的性能，成为了深度学习模型研究的重要问题之一。

现阶段将深度学习技术应用于知识图谱的方法较为直接。大量的深度学习模型可以有效完成端到端的实体识别、关系抽取和关系补全等任务，进而可以用来构建或丰富知识图谱。本文主要探讨知识图谱在深度学习模型中的应用。从当前的文献来看，主要有两种方式。一是将知识图谱中的语义信息输入到深度学习模型中；将离散化知识图谱表达为连续化的向量，从而使得知识图谱的先验知识能够成为深度学习的输入。二是利用知识作为优化目标的约束，指导深度学习模型的学习；通常是将知识图谱中知识表达为优化目标的后验正则项。前者的研究工作已有不少文献，并成为当前研究热点。知识图谱向量表示作为重要的特征在问答以及推荐等实际任务中得到有效应用。后者的研究才刚刚起步，本文将重点介绍以一阶谓词逻辑作为约束的深度学习模型。

二、知识图谱作为深度学习的输入

知识图谱是人工智能符号主义近期进展的典型代表。知识图谱中的实体、概念以及关系均采用了离散的、显式的符号化表示。而这些离散的符号化表示难以直接应用于基于连续数值表示的神经网络。为了让神经网络有效利用知识图谱中的符号化知识，研究人员提出了大量的知识图谱的表示学习方法。知识图谱的表示学习旨在习得知识图谱的组成元素(节点与边)的实值向量化表示。这些连续的向量化表示可以作为神经网络的输入，从而使得神经网络模型能够充分利用知识图谱中大量存在的先验知识。这一趋势催生了对于知识图谱的表示学习的大量研究。本章首先简要回顾知识图谱的表示学习，再进一步介绍这些向量表示如何应用到基于深度学习模型的各类实际任务中，特别是问答与推荐等实际应用。

2.1知识图谱的表示学习

知识图谱的表示学习旨在学习实体和关系的向量化表示,其关键是合理定义知识图谱中关于事实（三元组< h,r,t >）的损失函数 ƒr(h,t)，其中和是三元组的两个实体h和t的向量化表示。通常情况下，当事实 < h,r,t > 成立时，期望最小化 ƒr(h,t)。考虑整个知识图谱的事实，则可通过最小化：

来学习实体以及关系的向量化表示，其中 O 表示知识图谱中所有事实的集合。不同的表示学习可以使用不同的原则和方法定义相应的损失函数。这里以基于距离和翻译的模型介绍知识图谱表示的基本思路[1]。

2.1.1基于距离的模型

其代表性工作是 SE 模型[2]。基本思想是当两个实体属于同一个三元组 < h,r,t > 时，它们的向量表示在投影后的空间中也应该彼此靠近。因此，损失函数定义为向量投影后的距离

其中矩阵 Wr,1 和 Wr,2 用于三元组中头实体 h 和尾实体 t 的投影操作。但由于 SE 引入了两个单独的投影矩阵，导致很难捕获实体和关系之间的语义相关性。Socher 等人针对这一问题采用三阶张量替代传统神经网络中的线性变换层来刻画评分函数。Bordes 等人提出能量匹配模型，通过引入多个矩阵的 Hadamard 乘积来捕获实体向量和关系向量的交互关系。

2.1.2基于翻译的表示学习

其代表性工作 TransE 模型通过向量空间的向量翻译来刻画实体与关系之间的相关性[3]。该模型假定，若 < h,r,t > 成立则尾部实体 t 的嵌入表示应该接近头部实体 h 加上关系向量 r 的嵌入表示，即 h+r≈t。因此，TransE 采用

作为评分函数。当三元组成立时，得分较低，反之得分较高。TransE 在处理简单的 1-1 关系（即关系两端连接的实体数比率为 1：1）时是非常有效的，但在处理 N-1、1-N 以及 N-N 的复杂关系时性能则显著降低。针对这些复杂关系，Wang 提出了 TransH 模型通过将实体投影到关系所在超平面,从而习得实体在不同关系下的不同表示。Lin 提出了 TransR 模型通过投影矩阵将实体投影到关系子空间，从而习得不同关系下的不同实体表示。

除了上述两类典型知识图谱表示学习模型之外，还有大量的其他表示学习模型。比如，Sutskever 等人使用张量因式分解和贝叶斯聚类来学习关系结构。Ranzato 等人引入了一个三路的限制玻尔兹曼机来学习知识图谱的向量化表示，并通过一个张量加以参数化。

当前主流的知识图谱表示学习方法仍存在各种各样的问题，比如不能较好刻画实体与关系之间的语义相关性、无法较好处理复杂关系的表示学习、模型由于引入大量参数导致过于复杂，以及计算效率较低难以扩展到大规模知识图谱上等等。为了更好地为机器学习或深度学习提供先验知识，知识图谱的表示学习仍是一项任重道远的研究课题。

2.2知识图谱向量化表示的应用

2.2.1问答系统

自然语言问答是人机交互的重要形式。深度学习使得基于问答语料的生成式问答成为可能。然而目前大多数深度问答模型仍然难以利用大量的知识实现准确回答。Yin 等人针对简单事实类问题，提出了一种基于 encoder-decoder 框架，能够充分利用知识图谱中知识的深度学习问答模型[4]。在深度神经网络中，一个问题的语义往往被表示为一个向量。具有相似向量的问题被认为是具有相似语义。这是联结主义的典型方式。另一方面，知识图谱的知识表示是离散的，即知识与知识之间并没有一个渐变的关系。这是符号主义的典型方式。通过将知识图谱向量化，可以将问题与三元组进行匹配（也即计算其向量相似度），从而为某个特定问题找到来自知识库的最佳三元组匹配。匹配过程如图 1 所示。对于问题 Q：“How tallis Yao Ming?”，首先将问题中的单词表示为向量数组 HQ。进一步寻找能与之匹配的知识图谱中的候选三元组。最后为这些候选三元组，分别计算问题与不同属性的语义相似度。其由以下相似度公式决定：

这里，S(Q,τ) 表示问题Q 与候选三元组τ 的相似度；xQ 表示问题的向量( 从HQ计算而得)，uτ 表示知识图谱的三元组的向量，M是待学习参数。

图1 基于知识图谱的神经生成问答模型

2.2.2推荐系统

个性化推荐系统是互联网各大社交媒体和电商网站的重要智能服务之一。随着知识图谱的应用日益广泛，大量研究工作意识到知识图谱中的知识可以用来完善基于内容的推荐系统中对用户和项目的内容（特征）描述，从而提升推荐效果。另一方面，基于深度学习的推荐算法在推荐效果上日益优于基于协同过滤的传统推荐模型[5]。但是，将知识图谱集成到深度学习的框架中的个性化推荐的研究工作,还较为少见。Zhang 等人做出了这样的尝试。作者充分利用了结构化知识(知识图谱)、文本知识和可视化知识（图片）[6]等三类典型知识。作者分别通过网络嵌入（network embedding）获得结构化知识的向量化表示，然后分别用SDAE（Stacked Denoising Auto-Encoder）和层叠卷积自编码器（stackedconvolution-autoencoder）抽取文本知识特征和图片知识特征；并最终将三类特征融合进协同集成学习框架，利用三类知识特征的整合来实现个性化推荐。作者针对电影和图书数据集进行实验，证明了这种融合深度学习和知识图谱的推荐算法具有较好性能。

2.3知识图谱作为深度学习的约束

Hu 等人提出了一种将一阶谓词逻辑融合进深度神经网络的模型，并将其成功用于解决情感分类和命名实体识别等问题[7]。逻辑规则是一种对高阶认知和结构化知识的灵活表示形式，也是一种典型的知识表示形式。将各类人们已积累的逻辑规则引入到深度神经网络中，利用人类意图和领域知识对神经网络模型进行引导具有十分重要的意义。其他一些研究工作则尝试将逻辑规则引入到概率图模型，这类工作的代表是马尔科夫逻辑网络[8]，但是鲜有工作能将逻辑规则引入到深度神经网络中。

Hu 等人所提出的方案框架可以概括为“teacher-student network”，如图 2 所示，包括两个部分 teacher network q(y|x) 和 student network pθ(y|x)。其中 teacher network 负责将逻辑规则所代表的知识建模，student network 利用反向传播方法加上teacher network的约束，实现对逻辑规则的学习。这个框架能够为大部分以深度神经网络为模型的任务引入逻辑规则，包括情感分析、命名实体识别等。通过引入逻辑规则，在深度神经网络模型的基础上实现效果提升。

图2 将逻辑规则引入到深度神经网络的“teacher-student network”模型

其学习过程主要包括如下步骤：

§ 利用 soft logic 将逻辑规则表达为 [0, 1] 之间的连续数值。

§ 基于后验正则化（posterior regularization）方法，利用逻辑规则对 teacher network 进行限制，同时保证 teacher network 和 student network 尽量接近。最终优化函数为：

§ 其中，ξl,gl是松弛变量，L 是规则个数，Gl 是第 l 个规则的 grounding 数。KL 函数（Kullback-Leibler Divergence）部分保证 teacher network 和student network 习得模型尽可能一致。后面的正则项表达了来自逻辑规则的约束。

§ 对 student network 进行训练，保证 teacher network 的预测结果和 student network 的预测结果都尽量地好，优化函数如下：

§ 其中，t 是训练轮次，l 是不同任务中的损失函数（如在分类问题中，l 是交叉熵），σθ 是预测函数，sn(t) 是 teacher network 的预测结果。

§ 重复 1~3 过程直到收敛。

三、知识图谱数据构建案例分析：神马搜索

3.1背景简介

为了不断提升搜索体验，神马搜索的知识图谱与应用团队，一直在不断探索和完善图谱的构建技术。其中，开放信息抽取（Open Information Extraction），或称通用信息抽取，旨在从大规模无结构的自然语言文本中抽取结构化信息。它是知识图谱数据构建的核心技术之一，决定了知识图谱可持续扩增的能力。

“神马搜索”界面：

金准人工智能专家聚焦于开放信息抽取中的重要子任务——关系抽取，首先对关系抽取的各种主流技术进行概述，而后结合业务中的选择与应用，重点介绍了基于DeepDive的方法，并详述它在神马知识图谱数据构建工作中的应用进展。

3.2关系抽取概述

3.2.1关系抽取技术分类

现有的关系抽取技术主要可分为三种：

有监督的学习方法 ：该方法将关系抽取任务当做分类问题，根据训练数据设计有效的特征，从而学习各种分类模型，然后使用训练好的分类器预测关系。该方法的问题在于需要大量的人工标注训练语料，而语料标注工作通常非常耗时耗力。

半监督的学习方法 ：该方法主要采用Bootstrapping进行关系抽取。对于要抽取的关系，该方法首先手工设定若干种子实例，然后迭代地从数据从抽取关系对应的关系模板和更多的实例。

无监督的学习方法 ：该方法假设拥有相同语义关系的实体对拥有相似的上下文信息。因此可以利用每个实体对对应上下文信息来代表该实体对的语义关系，并对所有实体对的语义关系进行聚类。

这三种方法中，有监督学习法因为能够抽取并有效利用特征，在获得高准确率和高召回率方面更有优势，是目前业界应用最广泛的一类方法。

3.2.2远程监督算法

为了打破有监督学习中人工数据标注的局限性，Mintz等人提出了远程监督（Distant Supervision）算法，该算法的核心思想是将文本与大规模知识图谱进行实体对齐，利用知识图谱已有的实体间关系对文本进行标注。远程监督基于的基本假设是：如果从知识图谱中可获取三元组R（E1，E2）（注：R代表关系，E1、E2代表两个实体），且E1和E2共现与句子S中，则S表达了E1和E2间的关系R，标注为训练正例。

远程监督算法是目前主流的关系抽取系统广泛采用的方法，也是该领域的研究热点之一。该算法很好地解决了数据标注的规模问题，但它基于的基本假设过强，会引入大量噪音数据。例如，从知识图谱获取三元组：创始人（乔布斯，苹果公司），下表句1和句2正确表达了该关系，但句3和句4并没有表达这样的关系，因此对句3和句4应用基本假设时会得到错误的标注信息。这个问题通常称为 the wrong label problem。

出现 the wrong label problem 的根本原因，是远程监督假设一个实体对只对应一种关系，但实际上实体对间可以同时具有多种关系，如上例中还存在CEO（乔布斯，苹果公司）的关系，实体对间也可能不存在通常定义的某种关系，而仅因为共同涉及了某个话题才在句中共现。

为了减小 the wrong label problem 的影响，学术界陆续提出了多种改进算法，主要包括：

基于规则的方法：通过对wrong label cases的统计分析，添加规则，将原本获得正例标注的wrong label cases直接标为负例，或通过分值控制，抵消原有的正标注。

基于图模型的方法：构建因子图（factor graph）等能表征变量间关联的图模型，通过对特征的学习和对特征权重的推算减小wrong label cases对全局的影响。

基于多示例学习（multi-instance learning）的方法：将所有包含（E1，E2）的句子组成一个bag，从每个bag对句子进行筛选来生成训练样本。此类方法最早提出时假设如果知识图谱中存在R（E1，E2），则语料中含（E1，E2）的所有instance中至少有一个表达了关系R。一般与无向图模型结合，计算出每个包中置信度最高的样例，标为正向训练示例。该假设比远程监督的假设合理，但可能损失很多训练样本，造成有用信息的丢失和训练的不充分。为了能得到更丰富的训练样本，又提出了multi-instance multi-labels的方法。该方法的假设是，同一个包中，一个sentence只能表示（E1，E2）的一种关系，也就是只能给出一个label，但是不同的sentence可以表征（E1，E2）的不同关系，从而得到不同的label。多label标注的label值不是正或负，而是某一种关系。它为同时挖掘一个实体对的多种关系提供了可能的实现途径。另一种改进的方法是从一个包中选取多个valid sentences作为训练集，一般与深度学习方法相结合，这种方法更详细的讲解和实现会安排在后续介绍深度学习模型的章节中。

3.3神马知识图谱构建中的关系抽取方法选择

知识图谱的数据构建，就数据源而言，分为结构化数据，半结构化数据和无结构数据三类。其中，无结构数据是最庞大、最易获取的资源，同时也是在处理和利用方面难度最大的资源。神马知识图谱构建至今，已经发展为一个拥有近5000万实体，近30亿关系的大规模知识图谱。在经历了前期以结构化和半结构化数据为主的领域图谱构建阶段，神马知识图谱的数据构建重点已经逐渐转移为如何准确高效地利用无结构数据进行实体与关系的自动识别与抽取。这一构建策略使得神马知识图谱在通用领域的建设和可持续扩增方面有很强的竞争力。

远程监督算法利用知识图谱的已有信息，使得有监督学习中所需的大规模文本标注成为可能。一方面，远程监督在很大程度上提升了有监督学习关系抽取的规模和准确率，为大规模的知识图谱数据构建和补充提供了可能；另一方面，远程监督对现有知识图谱的数据和规模有较强的依赖，丰富的标注数据对机器学习能力的提升有很大帮助。为了充分利用知识图谱规模和远程监督学习这种相辅相成的特性，在神马知识图谱的现阶段数据构建业务中，我们采用了以图谱现有的大规模实体与关系数据为依托，以远程监督算法为工具的关系抽取技术。

上文中，金准人工智能专家介绍过多种基于远程监督思想的改进方法。在具体的业务实现中，金准人工智能专家选取了领域内与业务需求最为契合的两种代表性方法：基于DeepDive的抽取系统和基于深度学习抽取算法。两种方法相辅相成，各有优势：DeepDive系统较多依赖于自然语言处理工具和基于上下文的特征进行抽取，在语料规模的选择上更为灵活，能进行有针对性的关系抽取，且能方便地在抽取过程中进行人工检验和干预；而深度学习的方法主要应用了词向量和卷积神经网络，在大规模语料处理和多关系抽取的人物中有明显的优势。在下面的章节中，金准人工智能专家来更详细地了解这两种方法的实现与应用。

3.3.1 DeepDive系统介绍

DeepDive概述

DeepDive (http://deepdive.stanford.edu/) 是斯坦福大学开发的信息抽取系统，能处理文本、表格、图表、图片等多种格式的无结构数据，从中抽取结构化的信息。系统集成了文件分析、信息提取、信息整合、概率预测等功能。Deepdive的主要应用是特定领域的信息抽取，系统构建至今，已在交通、考古、地理、医疗等多个领域的项目实践中取得了良好的效果；在开放领域的应用，如TAC-KBP竞赛、维基百科的infobox信息自动增补等项目中也有不错的表现。

DeepDive系统的基本输入包括：

l 无结构数据，如自然语言文本

l 现有知识库或知识图谱中的相关知识

l 若干启发式规则

DeepDive系统的基本输出包括：

l 规定形式的结构化知识，可以为关系（实体1，实体2）或者属性（实体，属性值）等形式

l 对每一条提取信息的概率预测

DeepDive系统运行过程中还包括一个重要的迭代环节，即每轮输出生成后，用户需要对运行结果进行错误分析，通过特征调整、更新知识库信息、修改规则等手段干预系统的学习，这样的交互与迭代计算能使得系统的输出不断得到改进。

3.3.2 DeepDive系统架构和工作流程

DeepDive的系统架构如下图所示，大致分为数据处理、数据标注、学习推理和交互迭代四个流程：

数据处理

1) 输入与切分

在数据处理流程中，DeepDive首先接收用户的输入数据，通常是自然语言文本，以句子为单位进行切分。同时自动生成文本id和每个句子在文本中的index。doc_id + sentence_index 构成了每个句子的全局唯一标识。

2) NLP标注

对于每个切分好的句子，DeepDive会使用内嵌的Stanford CoreNLP工具进行自然语言处理和标注，包括token切分，词根还原、POS标注、NER标注、token在文本中的起始位置标注、依存文法分析等。

3) 候选实体对提取

根据需要抽取的实体类型和NER结果，首先对实体mentions进行定位和提取，而后根据一定的配对规则生成候选实体对。需要特别注意，在DeepDive中，每一个实体mention的标定都是全局唯一的，由doc_id、sentence_index以及该mention在句子中的起始和结束位置共同标识。因此，不同位置出现的同名的实体对（E1，E2）将拥有不同的（E1_id，E2_id），最终的预测结果也将不同。

4) 特征提取

该步骤的目的是将每一个候选实体对用一组特征表示出来，以便后续的机器学习模块能够学习到每个特征与所要预测关系的相关性。Deepdive内含自动特征生成模块DDlib，主要提取基于上下文的语义特征，例如两个实体mention间的token sequence、NER tag sequence、实体前后的n-gram等。Deepdive也支持用户自定义的特征提取算法。

数据标注

在数据标注阶段，我们得到了候选实体对以及它们对应的特征集合。在数据标注阶段，我们将运用远程监督算法和启发式规则，对每个候选实体对进行label标注，得到机器学习所需的正例和负例样本。

1) 远程监督

实现远程监督标注，首先需要从已知的知识库或知识图谱中获取相关的三元组。以婚姻关系为例，DeepDive从DBpedia中获取已有的夫妻实体对。若候选实体对能在已知的夫妻实体对中找到匹配映射时，该候选对标记为正例。负例的标注针对需要抽取的不同关系有不同的可选方法。例如可以将没有在知识库中出现的实体对标注为负例，但在知识库收入不完整的情况下该方法会引入噪音负例；也可以用知识库中互斥关系下的实例来做负例标注，例如父母-子女关系，兄弟姐妹关系，都与婚姻关系互斥，用于标注负例基本不会引入噪音。

2) 启发式规则

正负样本的标注还可以通过用户编写启发式规则来实现。以抽取婚姻关系为例，可以定义如下规则：

l Candidates with person mentions that are too far apart in the sentence are marked as false.

l Candidates with person mentions that have another person in between are marked as false.

l Candidates with person mentions that have words like "wife" or "husband" in between are marked as true.

用户可以通过预留的user defined function接口，对启发式规则进行编写和修改。

3) Label冲突的解决

当远程监督生成和启发式规则生成的label冲突，或不同规则生成的label产生冲突时，DeepDive采用majority vote算法进行解决。例如，一个候选对在DBpedia中找到了映射，label为1，同时又满足2中第2条规则，得到label 为-1，majority vote对所有label求和：sum = 1 - 1 = 0，最终得到的label为doubt。

学习与推理

通过数据标注得到训练集后，在学习与推理阶段，Deepdive主要通过基于因子图模型的推理，学习特征的权重，并最终得到对候选三元组为真的概率预测值。

因子图是一种概率图模型，用于表征变量和变量间的函数关系，借助因子图可以进行权重的学习和边缘概率的推算。DeepDive系统中，因子图的顶点有两种，一种是随机变量，即提取的候选实体对，另一种是随机变量的函数，即所有的特征和根据规则得到的函数，比方两个实体间的距离是否大于一定阈值等。因子图的边表示了实体对和特征及规则的关联关系。

当训练文本的规模很大，涉及的实体众多时，生成的因子图可能非常复杂庞大，DeepDive采用吉布斯采样（Gibbs sampling）进行来简化基于图的概率推算。在特征权重的学习中，采用标准的SGD过程，并根据吉布斯采样的结果预测梯度值。为了使特征权重的获得更灵活合理，除了系统默认的推理过程，用户还可以通过直接赋值来调整某个特征的权重。篇幅关系，更详细的学习与推理过程本文不做展开介绍，更多的信息可参考DeepDive的官网。

交互迭代

迭代阶段保证通过一定的人工干预对系统的错误进行纠正，从而使得系统的准召率不断提升。交互迭代一般包括以下几个步骤：

1) 准召率的快速估算

l 准确率：在P集中随机挑选100个，看为TP的比例。

l 召回率：在输入集中随机挑选100个positive case，看有多少个落在计算出的P集中。

2) 错误分类与归纳

将得到的每个extraction failure（包括FP和FN）按错误原因进行分类和归纳，并按错误发生的频率进行排序，一般而言，最主要错误原因包括：

l 在候选集生成阶段没有捕获应捕获的实体，一般是token切分、token拼接或NER问题

l 特征获取问题，没能获取到区分度高的特征

l 特征计算问题，区分度高的特征在训练中没有获得相应的高分（包括正负高分）

3) 错误修正

根据错误原因，通过添加或修改规则、对特征进行添加或删除、对特征的权重进行调整等行为，调整系统，重新运行修改后的相应流程，得到新的计算结果。

3.4神马知识图谱构建中的DeepDive应用与改进

在了解了DeepDive的工作流程之后，本章将介绍我们如何在神马知识图谱的数据构建业务中使用DeepDive。为了充分利用语料信息、提高系统运行效率，我们在语料处理和标注、输入规模的控制、输入质量的提升等环节，对DeepDive做了一些改进，并将这些改进成功运用到业务落地的过程中。

3.4.1中文NLP标注

NLP标注是数据处理的一个重要环节。DeepDive自带的Stanford CoreNLP工具主要是针对英文的处理，而在知识图谱的应用中，主要的处理需求是针对中文的。因此，我们开发了中文NLP标注的外部流程来取代CoreNLP，主要变动如下：

1) 使用Ali分词代替CoreNLP的token切分，删除词根还原、POS标注和依存文法分析，保留NER标注和token在文本中的起始位置标注。

2) token切分由以词为单位，改为以实体为单位。在NER环节，将Ali分词切碎的token以实体为粒度重新组合。例如分词结果“华盛顿”、“州立”、“大学”将被组合为“华盛顿州立大学”，并作为一个完整的实体获得“University”的NER标签。

3) 长句的切分：文本中的某些段落可能因为缺少正确的标点或包含众多并列项等原因，出现切分后的句子长度超过一定阈值（如200个中文字符）的情况，使NER步骤耗时过长。这种情况将按预定义的一系列规则进行重新切分。

3.4.2主语自动增补

数据处理环节的另一个改进是添加了主语自动补充的流程。以中文百科文本为例，统计发现，有将近40%的句子缺少主语。如下图刘德华的百科介绍，第二段中所有句子均缺少主语。

主语的缺失很多时候直接意味着候选实体对中其中一个实体的缺失，这将导致系统对大量含有有用信息的句子无法进行学习，严重影响系统的准确率和召回率。主语的自动补充涉及两方面的判断：

l 主语缺失的判断

l 缺失主语的添加

由于目前业务应用中涉及的绝大多数是百科文本，缺失主语的添加采用了比较简单的策略，即从当前句的上一句提取主语，如果上一句也缺失主语，则将百科标题的NER结果作为要添加的主语。主语缺失的判断相对复杂，目前主要采用基于规则的方法。假设需要提取的候选对（E1， E2）对应的实体类型为（T1， T2），则判定流程如下图所示：

具体的主语补充实例和处理过程举例如下：

以百科文本为例，经实验统计，上述主语自动补充算法的准确率大约在92%。从关系抽取的结果来看，在所有的错误抽取case中，由主语增补导致的错误比例不超过2%。

3.4.3基于关系相关关键词的输入过滤

DeepDive是一个机器学习系统，输入集的大小直接影响系统的运行时间，尤其在耗时较长的特征计算和学习推理步骤。在保证系统召回率的前提下，合理减小输入集规模能有效提升系统的运行效率。

假设需要提取的三元组为R（E1， E2）且（E1， E2）对应的实体类型为（T1， T2）。DeepDive的默认运行机制是：在数据处理阶段，提取所有满足类型为（T1，T2）的实体对作为候选，不考虑上下文是否有表达关系R的可能性。例如，抽取婚姻关系时，只要一个句子中出现大于等于两个的人物实体，该句子就会作为输入参与系统整个数据处理、标注和学习的过程。以下五个例句中，除了句1，其它4句完全不涉及婚姻关系：

尤其当句中的两个人物实体无法通过远程监督获取正例或负例标签时，此类输入无法在学习环节为系统的准确率带来增益。为减小此类输入带来的系统运行时间损耗，我们提出了以下改进算法：

实验证明，利用改进算法得到的输入集规模有显著的减小，以百科文本的抽取为例，婚姻关系的输入集可缩小至原输入集的13%，人物和毕业院校关系的输入集可缩小至原输入集的36%。输入集的缩小能显著减少系统运行时间，且实验证明，排除了大量doubt标注实体候选对的干扰，系统的准确率也有较大幅度的提升。

需要指出的是，虽然在输入环节通过关系相关关键词进行过滤减小输入规模，能最有效地提高系统运行效率（因为跳过了包含特征提取在内的所有后续计算步骤），但该环节的过滤是以句子为单位，而非作用于抽取的候选实体对。来看一个婚姻关系提取的多人物示例：

因为含有婚姻关系相关的关键词“夫人”，该句子将被保留为系统输入。从该句提取的多个人物候选实体对需要依靠更完善的启发式规则来完成进一步的标注和过滤。

3.4.4实体对到多实体的扩展

关系抽取的绝大部分任务仅涉及三元组的抽取。三元组一般有两种形式，一种是两个实体具有某种关系，形如R（E1， E2），例如：婚姻关系（刘德华，朱丽倩）；另一种是实体的属性值，形如P（E，V），例如：身高（刘德华，1.74米）。DeepDive默认的关系抽取模式都是基于三元组的。但在实际应用中，有很多复杂的关系用三元组难以完整表达，例如，人物的教育经历，包括人物、人物的毕业院校、所学专业、取得学位、毕业时间等。这些复杂的多实体关系在神马知识图谱中用复合类型来表示。因此，为使抽取任务能兼容复合类型的构建时，我们对DeepDive的代码做了一些修改，将候选实体对的提取，扩展为候选实体组的提取。代码修改涉及主抽取模块中的app.ddlog、底层用于特征自动生成的DDlib和udf中的map_entity_mention.py、extract_relation_features.py等文件。下图展示了一个扩展后的实体组抽取实例，抽取关系为（人物、所在机构、职位）：

3.5应用DeepDive的数据构建工作

金准人工智能专家首先给出一个输入示例以及该示例在DeepDive运行过程中每一步的输出结果，如下图所示。通过这个示例，我们可以对DeepDive各模块的功能和输出有更直观的认识。

为了更详细地了解DeepDive的应用和改进算法的效果，以下我们给出一个具体的婚姻关系抽取任务的相关运行数据。

下表显示了该抽取任务在数据处理阶段各步骤的的耗时和产出数量：

在数据标注的远程监督阶段，我们除了使用知识图谱中已有的夫妻关系做正例标注，还使用了已有的父母-子女关系和兄弟姐妹关系做负例标注，得到正例数千个，正负标注候选实体的比例约为1:2。

在DeepDive系统中，远程监督的wrong label problem可以依靠合理编写的启发式规则得到一定程度的纠正。观察婚姻关系的wrong label样例，我们发现较大比例的wrong label是夫妻实体以某种合作形式（如合作演出、合作演唱、合作著书等）共现在一个句子中，夫妻实体有一个出现在书名号中时，也容易发生误判。例如：

类似的观察和总结可以编写成启发式规则，依靠从规则得到的负标注抵偿远程监督得到的正标注，减小系统在学习和推理时的偏差。

虽然启发式规则的编写大多依靠专家知识或人工经验完成，但规则的完善和扩充可以依靠某些自动机制来辅助实现。例如，规则定义：句中出现“P_1和P_2结婚”，则（P_1，P_2）得到正标注。根据对“和”和“结婚”等token的扩展，我们可以得到“P_1与P_2结婚”、“P_1和P2婚后”、“P_1和P_2的婚礼”等类似应该标注为正的语境。这里，token的扩展可以通过word2vec算法加人工过滤实现。下表给出了该抽取任务中用到的规则和相应的统计数据。整个数据标注过程耗为14m21s。

学习与推理过程耗时约38m50s。我们随机截取了部分知识图谱未收录的预测实体对的输出结果展示如下：

对于系统的准确率，我们取expectation为 [0.95,1][0.95,1] 区间内的输出结果进行分段统计，统计结果如下列图表所示：

对系统预测的错误样例进行分析，我们总结了几种错误类型，下表按照出现频率从高到低，给出了错误描述和错误示例：

系统召回率的计算相比准确率的计算更为复杂，在语料规模较大的情况下，准确估算召回率将耗费大量的人力。我们采用了抽样检测的方式来估算召回率，具体实践了以下三种方法（统计中expectation均取>=0.95）：

1) 抽样含有某个指定实体的所有sentences，计算召回：含实体 “杨幂” 的sentences共78例，含（杨幂，刘恺威）实体对的sentences共13例，人工判断其中9例描述了该实体对的婚姻关系，其中5例被召回，召回率为0.556。

2) 用于远程监督正例标注的知识图谱实体对超过4000对，统计表明，其中42.7%的实体对出现在了语料中，26.5%的实体对被召回，召回率为0.621。

3) 输入集随机挑选100例positive cases，其中49例的expectation值>=0.95, 召回率为0.49。

基于DeepDive的关系抽取研究目前已较为完整，并已经在神马知识图谱的构建业务中落地。目前在数据构建中的应用涉及人物、历史、组织机构、图书、影视等多个核心领域，已抽取关系包括人物的父母、子女、兄弟姐妹、婚姻、历史事件及人物的合称、图书的作者、影视作品的导演和演员、人物的毕业院校和就业单位等。以百科全量语料为例，每个关系抽取任务候选sentence集合的规模在80w至1000w，经改进算法过滤，输入规模在15w至200w之间，生成的候选实体对规模在30w至500w之间。系统每轮迭代运行的时间在1小时至8小时之间，约经过3-4轮迭代可产出准确率和召回率都较高的数据给运营审核环节。系统运行至今，已累计产出候选三元组近3千万。

四、深度学习方法在图谱构建中的应用进展

深度学习模型在神马知识图谱数据构建中的应用目前还处于探索阶段，本章将介绍当前的工作进展和业务落地过程中遇到的一些问题。

4.1语料准备和实体向量化

深度学习模型较大程度依赖于token向量化的准确性。与基于DeepDive方法的语料准备相同，这里的token切分由以词为单位，改为以实体为单位，以NER环节识别的实体粒度为准。Word2vec生成的向量表征token的能力与语料的全面性和语料的规模都很相关，因此我们选择百科全量语料作为word2vec的训练语料，各统计数据和模型参数设置如下表所示：

为了验证词向量训练的效果，我们对word2vec的结果做了多种测试，这里给出部分实验数据。下图所示的是给定一个实体，查找最相关实体的实验：

以下是给定一个实体对和预测实体对的其中一个实体，计算预测实体对中另一个实体的实验。随机选取了五种预测关系，构造了15组给定实体对和预测实体对，预测结果如下图所示，除了飘红的两个例子，其余预测均正确：

4.2模型选取与训练数据准备

具体应用中我们选择采用APCNNs模型。我们在NYT标准数据集上复现了上一章提到的几种关键模型，包括CNN+MIL，PCNN+MIL，CNNs（基于Attention机制的CNN模型）和APCNNs。复现结果与论文中给出的baseline基本一致，APCNNs模型的表现明显优于其它模型。下图是几种模型的准召结果对比：

为了得到丰富的训练数据，我们取知识图谱中建设相对完善的人物、地理位置、组织机构、电影、电视、图书等领域下的15个核心关系，如电影演员、图书作者、公司高管、人物出生地等，对照百科全量语料，产出relation值为15个关系之一的标注正例，合计数目在千万量级，产出无relation值标注（relation值为NA）的示例超过1亿。

金准人工智能区块链思维研究报告

前言

区块链不仅是一种技术，更是一种思维，区块链最大的意义在于它的运行机制，通过各种技术的组合，建设一个去中心化的经济生态体系，完成资源的公平分配，从而确保社区的目标一致、成员的行为规范。金准人工智能专家认为，区块链为我们解决行业问题提供了一种全新的切入角度和思考方式。关于“区块链思维”，金准人工智能专家认为至少可以提炼出三个关键点：一是技术架构的可靠性；二是分配过程的公平性；三是成员行为的规范性。

那么，用“区块链思维”做什么？区块链技术在很长一段时间内都被理解为“比特币技术”，比特币成了区块链的代名词。但是如果将比特币架构直接照搬套用到其他区块链技术应用场景中，难免衣不合体。“区块链思维”可以帮助我们跳出比特币架构，从内涵层面认识整个技术体系。目前，区块链技术的2.0、3.0版本对“比特币架构”进行了优化，这些都是“区块链思维”的具体体现。

一、区块链思维解读

1.1区块链本质与区块链价值

区块链的本质是一套技术体系，核心价值是解决信任问题。

区块链的本质是由分布式数据存储、点对点传输、共识机制、加密算法、智能合约等技术组合而构成的技术体系。这些技术以新的方式组合在一起，可以完成防篡改的数据存储、可追溯的数据查看、可信任的点对点传输，可解决许久以来的信任构建难题。

区块链可以构建一个去中心化（或弱中心化）的共识生态。由数据的防篡改、可追溯查看的存储方式以及可信任的传输机制，实现了价值的存储与量化流通。这里指广义上的价值定义，如数据、版权、投票权等都属于价值范畴。区块链技术体系的核心意义在于实现了价值的可信流通。

去中心化的思维，是一种自激励的模式，是区块链的思维方式。我认为将来在金融科技领域、文创领域、物联网、供应链和医疗服务这几个领域，去中心化的思维会成为一种趋势，这几个领域充满着区块链改造的机会。比如说金融科技领域，很多交易往来全是线上，用区块链思维进行改造，建立新的信用机制是非常有前景的。

1.2区块链价值与区块链思维

区块链思维是利用区块链技术分析与解决问题的思考方式。

区块链本质上是由多种技术构成的技术体系，技术之间的相互协作实现了价值的可信流通，这是区块链的核心价值。实现价值的可信流通需要借助“去（弱）中心化的管理方式、难篡改的数据存储、可信任的点对点交易”等其中一种或者多种技术的结合，我们将这些技术实现的价值称为区块链的局部价值。一些业务通过区块链的局部价值即可满足业务需求。

区块链利用分布式数据存储、点对点传输、共识机制、加密算法等技术，具备去中心化、开放性、自治性、不可篡改、匿名性等特点。利用这些技术构建起来的商业模式，具备以下思维逻辑：

区块链思维之一：

分布式思维分布式意味着去中心化，也可以说去中心化，在区块链的世界里，投资人恐惧于投资风险，到处打听并跟随大佬项目、知名投资机构背书项目。

分布式思维本质上是权责利的去中心化，在传统经济中表现为权责利分布式再造。集权中心往往是分布式改造的重点。如央行，以美联储为例，美联储7名委员决定了美元货币政策，决策一旦出现大失误，或导致全球经济混乱。大型上市公司董事会，董事会决策关系到广大中小投资、股民的实际利益。在西方国家，上市公司治理机构也不断地去中心化，大量引进外部董事增加决策的科学性、公开性。

区块链思维之二：

代码化思维在比特币网络中，转账作为交易按分布式记账来处理。按分布式思维，人类所有的行为都可以参照转账作为交易来分布式验证、记账。以太坊认为，人类的行为极其复杂，不能完全按照交易和记账的方式处理，而应采用协议来完成，在区块链上通过代码来执行协议，智能合约由此诞生。

在区块链的世界中，代码即法律，可以理解为协议代码化，通过代码了约束协议执行。实际上，在人工智能领域，也正在从数字化、数据化上升到代码化。人工智能正在进入大数据技术的深水区，即通过代码开发来实现大数据模型构建与计算。所以，在数字经济中，区块链将协议上升到代码化，人工智能将计算上升到代码化，一个改善信任生产关系，一个提供运算生产力。

现实经济中，协议代码化非常实用。供应链金融、国际贸易融资、银行信贷、私募基金、商品期货期权合约、能源合同管理、零售供应链管理、众包众筹协议等都可以通过协议代码化，增加合作的透明度，提高履约率，降低信用风险。

区块链思维之三：

共识性思维区块链网络是以共识为基石来构筑的，出发点和落脚点都是共识。区块链思维从共识出发，只有共识才能开启交易、合作与社区，如果共识破裂，链也就可能分叉。比特币网络采用POW共识机制，主流的还有PoS、DPoS、PBFT等。共识并非只有区块链才有，人类最大的智慧在于寻找共识合作，以抵御自然威胁。但是，人类达成共识的机制有很多，如中心化权威、等价交易、意识形态等等。而区块链共识达成更多地通过平等、自愿、公平的方式达成，这种共识性思维实际上包含了去中心化的自由信仰。

共识性，是最基础的共识，也是市场交易的前提。区块链经济共识性思维给予现实经济更多的指向性。互联网思维里的用户至上、用户思维，实际上是从用户的角度设计产品及服务满足用户需求，本质上是与用户需求达成共识。在区块链世界中，先与用户达成共识，而后采用产品与服务。有点像按需生产，用户达成协议先下单然后再生产。区块链的经济共识性思维，在营销中，这是一种提前锁定用户的策略；在商业模式中，这是将用户纳入产业链之中；在管理中，让用户参与了监管环节之中。

1.3区块链思维的“四个维度”

“四个维度”判断区块链技术是否可解决当前业务需求。

面对某个业务需求，判断区块链技术是否能够给出合适的解决方案，可从如下四个维度综合思考。除此之外，还需要结合“实现成本、对比其他技术的优劣势”等角度综合分析，进而判断区块链技术是否为解决问题的最佳选择。

1.4区块链思维的“五步法则”

“五步法则”为当前需求提供区块链技术解决方案。

“五步法则”是利用区块链技术解决问题的五个思考步骤。“五步法则”是产品从0到1的思考过程，但并不是每一个步骤都需要在最终的产品中体现出对应功能点的设计，要避免产品实现伪功能。如下两点为产品设计的主要注意点：

管理方式采用“理性削弱中心管理”原则，对每一层级的中心化削弱都需要从业务风险及可运营性等方面综合考虑。过度去中心化会带来一定的业务风险，属于画蛇添足之举。

价值锚定是区块链产品设计的难点与要点，可参考如下规则：（1）锚定对象的价值是当前真实存在或可预期的；（2）锚定对象的价值可被量化，预期价值的计算有足够的事实与理论依据；（3）最大程度地做好抗风险机制。

二、区块链思维的应用与价值分析

金准人工智能专家将区块链对行业的影响分为三个层级：业务优化、产品创新、需求创新。

现阶段，众多区块链项目以“存储+追溯”的业务逻辑为主，如：版权、追溯、供应链金融等；其他业务逻辑的应用较少，且行业还未出现可进入成熟运营阶段的项目。

从技术的角度看，区块链商业价值的实现与对社会的影响程度：一方面会受到自身技术成熟度的影响；另一方面需要其他技术的激发，让区块链可以有丰富的应用场景，实现需求创新。可类比于智能手机的出现让互联网技术的应用场景得到拓展。

本章以跨境支付、网络版权、网络游戏三个领域为例，阐述区块链思维“四个维度”与“五步法则”的实际应用，并对区块链技术所带来的价值进行分析与测算。

2.1跨境支付的痛点分析

跨境支付业务的核心痛点：手续费高、到账速度慢。

跨境支付主要有银行电汇、汇款公司、第三方支付三种实现方式。跨境支付的特点在于付款方和收款方不在同一个国家，分别属于不同的支付体系，涉及不同的支付工具和金融机构。也正是基于这样的特点，业务流转中需多方建立代理关系，在不同系统进行记录、对账与清算等操作，造成了跨境支付的手续费高、到账速度慢。尤其是在进行小额跨境转账时，手续费甚至可能高于转账金额，使小额转账需求无法得到满足。

“四个维度”的分析：判断区块链技术是否可满足跨境支付的业务需求。

“五步法则”的思考：区块链跨境支付解决方案的思考过程。

区块链技术在跨境支付领域的应用体现为对传统业务流程的优化，通过“联盟链+分布式存储”的逻辑，让各业务节点可同步进行业务处理。

“区块链+跨境支付”价值分析：

区块链跨境支付可为CIPS用户节省2-5亿元的交易成本

金准人工智能专家以人民币跨境支付系统（CIPS）为例，对区块链跨境支付进行价值分析。截至目前，CIPS共有31家直接参与者，752家间接参与者，其中亚洲572家（含境内303家），欧洲93家，北美洲25家，大洋洲17家，南美洲17家，非洲28家。

2.2网络版权申请的痛点分析

网络版权申请的主要痛点：周期长、费用高

当前网络盗版现象尤为严重，且目前版权登记的时间与费用成本较高。版权申请登记机构受理登记申请后30个工作日办理完成。需要补正材料的，申请人需在接到补正通知书后60日内完成补正，登记机构会在收到符合要求的补正材料后30个工作日办理完成。不同形式作品，收费标准不同。大部分网络内容具有热点性、时效性，并考虑版权申请的投入产出比入不敷出等因素，传统的版权申请模式无法对当前的网络内容进行有效地保护。

”四个维度”的分析：判断区块链技术是否可满足网络版权的业务需求。

“五步法则”的思考：区块链网络版权产品设计的思考过程。

本着第一章提到的“理性削弱中心管理”的原则，单就当前网络版权的业务需求来看，无需削弱中心管理；但当前网络内容平台对内容扶持存在偏向性，如：小说平台会优先推荐阅读量高的内容，让优质的小众内容没有生存空间，内容分发平台中心化严重而有失公正性。针对这个问题，可在内容分发方面实现去中心化，利用共识机制进行平台维护。

如下的产品设计思考中，除网络版权的需求外，我们也将内容分发需求列入思考范围。

“区块链+网络版权”价值分析

“区块链+网络版权”年创价值可达37.5亿元

“区块链+网络版权”让网络内容得到确权的同时，也可让内容生产者得到价值回报。金准数据统计，2017-2018年，发生的盗版侵权链接总量达到2500万条，统计范畴包括：PC网站、移动APP、OTT等超过12000个新媒体平台的网络内容。

下述从内容生产者收益的角度对“区块链+网络版权”进行价值测算。

2.3网络游戏产业链介绍与痛点分析

网络游戏产业痛点：小企业缺乏生存空间、用户体验不佳。

网络游戏的产业链以“版权方à研发与发行à分发渠道à用户”为发展主线，同时存在广告、技术及游戏社区等周边产业。

四个维度”的分析：判断区块链技术是否可满足网络游戏产业的需求。

五步法则”的思考：区块链网络游戏产品设计的思考过程。

“企业没有生存空间、用户体验差”等问题可通过区块链技术构建具有去中心化特性的底层公链来解决。我们以区块链底层公链为例，进行产品设计的思考。

网络游戏的价值锚定主要以游戏预期收入为主，“未来用户人数、用户消费变化”等影响预期收入的因素难以控制，形成了价值锚定的难度。

“区块链+网络游戏”价值分析：千万量级用户推广，“区块链+网络游戏”可节省5亿元成本。

对于初创企业而言，其运营成本主要分为人力成本、项目运营成本、行政相关（办公室租赁、办公设备等）成本。对于网络游戏企业而言，获客是主要的项目运营成本。我们从项目获客成本的角度，对“区块链+网络游戏”进行价值分析。

三、区块链思维应用

3.1“四个维度”的应用场景特性

“四个维度”是判断已知需求与区块链技术的匹配性，可满足“业务优化”与“产品创新”对区块链思维的认知要求。而“需求创新”是利用区块链思维发掘新需求的过程，需要了解区块链业务场景的特性。

3.2“五步法则”的使用原则与操作方式

“五步法则”是区块链产品设计的思考过程，同时也是区块链价值的实现过程，每一个功能点的实现，都对应着区块链的价值表达。创造一个优质的区块链产品，从业者需要做到两方面：对业务理解的深入精准、对区块链技术的运用得当。单就区块链技术的某一点来看，皆具备应用价值，但需要有正确的使用方式，避免为日后的产品运营设置障碍。如下讲述了“五步法则”的使用原则及操作方式。

“五步法则”的使用原则与操作方式

总结

关于“区块链思维”怎么用？金准人工智能专家分析认为，首先需要区分区块链技术的内涵与外延，把内涵的刚性和外延的灵活性相结合。现阶段，区块链技术最显著的内涵在于使用分布式记账、非对称加密、点对点传输等技术组合，确保数据不可篡改、全程可追溯，从而解决社会交往中的信任构建难题。基于这一内涵，区块链技术要应用于各种具体场景，其外延要不断拓展，例如区块链与激励机制的结合，智能合约的发展，等等，最终都是为了通过区块链技术来确定真伪，让价值在互联网上直接流通，构建真正的价值互联网。

金准人工智能专家分析认为，基于区块链技术的内涵，运用区块链思维，结合各种具体场景需要，从“四个维度”判断已知需要与区块链技术的匹配性。想象是技术进步的重要驱动力。金准人工智能专家倡导以开放的心态，运用“五步法则”开发出区块链技术更丰富的应用，引领技术健康发展。

最后，关于区块链的种种讨论，虽然达成了一定的共识，但是还存在诸多分歧。金准人工智能专家认为业界应继续深入交流、凝聚共识、去伪存真，用发展、科学、战略、冷静的眼光看待“区块链热”。

第一，用发展的眼光看区块链技术。回顾区块链技术近十年的发展历程，我们会发现它与早期的互联网技术有许多惊人相似的故事。比如都是从小众的学术圈走向中间的商业圈，再走向大众的社会圈；再比如早期都被赋予实现个人自由、平等的价值理想等。但从互联网技术的后续发展可以看出：实验室中的经典架构与现实社会结合后，将会发生改变；绝对自由是不存在的；商业的深度参与，使得早期的理想状态十分短暂；资本与技术反复博弈将会推动新技术应用螺旋式上升……总之，如果用发展的眼光看技术，热点只是起点。

第二，用科学的眼光看区块链标签。当下区块链之所以备受热捧，一个重要的原因是被贴上了许多特别的标签，比如：去中心化、全程可追溯、不可篡改等。但这些标签是否都经得起历史和现实检验，还不宜过早下结论。以“去中心化”为例，从哲学上讲，矛盾总有主次；从现实来看，大到宇宙星系，小到一个原子，都有中心。区块链经典的技术架构虽然去掉了数据结构的中心，但其运行仍受中心化节点的约束。去中心化的标签能否在区块链上贴得牢，可能还需要进一步探讨。事实上，曾经有“去中心化”标签的互联网，只是颠覆了旧的中心，形成了新的寡头。

第三，用战略的眼光看区块链产业。任何产业能够得到长久发展都需要推动社会进步，满足人们生产生活需求。无论区块链在当下是否真正为实体经济发展和改善人民生活提供了支持，但长远来看，以人为本，从大众的根本需求出发，为社会进步和经济发展提供高效率、低成本的解决方案，才是区块链行业发展壮大，迈向成熟的持久动力。要高度警惕任何想一夜暴富的投机想法，警惕任何想捞一票就走的骗子行为，建立健全行业持续健康发展的自律准则和监管机制。

第四，用冷静的眼光看区块链商机。“区块链热”骤然兴起的重要原因是很多人都认为区块链技术有广阔前景并害怕错过商机。但历史证明，商机并非都是先到先得、先到多得的游戏，新技术发展的各个阶段都会创造新的商业机会，不同阶段的商机适合不同类型的人和机构去把握。就像现在互联网产业蛋糕的最大拥有者，并非都是最早的从业者和探索者。俗话说“好饭不怕晚”！与其躁动焦虑、盲目跟风，不如静心分析社会需求，研究行业痛点，找准自己最能创造真实价值的领域、阶段，或许最终会取得更大的收获。

金准人工智能解读人工智能、机器学习和认知计算

前言

人工智能的发展曾经经历过几次起起伏伏，近来在深度学习技术的推动下又迎来了一波新的前所未有的高潮。金准人工智能专家对人工智能技术的发展过程进行了简单梳理，同时还图文并茂地介绍了感知器、聚类算法、基于规则的系统、机器学习、深度学习、神经网络等技术的概念和原理。

人类对如何创造智能机器的思考从来没有中断过。期间，人工智能的发展起起伏伏，有成功，也有失败，以及其中暗藏的潜力。今天，有太多的新闻报道是关于机器学习算法的应用问题，从癌症检查预测到图像理解、自然语言处理，人工智能正在赋能并改变着这个世界。

现代人工智能的历史具备成为一部伟大戏剧的所有元素。在最开始的 1950 年代，人工智能的发展紧紧围绕着思考机器和焦点人物比如艾伦·图灵、冯·诺伊曼，迎来了其第一次春天。经过数十年的繁荣与衰败，以及难以置信的高期望，人工智能及其先驱们再次携手来到一个新境界。现在，人工智能正展现着其真正的潜力，深度学习、认知计算等新技术不断涌现，且不乏应用指向。而且2018年像深度学习、量子计算等技术正在迅速发展，在人类生活的一些场景中得以应用研究。

金准人工智能专家探讨了人工智能及其子领域的一些重要方面。下面就先从人工智能发展的时间线开始，并逐个剖析其中的所有元素。

一、现代人工智能的时间线

1950 年代初期，人工智能聚焦在所谓的强人工智能，希望机器可以像人一样完成任何智力任务。强人工智能的发展止步不前，导致了弱人工智能的出现，即把人工智能技术应用于更窄领域的问题。1980 年代之前，人工智能的研究一直被这两种范式分割着，两营相对。但是，1980 年左右，机器学习开始成为主流，它的目的是让计算机具备学习和构建模型的能力，从而它们可在特定领域做出预测等行为。

图 1：现代人工智能发展的时间线

在人工智能和机器学习研究的基础之上，深度学习在 2000 年左右应运而生。计算机科学家在多层神经网络之中使用了新的拓扑学和学习方法。最终，神经网络的进化成功解决了多个领域的棘手问题。

在过去的十年中，认知计算（Cognitive computing）也出现了，其目标是打造可以学习并与人类自然交互的系统。通过成功地击败 Jeopardy 游戏的世界级选手，IBM Watson 证明了认知计算的价值。

在本文中，金准人工智能专家将逐一探索上述的所有领域，并对一些关键算法作出解释。

1.1基础性人工智能

1950 年之前的研究提出了大脑是由电脉冲网络组成的想法，正是脉冲之间的交互产生了人类思想与意识。艾伦·图灵表明一切计算皆是数字，那么，打造一台能够模拟人脑的机器也就并非遥不可及。

上文说过，早期的研究很多是强人工智能，但是也提出了一些基本概念，被机器学习和深度学习沿用至今。

图 2：1950 - 1980 年间人工智能方法的时间线

1.2人工智能搜索引擎

人工智能中的很多问题可以通过强力搜索（brute-force search）得到解决。然而，考虑到中等问题的搜索空间，基本搜索很快就受影响。人工智能搜索的最早期例子之一是跳棋程序的开发。亚瑟·塞缪尔（Arthur Samuel）在 IBM 701 电子数据处理机器上打造了第一款跳棋程序，实现了对搜索树（alpha-beta 剪枝）的优化；这个程序也记录并奖励具体行动，允许应用学习每一个玩过的游戏（这是首个自我学习的程序）。为了提升程序的学习率，塞缪尔将其编程为自我游戏，以提升其游戏和学习的能力。

尽管你可以成功地把搜索应用到很多简单问题上，但是当选择的数量增加时，这一方法很快就会失效。以简单的一字棋游戏为例，游戏一开始，有 9 步可能的走棋，每 1 个走棋有 8 个可能的相反走棋，依次类推。一字棋的完整走棋树包含 362,880 个节点。如果你继续将这一想法扩展到国际象棋或者围棋，很快你就会发展搜索的劣势。

1.3感知器

感知器是单层神经网络的一个早期监督学习算法。给定一个输入特征向量，感知器可对输入进行具体分类。通过使用训练集，网络的权重和偏差可为线性分类而更新。感知器的首次实现是 IBM 704，接着在自定义硬件上用于图像识别。

图 3：感知器与线性分类

作为一个线性分类器，感知器有能力解决线性分离问题。感知器局限性的典型实例是它无法学习专属的 OR (XOR) 函数。多层感知器解决了这一问题，并为更复杂的算法、网络拓扑学、深度学习奠定了基础。

1.4聚类算法

使用感知器的方法是有监督的。用户提供数据来训练网络，然后在新数据上对该网络进行测试。聚类算法则是一种无监督学习（unsupervised learning）方法。在这种模型中，算法会根据数据的一个或多个属性将一组特征向量组织成聚类。

图 4：在一个二维特征空间中的聚类

你可以使用少量代码就能实现的最简单的聚类算法是 k-均值（k-means）。其中，k 表示你为样本分配的聚类的数量。你可以使用一个随机特征向量来对一个聚类进行初始化，然后将其它样本添加到其最近邻的聚类（假定每个样本都能表示一个特征向量，并且可以使用 Euclidean distance 来确定「距离」）。随着你往一个聚类添加的样本越来越多，其形心（centroid，即聚类的中心）就会重新计算。然后该算法会重新检查一次样本，以确保它们都在最近邻的聚类中，最后直到没有样本需要改变所属聚类。

尽管 k-均值聚类相对有效，但你必须事先确定 k 的大小。根据数据的不同，其它方法可能会更加有效，比如分层聚类（hierarchical clustering）或基于分布的聚类（distribution-based clustering）。

1.5决策树

决策树和聚类很相近。决策树是一种关于观察（observation）的预测模型，可以得到一些结论。结论在决策树上被表示成树叶，而节点则是观察分叉的决策点。决策树来自决策树学习算法，其中数据集会根据属性值测试（attribute value tests）而被分成不同的子集，这个分割过程被称为递归分区（recursive partitioning）。

考虑下图中的示例。在这个数据集中，我们可以基于三个因素观察到某人是否有生产力。使用一个决策树学习算法，我们可以通过一个指标来识别属性（其中一个例子是信息增益）。在这个例子中，心情（mood）是生产力的主要影响因素，所以金准人工智能专家根据 Good Mood 一项是 Yes 或 No 而对这个数据集进行了分割。但是，在 Yes 这边，还需要我们根据其它两个属性再次对该数据集进行切分。表中不同的颜色对应右侧中不同颜色的叶节点。

图 5：一个简单的数据集及其得到的决策树

决策树的一个重要性质在于它们的内在的组织能力，这能让你轻松地（图形化地）解释你分类一个项的方式。流行的决策树学习算法包括 C4.5 以及分类与回归树（Classification and Regression Tree）。

1.6基于规则的系统

最早的基于规则和推理的系统是 Dendral，于 1965 年被开发出来，但直到 1970 年代，所谓的专家系统（expert systems）才开始大行其道。基于规则的系统会同时存有所需的知识的规则，并会使用一个推理系统（reasoning system）来得出结论。

基于规则的系统通常由一个规则集合、一个知识库、一个推理引擎（使用前向或反向规则链）和一个用户接口组成。下图中，金准人工智能专家使用了知识「苏格拉底是人」、规则「如果是人，就会死」以及一个交互「谁会死？」

图 6：基于规则的系统

基于规则的系统已经在语音识别、规划和控制以及疾病识别等领域得到了应用。上世纪 90 年代人们开发的一个监控和诊断大坝稳定性的系统 Kaleidos 至今仍在使用。

1.7机器学习

机器学习是人工智能和计算机科学的一个子领域，也有统计学和数学优化方面的根基。机器学习涵盖了有监督学习和无监督学习领域的技术，可用于预测、分析和数据挖掘。机器学习不限于深度学习这一种。但在这一节，金准人工智能专家会介绍几种使得深度学习变得如此高效的算法。

图 7：机器学习方法的时间线

1.8反向传播

神经网络的强大力量源于其多层的结构。单层感知器的训练是很直接的，但得到的网络并不强大。那问题就来了：我们如何训练多层网络呢？这就是反向传播的用武之地。

反向传播是一种用于训练多层神经网络的算法。它的工作过程分为两个阶段。第一阶段是将输入传播通过整个神经网络直到最后一层（称为前馈）。第二阶段，该算法会计算一个误差，然后从最后一层到第一层反向传播该误差（调整权重）。

图 8：反向传播示意图

在训练过程中，该网络的中间层会自己进行组织，将输入空间的部分映射到输出空间。反向传播，使用监督学习，可以识别出输入到输出映射的误差，然后可以据此调整权重（使用一个学习率）来矫正这个误差。反向传播现在仍然是神经网络学习的一个重要方面。随着计算资源越来越快、越来越便宜，它还将继续在更大和更密集的网络中得到应用。

1.9卷积神经网络

卷积神经网络（CNN）是受动物视觉皮层启发的多层神经网络。这种架构在包括图像处理的很多应用中都有用。第一个 CNN 是由 Yann LeCun 创建的，当时 CNN 架构主要用于手写字符识别任务，例如读取邮政编码。

LeNet CNN 由好几层能够分别实现特征提取和分类的神经网络组成。图像被分为多个可以被接受的区域，这些子区域进入到一个能够从输入图像提取特征的卷积层。下一步就是池化，这个过程降低了卷积层提取到的特征的维度（通过下采样的方法），同时保留了最重要的信息（通常通过最大池化的方法）。然后这个算法又执行另一次卷积和池化，池化之后便进入一个全连接的多层感知器。卷积神经网络的最终输出是一组能够识别图像特征的节点（在这个例子中，每个被识别的数字都是一个节点）。使用者可以通过反向传播的方法来训练网络。

图 9.LeNet 卷积神经网络架构

对深层处理、卷积、池化以及全连接分类层的使用打开了神经网络的各种新型应用的大门。除了图像处理之外，卷积神经网络已经被成功地应用在了视频识别以及自然语言处理等多种任务中。卷积神经网络也已经在 GPU 上被有效地实现，这极大地提升了卷积神经网络的性能。

1.10长短期记忆（LSTM）

记得前面反向传播中的讨论吗？网络是前馈式的训练的。在这种架构中，我们将输入送到网络并且通过隐藏层将它们向前传播到输出层。但是，还存在其他的拓扑结构。金准人工智能专家在这里要研究的一个架构允许节点之间形成直接的回路。这些神经网络被称为循环神经网络（RNN），它们可以向前面的层或者同一层的后续节点馈送内容。这一特性使得这些网络对时序数据而言是理想化的。

在 1997 年，一种叫做长短期记忆（LSTM）的特殊的循环网络被发明了。LSTM 包含网络中能够长时间或者短时间记忆数值的记忆单元。

图 10. 长短期记忆网络和记忆单元

记忆单元包含了能够控制信息流入或者流出该单元的一些门。输入门（input gate）控制什么时候新的信息可以流入记忆单元。遗忘门（forget gate）控制一段信息在记忆单元中存留的时间。最后，输出门（output gate）控制输出何时使用记忆单元中包含的信息。记忆单元还包括控制每一个门的权重。训练算法（通常是通过时间的反向传播（backpropagation-through-time），反向传播算法的一种变体）基于所得到的误差来优化这些权重。

LSTM 已经被应用在语音识别、手写识别、语音合成、图像描述等各种任务中。下面我们还会谈到 LSTM。

1.11深度学习

深度学习是一组相对新颖的方法集合，它们从根本上改变了机器学习。深度学习本身不是一种算法，但是它是一系列可以用无监督学习实现深度网络的算法。这些网络是非常深层的，所以需要新的计算方法来构建它们，例如 GPU，除此之外还有计算机集群。

本文目前已经介绍了两种深度学习的算法：卷积神经网络和长短期记忆网络。这些算法已经被结合起来实现了一些令人惊讶的智能任务。如下图所示，卷积神经网络和长短期记忆已经被用来识别并用自然语言描述图片或者视频中的物体。

图 11. 结合卷积神经网络和长短期记忆来进行图像描述

深度学习算法也已经被用在了人脸识别中，也能够以 96% 的准确率来识别结核病，还被用在自动驾驶和其他复杂的问题中。

然而，尽管运用深度学习算法有着很多结果，但是仍然存在问题需要我们去解决。一个最近的将深度学习用于皮肤癌检测的应用发现，这个算法比经过认证的皮肤科医生具有更高的准确率。但是，医生可以列举出导致其诊断结果的因素，却没有办法知道深度学习程序在分类的时候所用的因素。这被称为深度学习的黑箱问题。

另一个被称为 Deep Patient 的应用，在提供病人的病例时能够成功地预测疾病。该应用被证明在疾病预测方面比医生还做得好——即使是众所周知的难以预测的精神分裂症。所以，即便模型效果良好，也没人能够深入到这些大型神经网络去找到原因。

1.12认知计算

人工智能和机器学习充满了生物启示的案例。尽管早期的人工智能专注于建立模仿人脑的机器这一宏伟目标，而现在，是认知计算正在朝着这个目标迈进。

认知计算建立在神经网络和深度学习之上，运用认知科学中的知识来构建能够模拟人类思维过程的系统。然而，认知计算覆盖了好多学科，例如机器学习、自然语言处理、视觉以及人机交互，而不仅仅是聚焦于某个单独的技术。

认知学习的一个例子就是 IBM 的 Waston，它在 Jeopardy 上展示了当时最先进的问答交互。IBM 已经将其扩展在了一系列的 web 服务上了。这些服务提供了用于一些列应用的编程接口来构建强大的虚拟代理，这些接口有：视觉识别、语音文本转换（语音识别）、文本语音转换（语音合成）、语言理解和翻译、以及对话引擎。

二、2018-2019年新一代人工智能领域十大最具成长性技术展望

当前，全球正在经历科技和产业高度耦合、深度迭加的新一轮变革，大数据的形成、理论算法的革新、计算能力的提升及网络设施的演进驱动人工智能进入新一轮创新发展高峰期，新技术持续获得突破性进展，呈现出深度学习、跨界融合、人机协同、群智开放、自主操控等以应用为导向的新特征。加强新一代人工智能技术的前瞻预判，准确把握全球技术创新动态及发展趋势，将为行业健康发展、资金有序进入、政策规划出台、新兴市场开拓等提供具备决策参考价值和实践指导意义的智力支撑。

围绕于此，金准人工智能专家认为以下十项为最具特色的成长性技术。

2.1对抗性神经网络

是指由一个不断产生数据的神经网络模块与一个持续判别所产生数据是否真实的神经网络模块组成的神经网络架构，创造出近似真实的原创图像、声音和文本数据的技术。该技术有望大幅提升机器翻译、人脸识别、信息检索的精度和准确性，随着三维模型数据序列能力的提升，未来将在自动驾驶、安防监控等领域产生可观的应用价值。

图12. 对抗性神经网络中产生数据与判别数据持续进行

2.2胶囊网络

胶囊网络是指在深度神经网络中构建多层神经元模块，用以发现并存储物体详细空间位置和姿态等信息的技术。该技术能使机器在样本数据较少情形下，快速识别不同情境下的同一对象，在人脸识别、图像识别、字符识别等领域具有广阔的应用前景。

图13. 胶囊网络算法可以从不同角度识别同一物体

2.3云端人工智能

云端人工智能是指将云计算的运作模式与人工智能深度融合，在云端集中使用和共享机器学习工具的技术。该技术将庞大的人工智能运行成本转移到云平台，能够有效降低终端设备使用人工智能技术的门槛，有利于扩大用户群体，未来将广泛应用于医疗、制造、能源、教育等多个行业和领域。

图14. 推出人工智能服务的主要云计算公司

2.4深度强化学习

深度强化学习是指将深度神经网络和具有决策能力的强化学习相结合，通过端到端学习的方式实现感知、决策或感知决策一体化的技术。该技术具有无需先验知识、网络结构复杂性降低、硬件资源需求少等特点，能够显著提升机器智能适应复杂环境的效率和健壮性，将在智能制造、智能医疗、智能教育、智能驾驶等领域具有广阔发展前景。

2.5智能脑机交互

智能脑机交互是指通过在人脑神经与具有高生物相容性的外部设备间建立直接连接通路，实现神经系统和外部设备间信息交互与功能整合的技术。该技术采用人工智能控制的脑机接口对人类大脑的工作状态进行准确分析，达到促进脑机智能融合的效果，使人类沟通交流的方式更为多元和高效，未来将广泛应用于临床康复、自动驾驶、航空航天等多个领域。

2.6对话式人工智能平台

对话式人工智能平台是指融合语音识别、语义理解、自然语言处理、语音合成等多种解决方案，为开发者提供具备识别、理解及反馈能力的开放式平台的技术。该技术能够实现机器与人在对话服务场景中的自然交互，未来有望在智能可穿戴设备、智能家居、智能车载等多个领域得到大规模应用。

图15. 对话式人工智能平台

2.7情感智能

情感智能是指利用人工智能手段模拟表情、语气、情感等类人化情绪响应，以打造具有情绪属性的虚拟形象的技术。该技术可赋予机器设备更好的对人类情感的识别、理解和引导能力，为用户带来更具效率和人性化的交互体验，未来将在智能机器人、智能虚拟助手等领域得到更为频繁和深入的应用。

图16. 情感智能技术将模拟人的情绪

2.8神经形态计算

神经形态计算是指仿真生物大脑神经系统，在芯片上模拟生物神经元、突触的功能及其网络组织方式，赋予机器感知和学习能力的技术。该技术的目标在于使机器具备类似生物大脑的低功耗、高效率、高容错等特性，将在智能驾驶、智能安防、智能搜索等领域具有广阔应用前景。

图17. 神经形态计算的结构

2.9元学习

元学习是指将神经网络与人类注意机制相结合，构建通用算法模型使机器智能具备快速自主学习能力的技术。该技术能够使机器智能真正实现自主编程，显著提升现有算法模型的效率与准确性，未来的进一步应用将成为促使人工智能从专用阶段迈向通用阶段的关键。

图18. 元学习实现快速自主学习

2.10量子神经网络

量子神经网络是指采用量子器件搭建神经网络，优化神经网络结构和性能的技术。该技术充分利用了量子计算超高速、超并行、指数级容量的特点，有效缩短了神经网络的训练时间，未来将在人脸识别、图像识别、字符识别等领域具有重要应用价值和广阔前景。

图19. 量子神经网络结构示意图

总结

本文不仅涵盖了关于人工智能历史以及最新的神经网

金准人工智能社交平台如何抓住千禧一代？

金准人工智能专家注意到， 2018年标志着第一批“2000后”世代步入成年，作为互联网时代的第一批原住民，“2000后”世代很难被标签化，但又特质鲜明，哪怕是一些互联网江湖大佬，一时半会儿也不能完全搞懂他们，需要时间沉淀。“2000后”世代有很多地方实在是“离奇怪异”，比如流行“全员恶人”，擅用诸如ky（没眼色、说话惹人反感）、养火（互动）、共药（闺蜜）等等“黑话”，他们对金钱从不感到匮乏，对消费更加任性。

尽管，2000年以后出生的这个世代，目前并没有真正进入社会，也不具有特别强的消费力。然而，互联网江湖很多人已经开始提早布局、瞄准“2000后”，资本激流涌动。

金准人工智能专家认为，互联网公司要真正赢得一个世代，最好的入口就是社交。如果可以直接建立一个类似QQ和微信那样的社交平台，那最好了。QQ、微信作为年轻人的熟人社交工具，用户规模基本上已经见顶了，“2000后”用户的兴趣交友需求，要有新的平台来满足。

近期，罗永浩推出的子弹短信，上线7天就进账1.5亿元，有51家VC、7家科技巨头战略投资部跟进关注。这彻底引爆社交平台的新一轮竞逐。不过，子弹短信始终被视作“和微信的同维度竞争”，而资本更关注的，是那些瞄准新世代的新兴平台。比如拥有大量00后用户的脉脉和Soul，今年8月，脉脉刚刚拿到2亿美元D轮融资，陌生人社交产品Soul也深受资本青睐。张小龙团队也有核心成员离开微信，打算另起炉灶，瞄准00后用户，做一款类似instagram的社交产品，并很快获得风投机构的资金注入……

以下，金准人工智能专家从以下四个方面提出对“2000后”世代的商业思考。

一、商业机构如何对“2000后”世代进行画像

目前，已经有不同机构分别对“2000后”世代进行画像，金准人工智能专家发现主要有以下几个特点：

金融机构更看重这个群体的“财富安全感”——“2000后”世代很多是独生子女，对贫穷是没有记忆的，他们父母大多也是这样。更重要是，他们父母这一辈人已经有了一定财富积累。“2000后”世代未来将拥有的资产，将带给他们很强的安全感。所以，80后在还钱、90在存钱、95后不存钱、00后敢借钱。

产品经理更看重这个群体的“手感”——创业邦的王玥就说到，70后和80后玩手机，一般都是用一个指头不停按，90后和95后是用两个手指玩手机的，而00后玩手机是两个拇指+两个食指，四个手指头一起上，底下两个拇指是打字的，上面两个食指是滑动手机界面的。不了解这些细节，在设计应用的时候，就很难打动00后。

零售业者更看重这个群体的“垂直细分”——二次元在00后的社交标签中占据很高流量，很多00后痴迷的产品都烙有二次元的印记。相较于90后在垂直领域的泛分类方式，00后在垂直领域的爱好则更加细分，单在“古风”这个领域，就可进一步细分为汉服圈、古文圈、古典音乐圈等等。针对这个群体的主题消费，切入点一定要精准，否则转化率会很惨。

游戏业者更看重这个群体的“文化调性”——B站CEO陈睿对“2000后”人群这样评价：极度挑剔，极度宽容，极度感性和极度理性。他们对游戏内容品质十分挑剔，但如果你是一个认真做游戏的公司，他们会宽容你犯错误。他们对自己喜欢的东西非常感性，对自己不感兴趣的东西，又非常理性。

社交平台更看重这个群体的“互动诉求”——越来越多的“2000后”人群偏好使用QQ，而不是用微信。这背后的原因，是这些年轻人不愿意和他们的父母在一个朋友圈里。这个群体非常不愿意“被动接受别人的影响”，更加讨厌被人指指点点。

金准人工智能专家认为，他们在情感、价值观、身份认同或者生活方式上，更像是一个部落族群，将某种共同认知、体验和习惯当作部落的图腾，然后凝聚一批来自不同文化背景和年龄层的人。群体理性才是“2000后”价值观的底色，他们将比之前的世代，更能直面真实的自我。

二、“圈层迭代效应”带来什么新机遇？

过去讲“代际”主要讲60后、70后，可是80后就开始区隔80后、85后了，90后又有90后、92后、95后之类的区隔。2000年以后出生的人，区隔更加鲜明，每过几年就是拥有一种语言体系的另一代人了。为什么这个“代际区隔”会变短呢？新的技术、新的思想、新的沟通方式，都已超出人们现有的想象边界，对思维方式的颠覆是不可逆转的。

种种迹象显示：“2000后”世代对未来商业趋势的潜在影响，正在逐步显现。更关键是，这里面有一个“世代更迭悖论”在起作用。

什么是“世代更迭悖论”呢？时尚潮流、消费倾向从来都是由年轻人来主导的，年轻世代的每一次更迭，都会带来社交语境、消费市场的一轮巨变。可是，更加有钱、消费力更强劲的成熟世代，反而成了潮流跟随者。

比如，70后、80后人群的物质基础显然更好，更具有消费能力，但他们的消费动向很多时候要看年轻一代（95后、00后）的脸色，否则，就会被嘲讽为“油腻”、“过期”。这种“世代更迭悖论”总会通过社交平台，很快向商业营销层面传导。当下互联网江湖掀起“围捕2000后”的浪潮，正是这一“传导逻辑”的直观呈现。

“2000后”世代崛起的第一个入口无疑是社交，代际的更替，推动社交平台的升级换代。背后是新兴人群在新环境下，对新的自我表达方式的诉求。这间接导致商业语境和思维方式的持续迭代和进化。

“2000后”世代是含着QQ号码出生的一代，腾讯QQ的前身——第一个即时通信软件“OICQ”，就是在2000年占领了中国在线即时通讯接近100%的市场。这个世代的人从出生起，“宅”在家里就可以与世界沟通。

他们不用适应很多复杂的人际关系，就能做成很多事情，所以他们的目光更关注自己，非常自我。如果不是“同类”，即使是熟人社交，他们也是排斥的。要找到“同类”，他们宁可选择陌生人社交。

三、“2000后”世代的社交货币的独到之处

“2000后”世代必将深刻影响国内商业格局，这已是共识。可是，“2000后”世代影响商业格局的渠道和方式是什么？这才是关键。在金准人工智能专家看来，“2000后”世代呈现商业潜力的主要方式是“社交货币”。

过去，传统社交巨头腾讯、新浪微博，或是新兴社交平台抖音、Soul、小红书，在凝聚用户上几乎都采取类似套路：吸纳KOL（关键意见领袖）入驻。

抖音、Soul、小红书等社交平台，他们本身很值钱吗？他们本身还真不值钱。如果我们今天要开发抖音这样一个产品，不用投很多钱的。为什么今天抖音高达几百亿美元的估值，是因为平台上面有各种各样的自媒体人（或者网红、KOL）入驻，有各种各样围绕他们的用户，这是平台最值钱的地方。

谁创造了这些内容？谁创造了这些用户？一多半都是源于KOL。作为KOL，无论是想卖货还是做广告，还是像特朗普一样透过Twitter圆总统梦，只要能获得流量，都是可以实现的。

而现今，对于“2000后世代”而言，KOL的作用和影响力更加垂直化，越垂直越小众的KOL的圈层影响力越强。他们已经很少因为泛博主或者泛主播的推荐，而做出各种选择，他们不愿意别人告诉他们该做什么。真正影响他们做出选择的，往往是各种“社交货币”，比如一个很熟悉的朋友，而不是一个教育的权威，而KOL的价值就体现在成为2000后最熟悉的陌生朋友。

“社交货币”这个概念最初是由沃顿商学院的营销学教授Jonah Berger提出来的，原意是产品能够流行起来，必须要有“社交货币”的一个属性。什么叫社交货币？就是产品能够成为朋友之间聊天的谈资，或者能够在朋友圈里快速传播。

同时，社交货币的属性已经在“2000前”和“2000后”两个世代之间发生巨大裂变：

“2000前”世代，不论是50后、60后还是80后、90后，他们的社交货币大多是具体的事物和场景，比如高端的有高尔夫、游艇或者会所，中低端的则是一次自驾游或者一场酒会。

“2000前”世代的社交，很多带有明显的目的性、功利性，当作人脉积累和关系投资。“2000后”世代的社交货币，更多是一种体验、一种归属，比如二次元或者全员恶人。他们的社交很少有功利方面的考量，而是更尊重自己的感受。

“2000后”才是真正完全生长于社交网络的世代，他们接受信息的渠道、所经历消费环境的变化以及视野的开阔，形成了独特的价值认知。一般KOL或者流量明星已经很难对他们产生影响，他们拥有自己的话语体系和兴趣空间，高度自我。“内容”和“认同”才是他们的社交货币。

“圈层迭代效应”的持续发酵，“2000后”世代独特的社交货币，直接驱动“陌生人社交”的崛起，正在动摇国内的互联网关系链。

过去，腾讯几乎封锁了全网关系链。米聊（小米）、易信（网易）、来往（阿里巴巴）都曾试图突围熟人社交或IM工具，都未能成功。腾讯已经是一个巨大的流量和社交黑洞，用户之间要建立熟人关系，几乎只会问，微信多少、QQ多少。不过，成功突破腾讯封锁的社交平台也还是有的，比如陌陌。

陌陌就以陌生人社交为根基，目前的月度活跃用户已经破亿，同时开发“多元”应用，已成为国内最赚钱的直播平台。陌陌的成功突围，给社交领域的新进入者（比如微聚、flow）和传统巨头（腾讯）都带来不小震撼。

四、社交平台选择切入“2000后”世代的策略

面对“2000后”世代引发的社交变局，已经产生两种不同的应对策略：

第一种策略是“二度切入”

flow经营社交平台的打法，是直奔00后群体，武器就是从他们最喜欢的东西下手——把电音、古风、街头文化等领域的KOL（关键意见领袖）吸引过来，形成社区，培养用户，再慢慢做社交。这个逻辑叫“一度切入”。所谓“一度切入”，就是直打用户兴趣，切入最有潜力的社交圈层。

微聚的创业团队更加深入，不仅看到“2000后”世代的商业潜力，更是洞悉陌陌以“约”的名义，像一把利刃切入一个足够大的人群。于是，微聚以“约”为精准切入点，希望做“2000后”世代的陌陌，让用户可以直接约会，快速匹配周围感兴趣的人。他们一度在广州楼盘电梯打满广告，“向陌陌致敬，你可以安心的下岗了”。这个有点野蛮的做法叫“二度切入”。以“约”为名，让陌生用户之间建立联系的做法叫“二度切入”。

不过，包括微聚、flow在内的很多新兴社交App都未能成功突围。在很多App做到100万DAU（日活跃用户数）的时候，不自觉开始往下掉。很多社交App最多只能成为一个“现象级产品”，火一阵子就过气了，没法将用户真正沉淀下来。

第二种策略是“分层切入”

腾讯作为传统社交巨头，不可能对“社交圈层迭代”的现实无动于衷，而他们的策略选择——“分层切入”，相对比较传统。

腾讯的“分层切入”策略主要分为三个步骤：

第一步是定义用户，将用户按照年龄段分成80前、80后、85后、90后、95后、00后和05后，分别调查不同用户群体的喜好是什么，以及在什么场景下使用产品，明确产品服务于谁。

第二步是接近用户，通过用户访谈、问卷调研、网上回复发帖、走进场景观察用户行为、分析数据等去接近用户，获取真实的用户画像。腾讯的产品经理有一个著名的10-100-1000法则，即每月通过电话或面对面的方式接触访谈10个用户，回复100个用户在论坛或微博上的帖子，阅读1000个用户在各个渠道上的反馈。这是要真正搞清楚不同世代的目标用户，究竟是怎样一群人。

第三步是变成用户，就是将思维从产品经理模式切换到用户模式。马化腾曾说过，真正好的产品经理，要有能力让自己在短时间内变成小白用户。

多么强大社交平台，也绕不过那个“用户沉淀过程”。在我看来，社交是刚性需求，容易形成用户沉淀，因为用户本身就能吸纳新的用户，但这个“沉淀过程”必不可少。腾讯（QQ和微信）总能快速封锁关系链，通过大量开发、融入多样化的应用，将产品嵌入所有用户的生活方式，自然也能牢牢锁定一部分“2000后”用户。

陌陌对“陌生人社交”的布局较早，这恰恰又是当年巨头（腾讯）看不上的细分领域，所以没有遭遇太大阻击，得以靠扎实的“口碑传播”和精准的切入点（约会需求），以及各种应用升级（比如较早推出直播平台），这个用户沉淀过程，已经构成了陌陌的商业“护城河”。

红杉资本不久之前发布的《00后泛娱乐消费报告》显示：目前为止，微信、QQ、微博、陌陌、贴吧作为“2000后”世代的社交首选，即头部社交平台，一般很难受到新进入者的有力挑战。不过，包括Soul、一罐这样的新产品，正在跟陌陌一样寻找新世代人群更刚性、更高频的需求。此外，很多新兴社交平台还通过增加新闻、资讯等内容消费（比如，子弹短信启动时就链接腾讯和头条内容），以及引入社区抢占用户时间。

一般社交和电商平台，在运营5年后就会面临老化、过时，哪怕是QQ、微信这种国民级应用，淘宝这种划时代的电商平台，也是会过气的。

当下“陌生人社交”的崛起、“社交电商”的风靡，资本纷纷涌入，并不是因为有什么重大科技创新（或者商业模式创新），而是与“新世代”不断磨合的结果。金准人工智能专家坚信，新崛起的“2000世代”必将催生更多的时代机遇。

金准人工智能未来10年超级风口行业的系统性投资机会研究报告

前言

今年的中秋节前后，杭州的云栖小镇似与西湖有拟比之势，为期4天的2018杭州·云栖大会共吸引来自全球6大洲81个国家及地区的12万人次现场参会，其中27%为企业CEO及高管，他们主导着全球新经济的命脉，云栖大会链接了未来。

金准人工智能专家由此结合国内外经济发展形势，对前沿科技趋势进行预测，分析认为产业周期继续向前，人工智能、移动支付、智能物流等方面印证了中国的新经济在崛起。

从二战后后的美国经济我们可以发现，每个朱格拉周期都对应了一个主导产业的系统性投资机会：60年代汽车三巨头、70年代化工三巨头和石油三巨头、80年代消费品行业“漂亮50”、90年代计算机和移动通信、00年代房地产金融、10年代移动互联网和新能源。纵观国内，自改革开放以来，基建时代紧接着98-08十年地产黄金时代，进入2013年以后旧经济的旧周期指标开始钝化，而新经济在孕育。金准人工智能专家分析认为，资产配置的核心是选择风口，系统性的投资机会来自于新经济的产业机会，而不是旧经济的供给侧出清。

未来十年，从资本开支、盈利能力和产业政策扶持三个角度出发，“真正风口行业”的系统性投资机会将集中在环保、半导体、互联网、航空物流、软件、生物科技、电子元件、汽车零部件、通信设备等行业。

一、产业更替是朱格拉周期的本质

资产配置的核心是产业，产业更替是朱格拉周期的本质。每次朱格拉周期的开启都对应着一个主导产业，抓住了主导产业就是抓住了系统性的投资机会。

1.1二战后的美国经济的朱格拉周期

回顾二战后的美国经济，每个朱格拉周期的背后都对应了一个主导产业。这个主导产业在10年间用技术进步或全球化需求驱动该产业的投资周期。

比如：

60年代的汽车产业（汽车三巨头通用、福特、克莱斯勒）；

70年代的化工产业（化工三巨头陶氏、杜邦、拜耳与石油三巨头埃克森美孚、壳牌、BP分庭抗礼）；

80年代的消费品产业（食品：百事、可口、麦当劳；医药：辉瑞、默克；日用品：宝洁、吉列，当年的“漂亮50”）；

90年代的计算机和通信产业（微软、英特尔、惠普、摩托罗拉、AOL等）；

2000年代的房地产和金融产业；

2010年代的移动互联网和新能源产业（FAAMG、特斯拉等）。

图1：产业更替是朱格拉周期的本质

1.2中国改革开放40年的朱格拉周期

回顾中国改革开放至今的40年，每个朱格拉周期也对应了不同的主导产业：

1980-1989：工业（大国企）、基建；

1990-1999：工业（民企、民族品牌涌现）、基建；

2000-2009：地产（黄金时代）、工业（中国制造，对外贸易）、基建；

2010-？：基建、地产（白银时代）、互联网、金融。

图2：中国的朱格拉周期对应的主导产业

改革开放之后的四十年，基建一直是中国经济最明显的alpha。“要想富先修路”的口号在中国深入人心。过去四十年，中国在基础设施建设上也取得了巨大的成就，与基建相关的行业出现了系统性的投资机会。

中国高铁线路已突破2.5万公里（截至2018年7月），占世界高铁总量的三分之二；

中国具有强大的基础设施建设能力（修桥、铺路、盖楼、挖港）；

中国具有世界领先的高压输电技术和港口机械技术；

中国是世界太阳能发电量和风力发电量最大的国家。

随着新技术的出现和可持续发展对可替代能源的需求，基建产生的系统性投资机会也一直在改变。

图3：中国的基建行业一直是明显的系统性机会，但正在减弱

房地产行业的系统性机会是从1998年的“房改”开始（终止了福利房分配制度，开启了商品房时代）。1999-2008年，是中国房地产行业高增长高回报的“黄金时代”，房地产投资和销售都处于高速增长状态。投资平均增速24%，销售平均增速20%。

图4：房地产从系统性投资机会转向结构性投资机会

从2013年开始，中国改革开放之后的第一个金融周期开始见顶。在更高等级的金融周期的压制下，朱格拉周期开始发生钝化，用通俗的话讲就是：地方政府和国企需要去杠杆，杠杆转移给居民的空间也很有限，所以靠基建+地产拉动固定资产投资的老模式动力开始衰减，旧经济的固定资产投资周期自然也无法大幅回升。

2013年开始，中国GDP增速下台阶，工业产出和固定资产投资反映出的旧经济开始在底部钝化。旧经济的旧周期经济指标（固定资产投资，工业增加值，制造业投资）出现钝化，本质是旧经济的钝化。另一面，新经济正在孕育。

图5：旧经济的旧周期指标钝化

下图是我们选取了A股64个细分子行业，对比过去三年（2014-2016）上市公司的资本开支平均增速。这种新旧经济的分化是不言而喻的。

一边，旧经济行业的年均资本开支都在负增长。虽然旧经济的假周期（供改环保限产-价格上涨-利润回升）给上游的资源性行业和有垄断优势的国企带来了资产负债表的修复和业绩估值双提升，但价格上涨又会抑制中下游的实际需求和利润，最终带来名义周期的均值回归。旧经济的假周期的行情演绎到极致是剧烈的反向。

另一边，A股有一半行业的资本开支的复合增长率超过14%，按照简单的“70规则”，这些行业规模最多5年就可以翻一番，这些行业大多数是新经济（高端制造业、制造服务业、高端服务业）、受益于消费升级的消费品产业、受益于技术升级的传统产业。有1/6的行业的资本开支增速超过35%，意味着最多2年就可以翻一番。

图6：A股64行业2014-2016年资本开支复合增长

1.3系统性的投资机会来自于新经济的产业机会

朱格拉周期（产能投资周期）的车轮是向前转的。不能机械式地从旧经济的“供给出清-集中度提升”去推断产能投资开启。产业的机会从来不会简单重复，一个产业的收缩，往往意味着另一个产业的机会。

举一个例子：

2012年，柯达停掉了胶卷生产线，之后胶卷价格一路上涨，很多怀旧的摄影爱好者在冰箱里屯了上千卷胶卷，现在1卷柯达400胶卷在亚马逊上也能卖到6美元。柯达会因为胶卷供给出清-价格上涨而开启胶卷的产能新周期吗？胶卷去产能后大涨，你会选择投资胶卷企业还是影像传感器产业链呢？事实上，柯达在2012年就退市了，2013年破产重组成为以卖专利为主的新柯达。

新旧经济的更替也会带来产业内部的分化。

举一个天天都在涨的例子：

一辆新能源汽车的整车制造成本只占28%，而零部件成本占到72%；相比之下，一辆燃油汽车的零件成本只占50%左右。新能源车的技术核心是“三电”（电驱动、电池、电控）等零件而非整车。当2017年新能源汽车销售走高后，汽车零部件和整车制造的固定资产投资出现背离。汽车零配件固定资产投资迅速增长，从3月的10.9%上升至6月的18.3%，而整车固定资产投资降至0。

图7：新能源车的朱格拉——汽车整车和零件投资分化

资产配置的核心是选择风口产业。中国的新经济在崛起，系统性的投资机会来自于新经济的产业机会，而不是旧经济的供给侧产能出清。

二、前沿科技趋势

数据科技领域将持续领跑创新。数据科技、大科学、人本科技是最值得关注的3个新兴科技领域。其中，以机器人与自动化系统、3D打印、物联网、量子计算等为代表的数据科技领域，创新的活跃度最高。

2.1人工智能推动行业跨越式发展

AI正以前所未有的速度进入我们所处世界的各个方面，它具有极强的渗透力和相容性，可以同很多领域产生“化学反应”，推动这些领域产生跨越式的发展。这里面，既包括工业制造、社会生活、智能设备，也包括生物医学、天文学、化学、物理学等科学研究领域。

人工智能具有成为产业技术的能力，具备“充分融入所赋能领域，并转化为该领域自身技术”的独特魅力，比如说，在工业界，AI已经成为PT，即Production Technology（生产技术）；在化学界，人工智能正在催生“AI化学”，这是继计算化学之后，化学领域的又一巨大突破。

2.2人类正在进入人机混合工作时代

AI和人类的关系将进入一个“人机混合+云上协作”的时代：一方面，我们的工作将与AI深度结合，AI能帮助我们对数据进行收敛、计算、直接提炼出高价值密度的知识发现，为日常工作和研究留出更多思考和创意的脑力；另一方面，通过建立一个知识共享、业务协作的云上合作平台，专家们之间将更容易碰撞产生更多精准和深度的洞察。

我们正在进入一个人机混合工作的时代，“云 + AI”对低密度价值领域进行提炼支持人的判断，因此，未来机器产生的数据将完全交由机器处理，而人的作用将成为协作主体，在云上进行协作。

2.3未来，机器可能成为日常管家

人类和机器的互动，正从过去敲键盘、点鼠标的主动输入，转化成语音助手和人类的主动交互。未来，机器很有可能会成为我们的日常管家。Google I/O大会上展示的全新AI语音助手，已经可以帮人类预定餐馆、理发店等，未来语音助手还可能通过强AI和计算力形成预判力：比如基于对交通状况、天气、路程距离的判断，主动呼唤出租车，或是主动下单配送每周的食品购买。

从“无意识交互”到“主动交互”

2.4每个人都会拥有两个身份：真实自我+数字标签

随着数字化技术在人们生活中的渗透越来越深，人的出行、购买、饮食、健康等信息都被以数字化的方式记录下来，这就使得我们每个人在真实世界之外都拥有了一个数字化表达，也就是常说的数字孪生人，利用它，我们可以优化自己的生活，也能让医生和外部合作方更加清楚我们的健康情况和真实需求等。

2.5区块链促进强竞争行业数据互通

区块链正在凭借技术优势进入行业性应用，它最重要的应用是在高度数据隐私的行业中，让具有竞争关系的企业之间建立安全、可控的数据互联互通。比如，阿里健康与常州市合作建立的“医联体+区块链”，实现了多级卫生医疗组织在病患信息上的安全可靠的“分布式互信共享”，而福特、宝马等汽车厂商也正在探索如何利用区块链建立竞争企业之间在特定领域的数据共享与互信。

2.6物联网即将大爆发

IOT正在从原来的数据收集，变成一种切实可用的服务。随着边缘计算的发展，物联网设备将具有三大能力：传统的收集外界信息的感知能力，在AI的赋能下利用自身或边缘计算节点的能力进行计算的能力，以及在设备-设备之间、设备-人之间进行交互的能力。三者结合，IoT将会获得更大的需求空间。

2.7超越AR、VR，混合现实成主流

VR是纯虚拟数字画面，而AR虚拟数字画面加上裸眼现实，MR是数字化现实加上虚拟数字画面。MR设备给到你的是一个混沌的世界：如数字模拟技术（显示、声音、触觉）等，你根本感受不到二者差异。正是因为此MR技术更有想象空间，它将物理世界实时并且彻底地比特化了，又同时包含了VR和AR设备的功能。

随着AR、VR泡沫的逐渐散去，混合现实成为了最有可能成功的商业场景。混合现实MR是将真实世界和虚拟世界混合在一起，来产生新的可视化环境，环境中同时包含了物理实体与虚拟信息，并且必须是“实时的”。比如说虚实结合的远程在线教育，以及在智能制造、电商零售、多媒体、建筑设计等等领域的应用，也正因如此，金准人工智能专家预测，全球MR解决方案市场会在2025年达到32亿美元，并继续保持高速增长。

2.8前沿科技交叉融合商业化加速

例如，在2017年双11期间，阿里机器智能技术实验室副主任华先胜所带领的团队，使用对抗性神经网络为零售平台上的商家生成在线横幅广告——商家只需要简单的输入就可以获得颜色、布局、样式非常丰富的广告素材——在这项技术的帮助下，忙碌的商家们获得了数以亿计的在线广告设计，而无需亲自动手。

阿里巴巴已经开始在B2B跨境电商平台把实时翻译系统提供给供应商，帮助全球B2B买家和卖家降低沟通门槛——它基于神经机器翻译，通过阿里积累的大量电商语料数据训练优化的翻译模型，特别是其基于知识导引的神经翻译干预机制，便于对品牌，商品类目在不同的语义上下文中产生正确的翻译结果。

三、风口中的风口

宏观周期的本质是产业的新旧更替。产业新旧更替是每十年一次的浪潮（趋势），如果一波浪潮（趋势）还没有结束，任何力量都很难与之相抗衡；当一浪过去之后，任何外力都很难维持它的高潮。

图8：美国产业更迭与GDP波动

有投入才会有产出。长期看，劳动力的增长是稳定的，而企业投资（资本开支/CAPEX）形成的资本存量是经济增长的主要边际驱动力。产业新旧更替的背后，是新技术和资本的结合。

长期看，企业家总会把钱投到劳动生产率更高的产业中，而产业是劳动生产率的载体。所以，不管是中国还是美国，企业资本开支和劳动生产率(labor productivity)都是高度相关的。

以百年老店通用电气（GE）为例，1890年以有线电起步，1919年开展无线电业务，20年代成立传媒、电视公司，30年代进入金融领域，40年代推出喷气式发动机，50年代建立商用核电站，60年代发明半导体激光器，80年代在医疗领域推出MRI，90年代制造火星探测器……GE不断将上一个浪潮赚到的利润投入到下一个浪潮的风口产业，在历次技术革命中都没有落伍。

图9：中国劳动生产率 VS 非金融企业资本支出增速：5年移动平均

图10：美国劳动生产率 VS企业资本支出增速：5年移动平均

沿着资本开支在行业之间的转移方向，金准人工智能专家选择了近三年资本支出复合增长率在14%以上的行业，这意味着这些行业的资本规模平均每5年翻一番。

这些行业去掉金融和地产，按照CAPEX增速从高到低包含了近30个行业：互联网，机场，燃气，环保，医疗，软件，传媒，水务，半导体，电工，饮料，电子元件，办公用品，电脑硬件，消费电子，商服，通信，汽车零部件，食品，农业，航空物流，家居，保险，海运，建筑，生物科技等。

图11：行业CAPEX三年复合增长率

然而，资本开支并不是盈利的保障。新兴产业在概念刚刚萌发时，需要大量资本研发产品、开拓市场，而这往往导致行业初期没有利润产生。从投入到产出到回报，不仅需要时间，也需要能甄别伪增长的眼光。

债务扩张带来的资产价格泡沫往往会掩盖伪增长的真相。1990年代中期蓬勃发展的互联网行业在其大部分成长时期经营都无法盈利。科网泡沫之前，PE/VC市场以及纳斯达克对企业宽松的净利润要求使得很多dot-com公司仅仅因为网站访问量，就可以获得几千万美元的融资。这些企业有大量的资本开支但没有净利润。

从1995年起，互联网行业的EBITDA增速远远跟不上与资本开支CAPEX上升的速度。资本开支直到1999年中才开始回落，之后便是2000年的科网泡沫破灭。

图12：美股IT EBITDA在2002年左右开始加速赶上CAPEX支出，投资回报率提高

EBITDA和CAPEX的走阔意味着业务扩张速度不及资本支出的速度，背后的原因可能是市场的扩容跟不上竞争者的增加，或是公司没有把钱用在刀刃上（挥霍无度），科网泡沫中两个因素都有。

只有形成高收入—高利润—高资本投入的良好循环，公司的资本投入和管理决策才可被称为理性。

基于此，金准人工智能专家用企业折旧、摊销和利息前的利润（EBITDA）衡量企业的盈利能力，对高资本开支（CAPEX）行业的EBITDA复合增长率进行排序，筛选出复合增长率大于14%的行业。

图13：筛选后行业EBITDA三年复合增长率

但是，这些还不是最终的“风口中的风口”。因为资本开支和主营收入利润的高增长，既可能是风口行业的趋势，也可能是传统行业在商业周期中的繁荣。决定风口的是趋势，决定趋势的是需求。

以半导体和钢铁为例，对于你身边的手机、平板、笔记本等所有电子产品来说，半导体之于电子行业，就类似于钢铁之于现代工业，是“原材料”。半导体和钢铁一样，产品标准化程度高、行业具备规模效应，因此也具有强周期属性。

但是跟钢铁不一样的是，信息化建设相比钢筋水泥的基础设施建设，还远没有完成。如果未来一切非物质消耗品都将信息化，那么对半导体的需求还有非常大的空间。

京东方（BOE）的爆发，离不开过去几年的产业布局，也离不开产业政策的扶持。京东方之前连年亏损，靠政府补贴摘掉ST帽子，曾经也不受投资者看好。但是，京东方在政策扶持下“反周期投资”，在价格下跌、产能过剩、其他企业削减投资的时候逆势扩产，通过大规模生产进一步下杀产品价格，从而逼竞争对手退出市场，最终换来了行业的龙头地位。

产业政策扶持是一把双刃剑，光伏是一个反例。2004年开始，德国、西班牙、意大利等国相继出台新能源补贴政策，使得国内的光伏企业看到了巨大的的市场，不断扩张。2012年中国的光伏行业，政策性补贴刺激短期资本过度涌入，光伏行业产能过剩。2013年，世界最大的光伏企业无锡尚德宣布破产重组。

需求仍然是关键因素。我们从资本开支、盈利能力快速上升的行业中，谨慎地筛选出有产业政策支持的行业：

表1：风口行业产业政策汇总

综合来看，环保、半导体、互联网、航空物流、软件、生物科技、电子元件、汽车零部件、通信设备等行业的投资、利润以及政策支持都较为出众，是“风口中的风口”。

系统性的投资机会来自于宏观周期背后的主导产业变迁，这就是“站在未来的风口上”。

整体来看，“风口中的风口”主要来自三个方向：

人与人连接——互联网、软件、半导体、电子元件等；

物与物连接——航空物流、汽车零部件、通信设备等；

延长人的寿命——环保、生物科技等。

总结

从前沿科技趋势来看，未来10年，环保、半导体、互联网、航空物流、软件、生物科技、电子元件、汽车零部件、通信设备等行业将成为人工智能、物联网、区块链技术的落地场景，这些行业的投资、利润以及政策支持都比较出众，金准人工智能专家预测，这些将成为驱动未来十年宏观周期的产业浪潮。

金准人工智能 L4级自动驾驶技术及应用场景研究报告

前言

人工智能、物联网的快速发展，加速了在各行业场景应用落地，其中也催生了自动驾驶行业的发展。自动驾驶技术的出现颠覆了人们对汽车行业的传统认识，逐步由传统代步工具向智能化、物联网发展，成为整个城市交通生态系统重要的一环，各大以整车厂商为代表的传统汽车厂商也加快了自动化、智能化升级，开始L3、L4、L5级自动驾驶生态布局，传统势力基于以往产品研发模式逐步实现车辆智能化升级，另外，各类新兴技术科技公司也开始抢先布局，科技公司则是通过深度学习、高精度传感器直接开发可以实现L4级别自动驾驶的系统。

目前从技术上来讲已经基本上具备了实现L4级自动驾驶的能力，主要是通过高精度传感器+深度学习实现车辆对于周围环境中障碍物的探测，加以识别判断并进行动作决策等，但是由于需要实现L4级自动驾驶的硬件设备如小型高精度激光雷达、算法嵌入式的计算平台等设备还不够成熟，因此当前整套L4级设备还显得庞大笨重且造价昂贵，很像早期实验室中的大型计算机。

由于深度学习只有通过大量数据训练才可以实现对相似目标和道路情况的识别和判断，而由于城市道路交通情况过于复杂，当前L4级自动驾驶系统还难以应付城市开放道路上的的载客运输作业，自动驾驶系统比较适合应用于封闭园区、或点到点线路上的货物运输应用场景，如：港口集装箱运输、干线物流运输、矿区、工业区运输作业等。

未来随着车载技术的进一步成熟以及新技术的应用（如车联网、高精度地图等）。L4级自动驾驶将会最终进入乘用车平台和城市道路环境，自动驾驶汽车在城市环境下最好的应用场景是共享出行领域，预计这将会彻底改变消费者的拥/用车习惯，对传统私家车市场形成巨大冲击，轿车厂商因此会转型布局出行服务市场。

一、自动驾驶行业宏观情况概述

1.1自动驾驶的定义和技术分层

从L4级自动驾驶开始实现系统对驾驶员的替代。自动驾驶是指让汽车自己拥有环境感知、路径规划并且自主实现车辆控制的技术，也就是用电子技术控制汽车进行的仿人驾驶或是自动驾驶。美国汽车工程师协会（SAE）根据系统对于车辆操控任务的把控程度，将自动驾驶技术分为L0-L5，系统在L1~L3级主要起辅助功能；当到达L4级，车辆驾驶将全部交给系统，而L4、L5的区别在于特定场景和全场景应用。本篇报告我们将主要论述L4级自动驾驶系统技术、成本和商业化应用场景。

1.2自动驾驶产业链

自动驾驶创造机会吸引行业外企业共同参与技术体系研发。自动驾驶涉及到极为复杂的多产业融合，除了传统整车制造以外还涉及到了大量新兴技术，如：人工智能、大数据、物联网等，由于传统厂商难以短时间内形成相关技术研发能力，因此这给予了行业外相关技术企业进入这一巨大新兴市场的绝佳机会。除了新型高精度传感器（Lidar）等Tier2厂商外，人工智能创业公司着手开发自动驾驶算法以及针对特定或通用场景的整套系统解决方案；而互联网企业基于其在数据、资金、行业所拥有的强大综合实力，希望为未来出行领域开发L4、L5平台级自动驾驶系统；传统厂商OEMs、Tier1s也看到了自动驾驶巨大的商业机会，除了通过开发ADAS模块，使其现有产品逐渐获得L1~L3级自动驾驶能力以外，其也通过自建，整体收购的形式组建自己的自动驾驶研发团队，目标是开发适应未来的完全无人驾驶产品。

1.3传统厂商自动驾驶布局

整车厂商通过加装ADAS模块逐步实现高级别自动驾驶。

在本文中，金准人工智能专家主要探讨的是L4级自动驾驶技术及相关的应用场景，想要实现L4级自动驾驶，需要实现车辆在特定场景的运行过程中能够彻底的摆脱驾驶员而独立完成驾驶任务，这对于传感器、数据、计算平台以至于整体系统的性能、冗余度以及可靠性都提出了极高的要求。当前能够实现L4级的高性能的传感器和处理器成本高昂，限制了其在乘用车产品上的应用。而目前已经实现商业化应用的自动驾驶系统产品，主要是主机厂商（OEMs）和一级供应商（Tier1s）在现有的车型上通过添加高级辅助驾驶系统(ADAS)，使其获得L1~L3级部分自动驾驶能力。

虽然目前在自动驾驶技术上还未取得突破性的创新，大多厂商的技术研发也停留在L2-L4级的道路上，但是不少机构预测2025年将会进入L4级自动驾驶时代，不少的传统汽车厂商也给出了各自自动驾驶汽车的量产时间表。下面我们就来盘点下这些传统汽车大厂的自动驾驶技术达到了哪种等级。

1.3.1奥迪：L3级自动驾驶汽车已量产上市

2017年年底，全新一代奥迪A8正式全球首发，该车最吸引人的不是靓丽的外观设计，而是搭载了全新的L3级自动驾驶系统（AI traffic jam pilot），全车共有12个超声波传感器、4个全景摄像头、1个前置摄像头、4个中程雷达、1个红外摄像机，作为全球首款搭载L3级自动驾驶系统的汽车，可谓看创了自动驾驶技术研发的新时代。目前国内的自动驾驶法规还未发布，所以在国内买到的奥迪A8并未搭载L3级自动驾驶系统，这点比较遗憾。

1.3.2奔驰：2020年之前实现L3级自动驾驶

奔驰辅助驾驶系统。

作为全球最有历史的汽车厂商，奔驰一直在汽车技术创新方面走在了最前列，目前奔驰正在研发L3级自动驾驶技术，该技术将使车辆在复杂的道路上行驶时，不需要人为干预，目前的S级车型只支持L2级自动驾驶技术，将在2020年前直接升级，最新E级轿车已经搭载DrivePilot技术，目前奔驰和博世进行合作，计划在2020年之前实现旗下大部分车型的自动驾驶。

1.3.3通用：2020年达到L4级自动驾驶并实现量产

Super Cruise(超级巡航)系统

作为技术排名第一的车企，通用汽车在自动驾驶研发方面非常的激进和大胆，Cruise和Strobe作为旗下的两大王牌，让通用在自动驾驶研发方面有了底气，所以L4级自动驾驶汽车的量产只是时间上的问题，新一代Super Cruise(超级巡航)系统凯迪拉克CT6已经早已上市，虽然目前只能达到L2级。

1.3.4福特：2020年制造首批自动驾驶汽车

福特在自动驾驶方面的态度相对于其他厂商来说非常的低调，对于研发自动驾驶量产汽车，福特更愿意推出完全自动化驾驶技术的汽车共享服务，作为汽车界佛系代表，“福特相信，开发自动驾驶汽车，技术不是一切，它还需要赢得消费者和部署城市及相关业务的信赖。”

1.3.5雷诺-日产：2020年实现在城市内自动驾驶

ProPILOT系统

日产和雷诺在1999年结盟，在自动驾驶技术研发方面，ProPILOT系统成为了首个推出的自动驾驶技术产品，而且，雷诺-日产把自动驾驶技术分成了四个步骤来解决，第一步为高速公路上保持当前单车道自动驾驶，第二步将其扩展为高速公路上的多车道自动驾驶，第三步将自动驾驶技术应用到城市路况，第四步实现完全无人驾驶的汽车，汽车完全自动驾驶，无需人工干预。

虽然，目前自动驾驶技术已经实现L3级，但是对于想要实现L4级或者L5级自动驾驶，还有很长的路要走，应用地域的差异、系统安全、法规政策不完善，诸多问题摆在了自动驾驶研发者面前，作为汽车以后发展的大方向，自动驾驶可以提高交通效率，降低行驶风险等，而作为用户的我们也多了一个出行选择。

1.4新兴势力自动驾驶布局

通过深度学习算法和高精度传感器实现彻底的无人驾驶。

新兴势力包括互联网厂商和科技创业公司（许多人员来自于互联网企业研究机构）,主要开发在特定区域内实现完全无人驾驶的无人驾驶技术（L4~L5）。科技公司相较于传统厂商来说优势在于其对于深度学习、神经网络、大数据等先进技术的掌握上，但是其在硬件制造的经验却被传统厂商远远落下，Waymo（Google子公司）曾经主张自己造车，但在2015年后就放弃了这一想法转而与克莱斯勒、丰田等传统车企进行合作，大部分科技公司都采取相同路线。而传统厂商也通过投资收购科技创业团队为自己开发高级别自动驾驶系统（Cruise、Argo.ai）。

二、L4级自动驾驶技术及成本分析

自动驾驶系统可以分为感知层、决策层、执行层。

L4级自动驾驶系统实现在特定区域内对车辆操作的完全接管，系统需要实现：对周围障碍物的感知、车辆定位以及路径规划（2W1H），实现这些功能需要构建感知层、决策层、执行层这三个层面的技术架构，这三个技术层级分别代表着L4自动驾驶系统的眼和耳、大脑以及手脚。基于当前技术发展情况，我们在本部分主要讨论车辆内部所采用的一些传感器和计算单元。除了本地的传感器和处理器外，系统通过与外部车辆、设施进行信息交互，以及在高精度地图等辅助下可以获得更好的环境感知能力。

2.1自动驾驶环境感知传感器

2.1.1感知层需要对多种传感器进行融合以实现冗余

感知层主要是为自动驾驶系统获取外部行驶道路环境数据并帮助系统进行车辆定位，当前无人驾驶系统中代表性的传感器有激光雷达、摄像头、毫米波雷达、超声波雷达、GNSS/IMU等，由于其工作原理、技术特性各不相同决定其适用的应用场景各异，所以当前大部分车辆都是采用多种传感器相融合的方式以应对各种可能发生的情况，保证系统冗余。

2.1.2车用摄像头产品对比车用激光雷达产品更加成熟

激光雷达发展始于上世纪70年代，主要应用于军事、航空航天、测绘等领域，主要可以实现测距、定位、环境监测、以及动态、静态3D环境模型的构建。车用激光雷达起步较晚，目前产品不够成熟面临多重问题需要克服，如：能够搭载在车上的产品有效测距较短；产品固态化、小型化技术不够成熟，难以满足车辆要求；配套产业链尚未成熟，难以实现量产；由于产量少，产品售价高昂（Velodyne HDL-64售价高达于7.5万美元）。相比之下，由于在消费电子领域多年发展积累，摄像头在技术（成像效果、产品小型化）、产业链方面（成本控制）均比较成熟，而且在探测距离、价格方面亦有明显优势。最新开发的产品即使是在外部光线条件不佳的情况下也能够给出较好的成像输出。

2.1.3激光雷达未来将朝向小型化、电子化、固态化发展

虽然车用摄像头产品已经很成熟，但激光雷达在L3级以上的自动驾驶系统中是不可或缺的，因为激光雷达可以生成车辆周边环境的3D模型，为系统提供深度的环境数据，而且其在车辆定位中也扮演着重要的角色。

激光雷达能够发射的激光线束越多，其所能提供的探测精度和探测距离越好，但价格也越昂贵，如高速公路场景一般需要激光雷达能能够发射100线束以上；但针对一些中低速场景，也可采取多台低线束激光雷达以规避高昂的成本。

目前机械式激光雷达体积庞大、结构复杂，成本高昂，难以满足车辆使用要求，多家厂商正在着手研制半固态、固态激光雷达，以实现产品小型化、轻量化方向发展，随着未来相关技术进一步成熟，产品实现量产后，成本有望降至千元级别。

2.2自动驾驶计算决策层

2.2.1 IC公司和Tier1大力投资研发布局该领域

目前自动驾驶厂商传感器搭配基本趋同，而决定L4级自动驾驶落地的时间快慢更多的是取决于系统的决策环节，包括相关算法和计算平台。我们知道传感器每秒钟都会产生大量数据，计算平台需要有能力在极短时间内对大量的数据进行处理、分析并给车辆执行层下达操作指令以保证自动驾驶车辆的安全行驶。自动驾驶专用计算平台需要能够融合多种专用芯片和处理器，技术门槛极高，当前各大科技公司、Tier1都在布局该领域的技术研发，尤其是专业芯片环节具有极高的技术门槛，如Intel收购Altera（FPGA）、Movidius（视觉处理芯片）和Mobileye。目前由于产量少、造价高昂，当前一台计算平台的售价都在几万元甚至是十几万元，随着未来量产，成本有望降至万元以下。

2.2.2 L4级自动驾驶系统组建

目前行业并无统一的最优系统组建方案。

根据我们与行业内部分无人驾驶整体解决方案提供商的交流，目前各家厂商并无最优、唯一的L4级系统组建方案，每家在搭建自己的自动驾驶系统时都会根据不同的应用场景去选择不同的传感器配置方案，且由于当前上游厂商产品也处在快速迭代过程中，因此厂商也在尝试搭配选择不同的上游厂商所提供的产品。整体系统的造价和性能都在短时间内（季）快速迭代。

2.3自动驾驶计算执行层

当前L4级自动驾驶系统硬件成本高昂。

随着产业链成熟和产量提升硬件成本有望实现大幅下降。

目前大体上实现L4自动驾驶的硬件设备一般包含：6~12台摄像头、3~12台毫米波雷达、5台以内的激光雷达以及1~2台GNSS/IMU和1~2台计算平台（不同方案会选择不同侧重的传感器）。当前一整套L4级自动驾驶系统硬件成本还比较昂贵，整体基本在50万元左右甚至更高，而未来随着资本、研发的不断投入，自动驾驶产品逐渐落地、配套产业链逐渐成熟，预计整套系统硬件成本会在1~2年左右降至10~20万元，并最终有望控制在10万元以内。

三、L4级自动驾驶商业化应用分析

3.1 L4级自动驾驶商业化应用落地时间表

更容易在封闭园区、高速公路等简单道路环境中落地。

如我们之前所提到的，现在带有半自动驾驶功能（L3级以下）的产品已经有部分产品开始落地，而目前已知的L4级自动驾驶项目都还处在测试阶段，但18年、19年将会有多个应用于特定场景下的L4自动驾驶商业化项目逐步落地，从实现难度上来看，L4自动驾驶会率先出现在行驶条件相对简单、容错率较高的某些特定的封闭园区内，作为专用车或者某种商用车辆而使用；但在高速公路、城市一般道路环境下，由于道路复杂程度远高于封闭园区，在该环境下实现中驾驶商业化应用难度将会非常高。

3.2 L4级自动驾驶商业化应用场景分析

初期高投入换取后续人工费用降低和运营效率的提升。

L4级自动驾驶技术是指在确定的区域范围内实现系统对车辆的完全接管，在考虑适合L4级自动驾驶的商业化应用场景时，我们应该综合考虑以下因素：1、当前系统还不够聪明，难以应对过于复杂的道路环境；2、当前L4级自动驾驶硬件成本依然高昂，甚至比车辆自身成本还高，虽然未来成本有望下降，但依然会达到10万元左右，过高的成本导致其可能并不适合应用于私家车；3、L4级自动驾驶系统最大的优势就在于对驾驶员的完全替代，在考虑人力成本愈发高昂的当下，这可以节省大量的人力成本；4、系统在运营时间、运营效率等方面的表现都要优于人类驾驶员。因此在考虑L4级自动驾驶应用场景的时候需要综合考虑多方面因素。

金准人工智能专家认为L4级自动驾驶技术会率先在商用车领域尤其是道路运输行业率先实现商业化应用，主要原因有以下几点：

现有的自动驾驶技术还难以应对所有的道路环境和多样的驾驶任务，这就意味着环境越简单，需要考虑的道路上的变量越少，越容易实现技术应用。对比乘用车的应用环境，商业运输任务一般比较单一，往往是重复单一线路的点到点的运输作业，而且大部分的行驶环境是在高速公路或者封闭园区内，行驶环境中需要考量的变量较少，技术实现难度相对较低。

即使按照我们所期盼的1~2年系统成本可以下降至10~20万元，但这对于乘用车的消费人群来说还是太过于昂贵，但对于商业运输行业中的车队运营商来说20万元/台车的硬件投入是小于每台车/年的人力支出（假设：每台车需要2~3名司机，每名司机年薪在12万元）；

除了节省人力成本以外，自动驾驶系统还可以提高运行效率，这包括了：

1）由于自动驾驶系统并不会疲劳，因此自动驾驶系统可以有效延长每日车辆的运营时间；

2）资料显示驾车习惯良好的司机可以节省13.3%的油料，由于自动驾驶技术比驾驶员拥有更好的环境感知能力以及对于单一任务的重复优化能力，预计系统也可以实现相同的省油效果；

3）此外，自动驾驶系统将会显著降低车祸发生概率，这将会降低保险费用或者因事故而导致的额外费用支出。

国内卡车有600万台左右，公路运输量占整体物流总量的78%，技术替代可以实现较大的商业价值，此外商用卡车的平均使用年限在5~6年，远远低于乘用车平均使用年限，因此实现技术替代的速度也会比较快。

3.2.1港区物流运输场景

我国港口经营面临由注重吞吐量转向提高服务质量。

港口是贸易往来中的重要节点，90%的进出口物资是通过海运并经港口实现的。目前全球前20大集装箱港口中中国占其中一半，前10大集装箱港口中有7个来自中国。随着集装箱船舶大型化、经营联盟化、班轮公司集中度急速提升这一趋势，对大型枢纽港提升码头服务能级、效率和质量、进一步优化资源配置、降低口岸综合成本等都提出了更高的要求；此外港口管理还面临廉价劳动力供给下降，随着工人健康意识的提升，新一代的劳务人员对于传统的工作模式变得难以适应，在未来港口将会面临着用工荒和用人成本大幅上升的情况。

港口的发展模式正在从传统的单纯注重通过能力和吞吐量，转为口岸效率、服务质量、综合物流、科技创新和可持续发展等方面的的全面竞争，港口管理集团在未来的发展过程中可通过引入无人岸桥、自动驾驶内集卡等设备以上发展目标。

L4级自动驾驶在港口自动化改造方案中比AGV更有竞争力。

目前国内多个港口探索通过自动化改造提升集装箱运输效率和服务质量，如上海港洋山四期全自动化港口，7个集装箱泊位，共集成了26台岸桥、120台轨道吊和超过130台AGV，设计目标将实现集装箱吞吐630万TEU/年，自动化改造提升了港口的工作效率，同时为港口节省了极大的人力成本。其中，洋山四期采用AGV代替了内集卡（内集卡主要是负责在岸桥（岸边起重机）和场桥（堆场起重机）之间的运输任务）。但AGV价格昂贵，且前期需要对车量运行区域预埋导航设备，如需路线更改，则需要重新铺装导航设备；相比之下由于L4自动驾驶卡车是基于成熟卡车平台建造，成本相对低廉，且由于其导航方式不需要对港区进行基建改造，相比起AGV方案有投入少、运行灵活、适用面广等优点。

细分市场空间有限但实现难度较小。

截至2017年末，全国共拥有生产码头27578个，万吨级及以上泊位2366个。在万吨及以上泊位中，集装箱泊位共328个。

以洋山港四期为例，其共有7个集装箱泊位，配置有130台AGV，若我们假设同样数量L4自动驾驶内集卡运输效能等同于AGV的话，则按该比例我们可以推算得出，全国现有集装箱码头数量若全部进行内集卡自动化升级改造则需要6091台内集卡，若每台的改装费用为20万元，则改装市场空间为12.18亿元。

在码头场景应用自动驾驶卡车难度较小，原因在于，码头场景相对封闭，运行区域规范整洁，适合于L4自动驾驶系统运行；虽然内集卡自动化升级需要一定成本，而国内的干线枢纽港出于在未来行业竞争中能够处于有利的竞争地位，有动力去对港口设施进行信息化、自动化升级改造；此外，自动驾驶内集卡可以节省8元/TEU的人力运输成本，并使得利润提升2.4倍。

3.2.2干线物流运输场景

中国公路物流运输行业集中度较低行业未来面临整合。

中国公路运输总量占整体物流总量的70~80%，地位及其重要，但物流成本占GDP总量的16%，远高于欧美发达国家10%的水平。中国物流行业存在着小、散、杂等特点，90%的承运商单位都是中小运营商，个体车队占63%，行业集中度低、竞争激烈、行业利润率低。未来随着政策趋严导致的行业门槛提升以及当市场达到一定的饱和度时，行业将会进入整合并将淘汰效率低的小企业，集中度进一步提升，在未来行业竞争中行业龙头企业胜出的关键因素是要能够满足客户多元化需求，为客户提供透明、高效、标准化、低成本的服务。

L4级自动驾驶技术助力综合物流龙头企业降低运营成本。

人工费用及运输成本费用是物流运输公司最主要的成本，如国内公路物流上市公司标的“德邦股份”2017年年报显示人工费用和运输费用分别占公司营业成本的45.12%和37.51%。尤其是人工费用，随着未来中国人口红利逐渐消失，社会劳动力成本进一步上升，将会对物流公司的利润水平造成巨大的压力。

L4级自动驾驶技术可以有效降低公路物流公司对于卡车司机的需求——尤其是在干线运输环节，根据我们的调研，业内人士认为人工成本因为自动驾驶技术的引入可以下降2/3，此外，预计自动驾驶技术在固定线路上可以实现最有效率的驾驶方式，并极大地降低交通事故的发生概率，因此燃油费用和保险费用也会因此相应下调，最终由于引入自动驾驶系统整体利润率可实现近3倍的增长。

干线运输行业规模庞大，但技术渗透尚需解决行业问题。

中国有近1500万辆公路货运车辆和3000万名货车司机，而当前自动驾驶技术比较适用于干线运输这一细分场景，主要原因在于干线运输行驶场景主要为高速公路，高速公路相比起城市主干道来说，行人、骑车人数量较少，复杂的道路路口、交通指示灯等设施相对较少，系统对道路上车辆行驶轨迹更好进行预测。因此，在测算市场规模上我们主要关注重型卡车

（干线运输）领域，国内重卡保有量近600万辆，按比例推算对应司机数量应该在1200万名左右。假设每辆车的改装成本在20万元，则这是一个近1.2万亿的存量市场。

虽然干线物流运输拥有较大的市场空间，但是行业中所遗留的一些历史问题阻碍了自动驾驶技术的推行，如甩挂模式推行困难，单车在运货到站后到再装满货物离站往往需要等待1~2天；此外，自动驾驶汽车能否正式上路运行最终还要通过政府相关部门的审批。

3.2.3其他应用场景

当前L4级自动驾驶落地城市一般道路应用场景困难较大。

目前自动驾驶汽车进入城市一般道路应用场景难度还是比较大，即使是目前技术最领先的Waymo（MPD数据排名第一），在其测试的凤凰城地区也经常会有当地居民抱怨Waymo测试车在道路上的表现过于呆板。如果想要自动驾驶汽车在城市场景应用，可以选择某些低速、固定线路的应用场景，如：1、固定区域低速场景：最后一公里低速物流车、道路清洁车等市政车辆；2、在开放道路固定线路上行驶的公交车，其类似于轨道交通车辆，运行线路固定，道路情况虽然比较复杂，但是车速不快，还可以采取在车辆外安装LED信息告示板主动向车辆周边的行人和车辆告知自动驾驶车辆的下一步动作而避免可能发生的事故。此外，载客相比起之前我们重点分析的载货场景，还需要考虑乘客的搭乘体验，这对车辆控制算法有更严格的要求，因此技术难度更大。

四、行业未来发展展望及风险分析

4.1 L4级自动驾驶市场走向成熟

当L4级自动驾驶进入乘用车平台时意味着行业高增长的到来。

如我们前文分析的，当前限于数据量、技术等因素的限制，短时间内L4自动驾驶主要的应用场景还是在封闭园区或点到点固定线路的物流运输作业上，主要是应用在商用车平台上，平台和应用场景对于技术的要求相对宽松。而随着技术及配套政策的进一步成熟，L4自动驾驶最终会进入乘用车平台，乘用车应用场景是2C市场，空间将远大于商用2B车市场（我国自2014年后，乘用车年销量基本超过商用车销量的5倍）。而当L4自动驾驶技术进入乘用车平台时将意味着新技术对于传统整车厂商和行业的颠覆和变革，包括产业链结构、自动驾驶场景下的新兴技术应用和下游应用场景的改变。

4.2汽车将朝向电子化方向发展

伴随电子化率提升汽车价值核心从硬件转向软件。

随着自动驾驶技术的发展，汽车计算单元将会由分布式转为集中式设计，自动驾驶系统将会整合更多的传感器、处理器、芯片、通讯模块等电子元器件并进行统一的数据处理，整车成本中电子元器件占比将会被大幅提升。

此外，当前普通汽车中软件设计相较于3C产品比较落后而且在车辆全生命周期中无法得到任何的线上更新，手机、电脑的产品更迭周期在12~24个月，汽车产品的更迭周期却是3~5年，而未来随着汽车电子化、智能化、联网化发展，人们在汽车上将会获得如使用手机或笔记本电脑一般的使用体验，通过OTA技术，车辆可以通过线上实现数据和系统的更新和迭代。因此，未来汽车产品的核心价值将会从传统的硬件更多转向软件。

4.3汽车行业结构变革

传统汽车厂商加大对上下游投资布局避免发展成为代工厂。

伴随着自动驾驶技术的发展，当L4级自动驾驶逐渐渗透进入乘用车平台时，相关新兴技术的引入和商业化应用场景的变化将会造成整体汽车行业产业结构的剧变，正如我们之前分析的，汽车的硬件制造将会被大大削弱，而且自动驾驶在未来有可能会颠覆人们的出行模式和汽车属性。实际当前各大汽车巨头已经注意到了行业变化趋势并开始提前布局以应对未来的行业变化，我们当前能够看到汽车整车厂商主要布局下游共享出行行业和上游核心技术厂商以及地图数据厂商。此外，除了传统汽车厂商以外，半导体巨头也看好该领域并通过自研或收购汽车电子（芯片）提前布局进入汽车行业。

4.4新技术：车联网助力自动驾驶发展

助力自动驾驶城市应用场景落地并创造新的商业机会。

车联网技术（V2X）包括：车-云（V2N）通信、车-车（V2V）通信、车-人（V2P）通信、车-路（V2I）通信、车内通信等五个通信场景，功能包括实现“与车辆行驶安全相关” 的和“非安全相关” 的信息通信。首先，车联网通过与道路设施、车辆、行人互联为车辆提供全天候的环境感知能力，对车辆自身的环境感知能力进行了补充，使车辆有能力应对更加复杂的道路交通环境；此外，在载客自动驾驶车辆内，当乘车人不需要集中在车辆操作上时，车联网可以为乘车人提供除了广播以外更多的信息娱乐形式和内容，预计内容提供将会创造更多的商业机会。

4.5新技术：高精地图于自动驾驶不可或缺

本土图商在国内自动驾驶发展中有较大的业务发展空间。

高精度地图对于实现高级别自动驾驶不可或缺，相当于系统的记忆部分，通过传感器获得的实时数据对比地图数据可以实现车辆定位、导航、辅助环境感知等功能。不同于传统导航地图，高精度地图是为专门为自动驾驶系统设计的，其包含详细的道路模型、车道模型、道路部件、道路属性和其他的定位图层信息。车联网技术成熟的情况下，通过车辆所带有的传感器以通过实时上传可以对地图信息进行实时更新，目前地图数据的数据采集方式主要有以Google为代表的集中式和以Mobileye为代表的众包式采集。

国内的图商拥有较高的行业壁垒，在中国电子地图制作需要有甲级电子地图测绘资质（目前国内仅有14家），该资质对于申请企业有较高的资质要求；此外，地图数据收集、地图制作，系统搭建等对于企业不管是在技术层面以及资金层面等有较高的要求，一般企业无法承担前期的巨额投入；最后，高精度地图属于车载安全领域，下游厂商对于供应商准入有较严格的标准，一旦进入供应商清单就很难被替换。

4.6自动驾驶未来将会改变人们的出行方式

自动驾驶助力共享出行改变城市居民“拥/用”车习惯。

在城市化发展进程中，随着越来越多的人口涌入城市，城市边界逐渐扩张，人们对于车辆的需求也逐年扩张，目前全国有1.6亿人有驾驶照却没有自己的私家车，而拥车一族也有车辆使用率低、交通拥堵、停车困难等问题。

共享化出行是被普遍看好的可以解决以上问题的最好办法，但传统的网约车存在着司机管理困难，人工成本高昂，政策监管等问题，而分时租赁取车以及归还地点固定，若取车点分布较少则使用不方便，相反则面临着高昂的停车场租用费。

自动驾驶车辆是天然的共享出行平台，虽然其初始投入高，但作为自动化共享出行工具，其既可以解决司机管理、人力成本高昂等问题，同时其还可以通过后台配单自动驶往临近的叫车人，同时结合网约车的便利性和分时租赁的经济性。

五、行业风险分析及投资建议

5.1行业风险分析

从业者主要担心风险因素为“政策出台速度”和“事故”。

当前行业尚处早期研发投入阶段，高级别自动驾驶还不具有成熟的产品和商业模式。但行业近2年将迎来首批高级别自动驾驶产品的商业化落地试运行，当前处在行业发展的关键时点，从业者对行业未来发展既抱有期待又存在着一定的忧虑，这主要体现在：1、相关政策出台速度不达预期；2、潜在重大交通事故可能民众以及政府对于自动驾驶的态度。我国自动驾驶政策制定起步晚，但后期追赶速度快，从2018年开始国内最少已有九个城市开放了自动驾驶路测区域并制订了配套管理措施，部分地区甚至开放了部分公共道路用于从业者自动驾驶车辆路测；近年来在海外，无论是Tesla、Uber还是Waymo都遭遇了一定的“自动驾驶事故”风波，这在一定程度上降低了美国消费者对于新技术的接受度，我国当前类似事故还较少，消费者对自动驾驶抱有较高的接受度，但如果在行业发展中出现严重（致死）事故将会对行业产生负面影响，因此政府除了推动行业发展以外，也应该对自动驾驶企业做好严格的筛查和管理，以及制定好相关的保险赔偿制度。

5.2投资布局

传感器、地图和有实力进入整车厂商供应链的自动驾驶厂商。

考虑项目投资时可以首先考虑未来项目的退出方式，这包括：在公司持续融资过程中实现退出；公司被全资收购；企业IPO；破产清算。

持续融资能力：首先，企业要想实现持续的股权融资和估值持续增长，除了投资人对于行业未来发展看好以外，企业能够向投资人展现其持续造血能力以及未来的发展潜力等；

被收购：新技术的引入将会改变传统产业链结构和商业模式，除了看好上游拥有较高技术壁垒和行业经验的高精度传感器厂商以外（各大厂加速投资收购激光雷达厂商），中游整车厂商随着整车硬件价值占比的降低而会加速布局自动驾驶（如收购自动驾驶软件系统开发厂商），而下游出行服务提供商将会对传统汽车销售造成极大冲击，且由于直接把控流量入口也将会有很好的商业前景。新技术对于产业链各个环节的冲击将会迫使传统厂商对新兴技术公司进行收并购以保证其在行业变革中始终处于最优领导地位；

IPO上市：而不管是传统汽车行业、互联网企业龙头还是IC巨头都已经开始加速布局自动驾驶出行行业，未来自动驾驶行业是否会出现一个新的独立龙头企业并实现上市我们对此保持谨慎态度，但不排除在某一细分领域具有极高市场份额和造血能力的企业可以进行独立上市。

总结

基于目前自动驾驶技术还不够完善、自动驾驶硬件设备高昂的价格成本，以及城市智能交通系统其它支撑产业，我们还需要等待相当长的时间才能够看到L4级乘用车商业化应用或者L5级自动驾驶技术的落地，这需要去克服诸多的困难，包括算法、数据、自动驾驶系统可靠度以及政策等多方面因素，金准人工智能专家预计5年内很难看到成熟的产品出现，但未来随着技术的进步以及相关政策、配套设施的成熟，大众也对自动驾驶能逐步接受，相信不久的未来，完全的无人驾驶车辆将会落地，而以国内厂商目前的布局来看，金准人工智能专家预测自动驾驶技术将会给相关行业和社会带来巨大的变革。

上一页 41 42 43 44 45 46 47 48 49 50 下一页

金准人工智能 知识图谱和深度学习协同发展研究报告（下）