蓝海商信 - 蓝海硅谷-金地毯

4.3应用尝试和问题分析

APCNNs模型在辅助知识图谱数据构建中目前还处于尝试阶段。就运算能力而言，APCNNs模型相比DeepDive系统更有优势，能在大规模语料上同时针对多个关系进行计算，且迭代更新过程无需人工校验交互。但在业务落地过程中，我们也遇到了一些问题，总结如下：

1) 大规模实验耗时过长，给参数的调整和每一次算法策略上的迭代增加了难度。

2) 目前学术界通用的测试语料是英文的NYT数据集，相同的模型应用于中文语料时，存在准召率对标困难的问题。

3) 深度学习的过程人工难以干预。假设我们要预测（杨幂，刘恺威）的婚姻关系，但从最初的基于大规模语料的词向量生成开始，如果该语料中（杨幂，刘恺威）共现时的主导关系就不是婚姻关系，而是影视剧中的合作关系（如“该片讲述杨幂饰演的夏晚晴在遭遇好友算计、男友婚变的窘境下，被刘恺威饰演的花花公子乔津帆解救，但却由此陷入更大圈套的故事。”），或基于某些活动的共同出席关系（如“杨幂与刘恺威共同担任了新浪厦门爱心图书馆的公益大使”），则在attention步骤中得到的关系向量就会偏向合作关系，这将导致计算包中每个句子的权值时，表达婚姻关系的句子难以获得高分，从而导致后续学习中的偏差。

4) 深度学习模型的结果较难进行人工评测，尤其对于知识图谱中没有出现的实体对，需要在大规模的中间过程矩阵中进行匹配和提取，将权重矩阵可视化为包中每个句子的得分，对计算资源和人工都有不小的消耗。

五、总结与展望

基于DeepDive的方法和基于深度学习的方法各有优势和缺陷，以下从4个方面对这两种方法进行总结和对比：

1) 语料的选取和范围

Deepdive可适用于较小型、比较专门的语料，例如历史人物的关系挖掘；可以针对语料和抽取关系的特点进行调整规则，如婚姻关系的一对一或一对多，如偏文言文的语料的用语习惯等。

APCNNs模型适用于大规模语料，因为attention机制能正常运行的前提是word2vec学习到的实体向量比较丰富全面。

2) 关系抽取

Deepdive仅适用于单一关系的判断，分类结果为实体对间某一关系成立的期望值。针对不同的关系，可以运营不同的规则，通过基于规则的标注能较好地提升训练集的标注准确率。

APCNNs模型适用于多分类问题，分类结果为relation集合中的关系得分排序。无需针对relation集合中特定的某个关系做规则运营。

3) 长尾数据

Deepdive更适用于长尾数据的关系挖掘，只要是NER能识别出的实体对，即使出现频率很低，也能根据该实体对的上下文特征做出判断。

APCNNs模型需要保证实体在语料中出现的次数高于一定的阈值，如min_count>=5，才能保证该实体有word2vec的向量表示。bag中有一定数量的sentence，便于选取相似度高的用于训练

4) 结果生成与检测

Deepdive对输出结果正误的判断仅针对单个句子，同样的实体对出现在不同的句子中可能给出完全不同的预测结果。测试需要结合原句判断结果是否准确，好处是有原句作为依据，方便进行人工验证。

APCNNs模型针对特定的实体对做判断，对于给定的实体对，系统给出一致的输出结果。对于新数据的结果正确性判断，需要结合中间结果，对包中被选取的句子集合进行提取和验证，增加了人工检验有的难度。

在未来的工作中，对于基于DeepDive的方法，我们在扩大抓取关系数目的同时，考虑将业务实践中沉淀的改进算法流程化、平台化，同时构建辅助的信息增补工具，帮助减轻DeepDive生成结果写入知识图谱过程中的人工检验工作，例如，对于婚姻关系的实体对，我们可以从图谱获取人物的性别、出生年月等信息，来辅助关系的正误判断。

对于基于深度学习的方法，我们将投入更多的时间和精力，尝试从以下几方面促进业务的落地和模型的改进：

1) 将已被DeepDive证明有效的某些改进算法应用到深度学习方法中，例如根据关系相关的关键词进行过滤，缩小数据规模，提高运行效率。

2) 将计算中间结果可视化，分析attention过程中关系向量与sentence选取的关联，尝试建立选取结果好坏的评判机制，尝试利用更丰富的信息获得更准确的关系向量。

3) 考虑如何突破预先设定的关系集合的限制，面向开放领域进行关系抽取，自动发现新的关系和知识。

4) 探索除了文本以外其它形式数据的关系抽取，如表格、音频、图像等。

金准人工智能专家认为，随着深度学习研究的进一步深入，如何有效利用大量存在的先验知识，进而降低模型对于大规模标注样本的依赖，逐渐成为主流的研究方向之一。知识图谱的表示学习为这一方向的探索奠定了必要的基础。近期出现的将知识融合进深度神经网络模型的一些开创性工作也颇具启发性。但总体而言，当前的深度学习模型使用先验知识的手段仍然十分有限，学术界在这一方向的探索上仍然面临巨大的挑战。这些挑战主要体现在两个方面:

如何获取各类知识的高质量连续化表示。当前知识图谱的表示学习，不管是基于怎样的学习原则，都不可避免地产生语义损失。符号化的知识一旦向量化后，大量的语义信息被丢弃，只能表达十分模糊的语义相似关系。如何为知识图谱习得高质量的连续化表示仍然是个开放问题。

如何在深度学习模型中融合常识知识。大量的实际任务（诸如对话、问答、阅读理解等等）需要机器理解常识。常识知识的稀缺严重阻碍了通用人工智能的发展。如何将常识引入到深度学习模型将是未来人工智能研究领域的重大挑战，同时也是重大机遇。

金准人工智能知识图谱和深度学习协同发展研究报告（下）

4.3应用尝试和问题分析

五、总结与展望

相关话题

其他分类

金准人工智能 知识图谱和深度学习协同发展研究报告（下）

4.3应用尝试和问题分析

五、总结与展望

相关话题

其他分类

金准人工智能知识图谱和深度学习协同发展研究报告（下）