一、 知识工程概论
知识工程是一门新兴的工程技术学科。它是社会科学与自然科学的相互交叉和科学技术与工程技术的相互渗透的产物。知识工程是运用现代科学技术手段高效率、大容量的获得知识、信息的技术。目的是为了最大限度地提高人的才智和创造力,掌握知识和技能,提高人们借助现代化工具利用信息的能力,为智力开发服务,作为一种工程技术的“知识工程”,其主要对象是研究如何组成由电子计算机和现代通讯技术结合而成的新的通讯、教育、控制系统。因此,这项“工程”对于发展社会的经济、科技和文化教育事业,加速社会信息化的进程具有重要意义。目前,“知识工程”的研究中心主要是“智能软件服务”,即研究编制程序,提供软件。由于电脑工业等高级技术的发展,有力地促进了“智能软件”的发展,使其不仅数量越来越多,而且在质的方面也越来越鲜明地具有“智力服务性行业”的特点。人们已清楚地认识到,电子计算机只有与智能软件有机结合,才能模拟人脑的功能,也才有可能出现智能机,但再好的计算机如果不配上相应的软件程序,只是一堆无用的废料。要编制一套让电子计算机和智能机器人听得懂的“语言”,即编制好软件程序,需要相当的知识基础。它不仅需要有较高的数学知识和计算能力,而且还要掌握其它科学知识,尤其是数理逻辑和辩证逻辑,同时,还要有创造性思维,掌握科学的思维方法和自然科学方法。所以,关于“知识工程”的研究,必须有专业人员的队伍。在发达国家都十分重视培养软件设计人员,并不断地增加这方面的投资。我国这方面的人才短缺,只有加快培养人才,才能真正提高我国的智力水平,加快科学技术现代化的步伐。“知识工程”的产生,把人类所专有的文化、科学、知识、思想等同现代机器联系起来,形成了人——机系统。它不仅为电子计算机的进一步智能化提供了条件,而且还必将对社会生产力的发展提供最有力的现代化工具。随着“知认工程”的发展,人们的思维方式以及整个社会生活方式都将发生深刻的变化。
二、 知识工程发展历程
1、20世纪50年代—70年代初 知识工程诞生之前的早期人工智能
回顾历史总能帮助我们更好的理解未来。把时间的车轮回滚到1956年8月,在美国汉诺斯小镇宁静的达特茅斯学院中,几位心理学家、数学家、计算机科学家、信息论学家聚在一起,举办了一次长达2个月的研讨会,认真而热烈地讨论了用机器模拟人类智能的问题。他们为会议的内容起了一个响亮的名字:人工智能(artificial intelligence)。人工智能学科自此诞生。
达特茅斯会议之后,参会者们相继取得了一批令人瞩目的研究成果。具有代表性的成果为:A.Newell、J.Shaw和H.Simon等人编制出逻辑机LT,它证明了38条数学定理;1960年又定义了GPS的逻辑推理架构,并且提出启发式搜索的思路;1956年, Samuel研制了一个跳棋程序,该程序具有自学习功能,可以从比赛中不断总结经验提高棋艺。还有很多令人激动的成就,这掀起人工智能发展的第一个高潮。
其中,以Newell和 Simon为代表人物的符号主义学派,最先取得丰硕成果,最著名的代表为逻辑机LT。
符号主义最核心的思想是什么呢?符号主义认为人工智能源于数理逻辑,认为智能的本质就是符号的操作和运算。符号主义在后来几大门派的较量中,曾长期一支独秀,为人工智能的发展作出重要贡献。当然,也为后来红火一时的知识工程奠定了基业。
再把时间的焦点挪到20世纪60年代—70年代初,学界还在为人工智能发展初期取得的胜利高兴不已的时候,不切实际的研发目标带来接二连三的项目失败、期望落空。过高的期望总是带来更具破坏性的失望,终于,人工智能迎来第一次寒冷的冬天。
2、 1977 知识工程诞生
在人工智能领域经历挫折之后,研究者们不得不冷静下来,重新审视、思考未来的道路。这时候,西蒙的学生,爱德华·费根鲍姆(Edward A. Feigenbaum)站了出来。他分析传统的人工智能忽略了具体的知识,人工智能必须引进知识。
在费根鲍姆的带领下,专家系统诞生了。专家系统作为早期人工智能的重要分支,是一种在特定领域内具有专家水平解决问题能力的程序系统。
专家系统一般由两部分组成:知识库与推理引擎。它根据一个或者多个专家提供的知识和经验,通过模拟专家的思维过程,进行主动推理和判断,解决问题。第一个成功的专家系统DENDRAL于1968年问世。1977年,费根鲍姆将其正式命名为知识工程。
把知识融合在机器中,让机器能够利用我们人类知识、专家知识解决问题,这就是知识工程要做的事。
3、 20世纪70年代—90年代 知识工程蓬勃发展
1977年知识工程诞生之后,这个领域还在不断往前发展,不断产生新的逻辑语言和方法。这其中有一节点比较重要。
上节已经提到专家系统的是如何形成的,而专家系统究竟发展的如何呢?知识工程又是否能产业落地?美国 DEC 公司的专家配置系统 XCON给出了初步的答案,当客户订购 DEC 公司的 VAX 系列计算机时,专家配置系统 XCON 可以按照需求自动配置零部件。在投入使用的6年间,共处理八万个订单,节省了资金。
至此,人工智能逐步开始了商业应用。
比较著名的专家系统还有cyc,由Douglas Lenat在1984年设立,旨在收集生活中常识知识的本体知识库。Cyc不仅包含知识,还提供很多的推理引擎,共涉及50万条概念和500万条知识。除此之外,还有普林斯顿大学心理学教授维护的WordNet的英语字典。类似的,汉语中的《同义词词林》及其扩展版、知网(HowNet)等词典。不幸的是,随着日本五代机的幻灭,专家系统在经历了十年的黄金期后,终因无法克服人工构建成本太高,知识获取困难等弊端,逐渐没落。
4、 1998 万维网与连接数据
万维网的出现,为知识的获取提供了极大的方便。1998年,万维网之父蒂姆·伯纳斯·李再次提出语义网。它的核心是:语义网可以直接向机器提供能用于程序处理的知识。通过将万维网上的文档转化为计算机所能理解的语义,使互联网成为信息交换媒介。但是,语义网是一个比较宏观的设想,需要“自顶向下”的设计,很难落地。
语义分析与知识网络
由于自顶向下的设计落地困难,学者们将目光转移到数据本身上来,提出了连接数据的概念。连接数据希望数据不仅仅发布于语义网中,更需要建立起自身数据之间的链接从而形成一张巨大的链接数据网。其中, DBpedia项目是目前已知的第一个大规模开放域链接数据。类似的还有Wikipedia、Yago等都属于这一类结构化知识的知识库。
5、 2012 知识图谱 知识工程新发展时期
与维基百科的同时存在的还有个 Freebase。维基百科的受众是人,而 Freebase 则强调机器可读。Freebase 有 4000 万个实体表示,在被收购后,谷歌给它起了个响亮的名字“知识图谱”。
三、 知识工程的未来展望
在上世纪七八十年代,传统的知识工程的确解决了很多的问题,但是这些问题都有一个很鲜明的特点,它们大部分都是在规则明确、边界清晰、应用封闭的场景取得的成功。一旦涉及到开放的问题就基本不太可能实现,比如数学定理的证明,或是下棋。
传统知识工程为什么会有这么苛刻的条件呢?因为传统知识工程是一种典型的自上而下的做法,是一种严重依赖专家干预的做法。知识工程的基本目标,就是把专家的知识赋予机器,希望机器能够利用专家知识来解决问题。传统的知识工程里,首先需要有领域专家,专家能够把自己的知识表达出来;进一步,还需要有知识工程师把专家表达这个知识变成计算机能够处理的形式。
如此依赖专家去表达知识、获取知识、运用知识,就会存在很多问题,一方面,这个机器背后的知识库规模很有限,另外一方面,它的质量也会存在很多的疑问,这就是为什么我们说传统的知识工程困难重重。
除了上面介绍的一些问题,传统的知识工程面临着的两个主要困难:
第一:知识获取困难
隐性知识、过程知识等难以表达。比如如何表达老中医看病用了哪些知识;不同专家可能存在主观性,例如,我国有明确治疗规范的疾病占比非常小,大部分依赖医生的主观性。
第二:知识应用困难
很多的应用,尤其是很多开放性的应用很容易超出预先设定的知识边界;还有很多应用需要常识的支撑,而整个人工智能最怕的恰恰就是常识。为什么?因为常识它难以定义、难以表达、难以表征;知识更新困难,太依赖领域专家,还有很多异常或难以处理的情况。
互联网应用催生大数据时代知识工程
由于上节所述种种原因,知识工程到了上世纪八十年代之后就销声匿迹了。
虽然知识工程解决问题的思路极具前瞻性,但传统知识表示的规模有限,难以适应互联网时代大规模开放应用的需求。为了应对这些问题,学界和业界的知识工程研究者们试图寻找新的解决方案。
首先取得重大突破的,是谷歌。谷歌搜索是谷歌公司的核心产品服务,这类互联网的应用,主要有以下特点:
大规模开放性应用,永远不知道用户下一次搜索关键词是什么;
精度要求不高;大部分搜索理解与回答只需要实现简单的推理,复杂推理为极少数。
在这样的诉求下,谷歌推出了自己的知识图谱,使用与语义检索,从多种来收集信息,以提高搜索质量。而知识图谱的推出,基本上宣告了知识工程进入了一个新的时代,我们称之为大数据时代的知识工程阶段。谷歌利用一个全新名称表达与传统知识表示其毅然决裂的态度。
大数据时代下知识图谱的出现,有其必然性,大数据时代给知识图谱技术的发展奠定了丰富的土壤。或许你会问,知识图谱和传统的语义网络有什么本质不同么?大数据时代能给我们带来什么特别的有利条件?前沿进展的回答是——大数据技术使得大规模获取知识成为可能,而知识图谱即为一种大规模语义网络。这样的一个知识规模上的量变带来了知识效用的质变。
我们有海量的数据、强大计算能力、群智计算以及层出不穷的模型。在这些的外力的支持下,解决了传统知识工程的一个瓶颈性问题——知识获取。我们可以利用算法实现数据驱动的大规模自动化知识获取。
与传统知识获取不同,以前是通过专家自上而下的获取知识,而现在是利用数据自下而上,从数据里面去挖掘知识、抽取知识。另外,众包与群智成为大规模知识获取的一条新路径。高质量的UGC内容,为自动挖掘知识提供了高质量数据源。
总的来说,知识工程在知识图谱技术引领下进入了全新阶段,叫做大数据时代知识工程阶段。我们正在经历感知智能到认知智能的过渡阶段,未来最重要到技术即是实现认知智能。
大数据时代下,知识图谱又有什么独特的魅力?为什么会受到如此广泛的关注呢?
知识图谱使机器语言认知成为可能。机器想要认知语言、理解语言,需要背景知识的支持。而知识图谱富含大量的实体及概念间的关系,可以作为背景知识来支撑机器理解自然语言。
知识图谱使可解释人工智能成为可能。在人工智能发展的任何阶段,我们都需要事物的可解释性,现在的深度学习也常因为缺少可解释性受人诟病。而知识图谱中包含的概念、属性、关系是天然可拿来做解释的。
通过知识图谱等先验的知识去赋能机器学习,来降低机器学习对于样本的依赖,增强机器学习的能力。
知识将显著增强机器学习能力。传统的机器学习都是通过大量的样本习得知识,在大数据红利渐渐消失的情况下,逐渐遇到发展瓶颈。而通过知识图谱等先验的知识去赋能机器学习,来降低机器学习对于样本的依赖,增强机器学习的能力,或许是连接主义和符号主义在新时代下的共生发展。
除了上述的种种优势,知识图谱在一系列实际应用上也非常有用,比如搜索、精准推荐、风险识别、深化行业数据的理解与洞察等,将在各种各样的应用场景发挥作用。
信息技术革命持续进行,数据将会继续向更大规模、更多连接的方向发展,在此背景下,知识图谱将引领知识工程走上复兴的道路,推动在机器身上实现认知智能。