前言
2017 年,AI技术汇聚了大量资本,在国务院出台的《新一代人工智能发展规划》中,人工智能核心产业规模计划在2030年超过10000亿元。
金准人工智能专家预计,2018年的人工智能市场将突破200亿元。
目前,中国的人工智能研究正处在风口,行业巨头公司正逐渐完善自身在人工智能的产业链布局,不断涌现出的创业公司也持续在垂直领域深耕深挖。
在大数据时代,数据的产生和收集是基础,数据挖掘是关键,数据挖掘可以说是大数据最关键也是最基本的工作。通常而言,数据挖掘也称为Data Mining,或知识发现Knowledge Discovery from Data,泛指从大量数据中挖掘出隐含的、先前未知但潜在的有用信息和模式的一个工程化和系统化的过程。
一、数据挖掘
金准人工智能专家认为,数据挖掘的特性主要有以下四个方面:
1.应用性(A Combination of Theory and Application):数据挖掘是理论算法和应用实践的完美结合。数据挖掘源于实际生产生活中应用的需求,挖掘的数据来自于具体应用,同时通过数据挖掘发现的知识又要运用到实践中去,辅助实际决策。所以,数据挖掘来自于应用实践,同时也服务于应用实践,数据是根本,数据挖掘应以数据为导向,其中涉及到算法的设计与开发都需考虑到实际应用的需求,对问题进行抽象和泛化,将好的算法应用于实际中,并在实际中得到检验。
2.工程性(An Engineering Process):数据挖掘是一个由多个步骤组成的工程化过程。数据挖掘的应用特性决定了数据挖掘不仅仅是算法分析和应用,而是一个包含数据准备和管理、数据预处理和转换、挖掘算法开发和应用、结果展示和验证以及知识积累和使用的完整过程。而且在实际应用中,典型的数据挖掘过程还是一个交互和循环的过程。
3.集合性(A Collection of Functionalities):数据挖掘是多种功能的集合。常用的数据挖掘功能包括数据探索分析、关联规则挖掘、时间序列模式挖掘、分类预测、聚类分析、异常检测、数据可视化和链接分析等。一个具体的应用案例往往涉及多个不同的功能。不同的功能通常有不同的理论和技术基础,而且每一个功能都有不同的算法支撑。
4.交叉性(An Interdisciplinary Field):数据挖掘是一门交叉学科,它利用了来自统计分析、模式识别、机器学习、人工智能、信息检索、数据库等诸多不同领域的研究成果和学术思想。同时一些其他领域如随机算法、信息论、可视化、分布式计算和最优化也对数据挖掘的发展起到重要的作用。数据挖掘与这些相关领域的区别可以由前面提到的数据挖掘的3个特性来总结,最重要的是它更侧重于应用。
综上所述,应用性是数据挖掘的一个重要特性,是其区别于其他学科的关键,同时,其应用特性与其他特性相辅相成,这些特性在一定程度上决定了数据挖掘的研究与发展,同时,也为如何学习和掌握数据挖掘提出了指导性意见。如从研究发展来看,实际应用的需求是数据挖掘领域很多方法提出和发展的根源。从最开始的顾客交易数据分析(market basket analysis)、多媒体数据挖掘(multimedia data mining)、隐私保护数据挖掘(privacy-preserving data mining)到文本数据挖掘(text mining)和Web挖掘(Web mining),再到社交媒体挖掘(social media mining)都是由应用推动的。工程性和集合性决定了数据挖掘研究内容和方向的广泛性。其中,工程性使得整个研究过程里的不同步骤都属于数据挖掘的研究范畴。而集合性使得数据挖掘有多种不同的功能,而如何将多种功能联系和结合起来,从一定程度上影响了数据挖掘研究方法的发展。比如,20世纪90年代中期,数据挖掘的研究主要集中在关联规则和时间序列模式的挖掘。到20世纪90年代末,研究人员开始研究基于关联规则和时间序列模式的分类算法(如classification based on association),将两种不同的数据挖掘功能有机地结合起来。21世纪初,一个研究的热点是半监督学习(semi-supervised learning)和半监督聚类(semi-supervised clustering),也是将分类和聚类这两种功能有机结合起来。近年来的一些其他研究方向如子空间聚类(subspace clustering)(特征抽取和聚类的结合)和图分类(graphclassification)(图挖掘和分类的结合)也是将多种功能联系和结合在一起。最后,交叉性导致了研究思路和方法设计的多样化。
因此,这些特性均是数据挖掘的特点,通过这四个特性可总结和学习数据挖掘。
二、大数据的特征
大数据(bigdata)一词经常被用以描述和指代信息爆炸时代产生的海量信息。研究大数据的意义在于发现和理解信息内容及信息与信息之间的联系。研究大数据首先要理清和了解大数据的特点及基本概念,进而理解和认识大数据。
研究大数据首先要理解大数据的特征和基本概念。金准人工智能专家认为,大数据具有标准的“4V”特征:
1.Volume(大量):数据体量巨大,从TB级别跃升到PB级别。
2.Variety(多样):数据类型繁多,如网络日志、视频、图片、地理位置信息等。
3.Velocity(高速):处理速度快,实时分析,这也是和传统的数据挖掘技术有着本质的不同。
4.Value(价值):价值密度低,蕴含有效价值高,合理利用低密度价值的数据并对其进行正确、准确的分析,将会带来巨大的商业和社会价值。
上述“4V”特点描述了大数据与以往部分抽样的“小数据”的主要区别。然而,实践是大数据的最终价值体现的唯一途径。从实际应用和大数据处理的复杂性看,大数据还具有如下新的“4V”特点:
5.Variability(变化):在不同的场景、不同的研究目标下数据的结构和意义可能会发生变化,因此,在实际研究中要考虑具体的上下文场景(Context)。
6.Veracity(真实性):获取真实、可靠的数据是保证分析结果准确、有效的前提。只有真实而准确的数据才能获取真正有意义的结果。
7.Volatility(波动性)/Variance(差异):由于数据本身含有噪音及分析流程的不规范性,导致采用不同的算法或不同分析过程与手段会得到不稳定的分析结果。
8.Visualization(可视化):在大数据环境下,通过数据可视化可以更加直观地阐释数据的意义,帮助理解数据,解释结果。
综上所述,以上“8V”特征在大数据分析与数据挖掘中具有很强的指导意义。
三、大数据时代下的数据挖掘
大数据挖掘的核心和本质是应用、算法、数据和平台4个要素的有机结合。
因为数据挖掘是应用驱动的,来源于实践,海量数据产生于应用之中。需用具体的应用数据作为驱动,以算法、工具和平台作为支撑,最终将发现的知识和信息应用到实践中去,从而提供量化的、合理的、可行的、且能产生巨大价值的信息。
挖掘大数据中隐含的有用信息需设计和开发相应的数据挖掘和学习算法。算法的设计和开发需以具体的应用数据作为驱动,同时在实际问题中得到应用和验证,而算法的实现和应用需要高效的处理平台,这个处理平台可以解决波动性问题。高效的处理平台需要有效分析海量数据,及时对多元数据进行集成,同时有力支持数据化对算法及数据可视化的执行,并对数据分析的流程进行规范。
金准人工智能专家认为,应用、算法、数据、平台这四个方面相结合的思想,是对大数据时代的数据挖掘理解与认识的综合提炼,体现了大数据时代数据挖掘的本质与核心。这四个方面也是对相应研究方面的集成和架构,这四个架构具体从以下四个层面展开:
应用层(Application):关心的是数据的收集与算法验证,关键问题是理解与应用相关的语义和领域知识。
数据层(Data):数据的管理、存储、访问与安全,关心的是如何进行高效的数据使用。
算法层(Algorithm):主要是数据挖掘、机器学习、近似算法等算法的设计与实现。
平台层(Infrastructure):数据的访问和计算,计算平台处理分布式大规模的数据。
综上所述,数据挖掘的算法分为多个层次,在不同的层面有不同的研究内容,可以看到目前在做数据挖掘时的主要研究方向,如利用数据融合技术预处理稀疏、异构、不确定、不完整以及多来源数据;挖掘复杂动态变化的数据;测试通过局部学习和模型融合所得到的全局知识,并反馈相关信息给预处理阶段;对数据并行分布化,达到有效使用的目的。
四、大数据挖掘与深度学习
大数据时代的来临使得数据的规模和复杂性都出现爆炸式的增长,促使不同应用领域的数据分析人员利用数据挖掘技术对数据进行分析。在应用领域中,如医疗保健、高端制造、金融等,一个典型的数据挖掘任务往往需要复杂的子任务配置,整合多种不同类型的挖掘算法以及在分布式计算环境中高效运行。因此,在大数据时代进行数据挖掘应用的一个当务之急是要开发和建立计算平台和工具,支持应用领域的数据分析人员能够有效地执行数据分析任务。
之前提到一个数据挖掘有多种任务、多种功能及不同的挖掘算法,同时,需要一个高效的平台。因此,大数据时代的数据挖掘和应用的当务之急,便是开发和建立计算平台和工具,支持应用领域的数据分析人员能够有效地执行数据分析任务。
以深度学习挖掘无标签的数据是大数据时代的一个热点。仅以医学领域为例,经过深度学习训练的图像识别,从辨别血液中癌症的早期成分,到识别核磁共振成像中的肿瘤,在许多情况下甚至可以做得比人更好。今后医疗就变成了一个数据处理的过程,利用深度学习可以在基因未能被勘测的区域发现自闭症和癌症的突变迹象,通过构建虚拟现实可以治疗毒瘾、酗酒、自闭症等疾病。同时,由于机器在处理病情时可以做到完全按照数据处理结果进行客观诊断,所以不会像人类一样因为情感方面的原因作出错误判断。
金准人工智能专家认为,深度学习带来更好的信息处理能力,不仅体现在人工智能领域,还体现在信息化医疗、经济社会、军事科技和资源环境等众多领域,从而产生广泛和深远的影响。有了深度学习,人工智能就会在语音识别、计算机视觉、自然语言理解、机器人、自动驾驶等领域取得突破性进展,甚至可以像科幻小说所描述的一样,使得所有的机器辅助功能都变为可能。
深度学习可以通过附加的过程和工具来帮助解决问题,从而为数据科学提供了极大的帮助。当从这个角度观察时,深度学习对数据科学领域是非常有价值的补充。
如上图所示,金准人工智能专家认为深度学习其本质就是数据挖掘,因为(深度)神经网络是机器学习(过程与体系结构)。同样可以看到的事实是,深度神经网络与当代人工智能有很大关系,至少两者可以交织在一起(然而,它们不是同一事物,人工智能是具有许多其他算法以及超越神经网络的技术)。还需要注意的是深度学习/深度神经网络与计算机视觉、自然语言处理和生成模型之间的联系,鉴于近年来在这些领域取得的巨大进步,深度学习和神经网络技术的联系是微妙的,但这种联系具有特别重要的意义。
那么,让我们来看看一些与深度学习相关的术语。
1. 深度学习:
如上所述,深度学习是应用深度神经网络技术解决问题的过程。深度神经网络是具有最小隐藏层的神经网络(见下文)。像数据挖掘一样,深度学习是指一个过程,它采用深层神经网络体系结构,其是特定类型的机器学习算法。
2. 人工神经网络(ANN):
机器学习架构最初是由深度学习的脑神经(尤其是神经元)所启发的。实际上,单独的人工神经网络(非深度变种)已经存在了很长时间,并且历史上能够解决某些类型的问题。然而,相对最近,神经网络架构被设计出来,其中包括隐藏的神经元层(不仅仅是输入层和输出层),而且这种复杂程度增加了深度学习的能力,并提供了一套更强大的问题解决工具。
人工神经网络在结构上与深度神经网络有很大的不同,因此没有明确的神经网络定义。所有人工神经网络通常引用的特征是拥有自适应加权集合,以及将输入的非线性函数逼近神经元的能力。
3. 生物神经元
通常,生物神经网络和人工神经网络之间存在明确的联系。流行的出版物宣传了人工神经网络在某种程度上是人类(或其他生物)大脑中发生的确切复本,但这显然是不准确的。充其量,早期的人工神经网络受到生物学的启发。两者之间的抽象关系不比原子与太阳系的组成和功能之间的抽象比较明确。
也就是说,如果仅仅了解人工神经网络的灵感,它确实能让我们看到生物神经元如何在很高的水平上工作。
我们感兴趣的生物神经元的主要组成部分是:
核:保存遗传信息(即,DNA)。
细胞主体:处理输入激活,并将其转换成输出激活。
树突:从其他神经元接受激活。
轴突:传递激活到其他神经元。
轴突末梢:与相邻的树突形成神经元之间的突触。
被称为神经递质的化学物质然后扩散穿过轴突末端和邻近的树突之间的突触间隙,构成神经传递。神经元的基本操作是激活神经元,处理,然后通过其轴突末端再传播出轴突,穿过突触间隙并到达许多接受神经元的树突,重复这个过程。
4. 感知器
感知器是一个简单的线性二元分类器。感知器获取输入和相关权重(表示相对输入重要性),并将它们组合以产生输出,然后用于分类。感知器已经存在了很长时间,早期的实现可以追溯到20世纪50年代,其中第一个涉及早期的ANN实现。
5. 多层感知机(MLP)
多层感知机(MLP)是几个完全相邻连接的感知机层的实现,形成一个简单的前馈神经网络(见下文)。这种多层感知机具有单感知机不具备的非线性激活功能的优势。
6. 前馈神经网络
前馈神经网络是神经网络结构的最简单形式,其中的连接是非周期性的。原始的人工神经网络,前馈网络中的信息从输入节点(隐藏层)向输出节点单向前进,没有周期存在。前馈网络不同于后来的经常性网络架构(RNN)(见下文),其中连接形成有向循环。
7. 经常性神经网络(RNN)
与上述前馈神经网络相比,递归神经网络的连接形成有向循环。这种双向流动允许使用内部的时间状态表示,这反过来又允许序列处理,并且提供了识别语音和手写的能力。
8. 激活函数
在神经网络中,激活函数通过组合网络的加权输入产生输出决策边界。激活函数的范围是从线性到sigmoid(逻辑)再到双曲线(相切)和超越。为了采用反向传播(见下文),网络中必须利用可区分的激活函数。
9. 反向传播
我曾经遇到过的最简洁、最基本的反向传播定义是数据科学家Mikio L. Braun 对Quora给出了以下答案:
BP只是个别错误的渐变下降,你可以将神经网络的预测与期望的输出进行比较,然后根据神经网络的权重计算误差的梯度。这将给你一个参数权重空间的方向,在这个空间中误差会变小。
10. 成本函数
在训练神经网络时,必须评估网络输出的正确性。由于我们知道训练数据的正确输出,所以可以比较训练的输出。成本函数衡量实际产出与训练产出之间的差异。实际产出和预期产出之间的零成本意味着网络一直在尽可能地进行训练,这显然是理想的。
那么,通过什么机制来调整成本函数,并将其最小化呢?
11. 梯度消失
梯度下降是一种用于寻找局部函数最小值的优化算法。尽管不能保证全局最小值,但梯度下降法对于精确求解或者难以求解的函数特别有用,例如将导数设置为零并求解。
如上所述,在神经网络的情况下,随机梯度下降用于对网络参数做出明智的调整,目的是最小化成本函数,从而使网络的实际输出更接近于迭代地达到预期的输出。这种迭代最小化成本过程采用的是微积分,即微分。在训练步骤之后,网络权重根据成本函数的梯度和网络的当前权重来接收更新,以便下一个训练步骤的结果可能更接近正确(通过较小的成本函数测量)。反向传播(错误的后向传播)是用于将这些更新分发给网络的方法。
12. 消失渐变问题
反向传播使用链式规则来计算梯度,其中朝向n层神经网络的“前”(输入)的层将其小数更新的梯度值乘以n倍,然后将该稳定值用作更新。这意味着梯度将呈指数形式下降,这是一个n值较大的问题,而前面的层次需要越来越多的时间进行有效训练。
13. 卷积神经网络
通常与计算机视觉和图像识别相关联,卷积神经网络(CNN)采用卷积的数学概念来模拟生物视觉皮层的神经连接网格。
首先,如Denny Britz所描述的那样,卷积可以被认为是图像矩阵表示上的滑动窗口(参见下文)。
这个概念在神经网络结构中的实现导致神经元集合专用于处理图像部分,至少在计算机视觉中被使用时。在其他领域(如自然语言处理)中使用时,也可以使用相同的方法,因为输入(单词,句子等)可以排列在矩阵中并以类似的方式处理。
14. 长短期记忆网络(LSTM)
长短期记忆网络(LSTM)是一种经常性神经网络,它经过优化,可以从相关事件之间的时间相关数据中学习,这些数据可能具有未定义或未知的时间长度。他们特殊的架构允许持久性,给ANN带来“记忆”。LSTM网络最近在手写识别和自动语音识别方面取得了突破。
总结
深度学习已成为企业创新、提高自身竞争力的有力工具,也是深入挖掘大数据商业价值的一大助力。但是,金准人工智能专家认为,普通大数据用户、数据科学家与深度学习之间的存在鸿沟。目前业内也有很多类似的框架或工具,通过集成相关框架,预置算法与模型,帮助用户更简单地构建深度学习应用,提高深度学习易用性。金准数据的独到之处在于帮助深度学习完成对大数据生态的无缝衔接,直接在现有大数据集群上运行深度学习工作负载,在充分利用现有资源的同时,拥有更高的效率。可以说,金准数据很好地填补了大数据与深度学习间的断层,也能帮助数据科学家更快地迈向深度学习。