文章列表 - 蓝海商信 - 蓝海硅谷-金地毯

您现在的位置：首页>>文章列表

全部

文章列表

金准数据神经网络与深度学习研究报告（下）

五、改进神经网络学习方法

理想地，期望我们的神经网络能从自己的错误中快速地进行学习。

神经元通过改变权重和偏差的来进行学习的学习速度由成本函数的偏导数(和)决定，所以学习速度慢的根本原因是：偏导数太小。

1、交叉熵成本函数

交叉熵成本函数定义如下：

对权重w的求导结果为（n为训练样本数）：

根据上面的求导公式，则避免了在二次成本函数中由导致的学习速度慢问题。

2、推广交叉成本函数

把交叉成本函数推广到具有多个神经元的多层网络中，则交叉成本函数变为：

与二次成本函数相比，唯一不同的是的计算方法，其它计算方法完全相同。

3、交叉熵的含义

粗略地说，交叉熵是“不确定性”的一种度量。特别地，我们的神经元想要计算函数x-> y = y(x)。但是，它用函数x->a = a(x) 进行了替换。假设我们将a 想象成我们神经元估计为y = 1 的概率，而1-a 则是y = 0 的概率。那么交叉熵衡量我们学习到y的正确值的平均起来的不确定性。如果输出我们期望的结果，不确定性就会小一些；反之，不确定性就大一些。

4、Softmax(柔性最大值)

Softmax+log-likelihood(对数似然)成本函数：在现代图像分类网络中最常用。

Softmax为神经网络定义了一个新的输出层，即它的激活函数不再是Sigmoid，而是Softmax函数。

Softmax的每个神经元的输出都为正，且它们的和为1。所以Softmax层的输出可以看作一个概率分布。

与Softmax相比，Sigmoid层的输出不能形成一个概率分布，且没有一个直观、简单的解释。

Softmax如何解决学习速度慢的问题？

从以上梯度公式中可知，对于解决学习速度慢的问题：【Softmax输出层+对数似然成本函数】与【Sigmoid输出层+交叉熵成本函数】效果相当。

在二者间如何做出选择呢？

当你需要把输出当做概率解释时，则需要使用【Softmax输出层+对数似然成本函数】。

六、过拟合和规范化

1、过拟合(Overfitting)

在神经网络中，过拟合(Overfitting)是一个主要问题。此问题在现代网络中特别突出，因为现代网络有大量的权重和偏差。为了进行有效的训练，我们需要一个检测是否过拟合的方法，以防止过度训练(Overtraining)，并且我们还需要可以减少过拟合效果的技术。

最直接的检测过拟合的方法是：跟踪测试数据在训练过的网络中的准确性。如测试数据分类的准确性不再改善，我们应当停止训练；或测试数据分类的准确性和训练数据分类的准确性都不再改善，我们应当停止训练。

如果对训练样本过拟合，则其推广能力就差，导致对新的数据的预测或分类的准确性变差。

2、 规范化(Regularization)-减少过拟合

增加训练数据是减少过拟合的方法之一。

规范化(Regularization)也是减少过拟合的方法之一。有时候被称为权重衰减（weight decay）或者L2 规范化。L2 规范化的思想是增加一个额外的项到成本函数中，这个项叫做规范化项。规范化的交叉熵如下：

C0是原来常规的成本函数。如果较小，我们期望最小化原始成本函数；如果较大，我们期望最小化权重。

则可得：

可进一步得到：

3、为什么规范化可以减少过拟合

权重越小，复杂度就越低；可以为数据提供更简洁更有力的解释。

当有异常输入时，小的权重意味着网络输出变化不大，即不易学习到数据中的局部噪声。总而言之，规范化网络基于训练数据的主要规律，从而创建一个相对简单的模型，并且拒绝学习训练数据中的噪声（异常数据）。这样强制网络学习数据的本质规律，并把学到的规律进行更好地推广。

七、权重初始化

可加快学习速度。

假设输入层有1000个神经元，且已经使用归一化的高斯分布初始化了连接第个隐层的权重。如下图所示：

为了简化，设输入层一半神经元值为1，另一半为0。让我们考虑隐层神经元输入的带权和z：

其中500项消去了，因为对应的输xj 为0。所以z 是包含501个归一化的高斯随机变量的和，包含500个权重项和1个偏差项。因此z本身是一个均值为0、标准差为(方差为501)的高斯分布。它是一个非常宽的高斯分布，根本不是非常尖的形状：

注：若随机变量X服从一个数学期望为μ、方差为σ^2的高斯分布，记为N(μ，σ^2)。

正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。

标准正态分布服从N(0,1)

两个都服从正太分布的变量,例如X服从N(a,b)，Y服从N(c,d)，且X和Y相互独立，则有：

· X+Y服从N(a+c,b+d)

· X-Y服从N(a-c,b+d)

即两变量相加减时，期望相应加减，方差始终是相加。

从上图上可以看出|z|会变得很大，即z>>1或z<<-1。如果这样，隐层神经元的输出就会接近1或者0，即隐层神经元进入饱和状态了。即隐层神经元的输出将非常接近于0或1。在这种情况下，权重的修改对隐层神经元的输出激活值影响很小，从而对下一层的隐层神经元、直到对输出层的神经元的输出都很小，从而导致学习速度慢的问题。

(注：输出层神经元饱和于错误值也会导致学习速度慢的问题，这可以通过选择成本函数<如交叉熵>来避免，但选择成本函数的方法不能解决隐层神经元饱和的问题)

从以上分析可知，如果隐层神经元的权重服从N(0,1)分布，它将导致隐层神经元的激活值接近于0或1，并且导致学习速度下降，如何解决此问题呢？

通过选择更好的初始化权重和偏差可以解决此问题。

答案是：初始化权重服从N(0，1/)分布，偏差服从N(0,1)。其中表示此层神经元输入权重个数（即此隐层神经元的输入神经元个数，如上例中=1000）。权重之后为：，其服从N(0,3/2)。

方差的计算方法：500*1/1000+1=1500/1000=3/2。其图形非尖，如下图所示：

此神经元饱和的可能性很低，从而导致学习速度慢的可能性也很低。

八、神经网络可以计算任何函数

“神经网络可以计算任何函数”的真正含义：

· 不是说一个网络可以被用来准确地计算任何函数，而是我们可以获得尽可能好的一个近似。通过增加隐层神经元的数量，可以提升近似的精度。

· 可以按照上面的方式近似的函数类其实是连续函数。如果函数不是连续的，也就是会有突然、极陡的跳跃，那么一般来说无法使用一个神经网络进行近似。

总而言之：包含一个隐层的神经网络可以被用来按照任意给定的精度近似任何连续函数。

九、问题剖析

1、为什么训练深度神经网络比较困难？

对于学习算法，前面使用的是苦力般的学习方法（基于反向传播的随机梯度下降）来训练深度网络，这样产生的问题是：深度神经网络并不比浅层网络性能好太多。

其根据原因是：在深度网络中，不同层的学习速度差异很大。尤其是，在网络后面层的学习速度很好的时候，前面层在训练时停滞不变，基本上学不到东西；或先前的层学习的比较好，但是后面层却停滞不变。其停滞不前的原因是学习速度下降了，学习速度下降与基于梯度的学习方法有关。

实际上，我们发现在深度神经网络中使用基于梯度下降的学习方法本身存在着内在不稳定性。这种不稳定性使得前面或者后面层的学习速度受到抑制。在真正理解了这些难点之后，我们就能够获得有效训练深度网络的更深洞察力。

在某些深度神经网络中，在我们在隐层BP的时候梯度倾向于变小。这意味着在前面的隐层中的神经元学习速度要慢于后面的隐层。在多数的神经网络中都存在着这个现象，这个现象也被称作是：消失的梯度问题（Vanishing Gradient Problem）。

在前面层中的梯度会变得非常大，这叫做：激增的梯度问题（Exploding Gradient Problem），这也没比消失的梯度问题更好处理。更加一般地说，在深度神经网络中的梯度是不稳定的，在前面层中或会消失，或会激增。这种不稳定性才是深度神经网络中基于梯度学习的根本问题。

2、消失的梯度问题的根本原因？

深度神经网络中的梯度不稳定性。由于梯度的值小于1，在随机梯度下降算法中，前面层的梯度由后面层的梯度参与相乘，所以造成前面层的梯度很小，后面层的梯度依次变大。从而造成了梯度的不均衡性。

十、卷积神经网络(CNN)

CNN(Convolutional neural networks)：使用了一个特殊架构来进行图像分类。

它的三个基本概念为：局部感受野（Local receptive fields），共享权重（Shared weights），和混合（Pooling）。

1、基本概念

（1）局部感受野

在之前的全连接网络中，输入被描绘成纵向排列的神经元，但在卷积神经网络中，把输入看作28 x 28的方形神经元排列。第一个隐层中的每个神经元只与输入图像的一个小区域(如5x5)连接，这个输入图像的小区域叫做隐层神经元的局部感受野（Local receptive fields）。如下图所示：

每个连接学习一个权重，且隐层神经元也学习一个总的偏差。即此隐层神经元正在对输入图像的此区域进行学习、了解。一个隐层神经元与一个局部感受野一一对应，即每个隐层神经元有：5x5个权重和1个偏差。

如上图所示，对于一个28x28的输入图像，如果局部感受野的大小为5x5，则第一个隐层中有24x24个神经元。

（2）共享权重和偏差

每组24x24个隐层神经元使用相同的权重和偏差。即对于每组中的第（j,k）隐层神经元，其激活值为：

即每组有5x5个权得和1个偏差，其26个需要学习的参数。这表示第一个隐层中的所有神经元在输入图像的不同地方检测相同的特征。(图像具有平移不变性)

· 特征映射：从输入层到隐层的映射。

· 共享权重：定义特征映射的权重。

· 共享偏差：定义特征映射的偏差。

· 卷积核或滤波器：共享权重和偏差。

为了做图像识别，需要多个特征映射，且一个完整的卷积层由多个不同的特征映射组成，如下图包含三个特征映射：

上面20幅图像对应20个不同的特征映射(或滤波器、或卷积核)，每个特征映射用5x5方块图表示，对应局部感受野的5x5个权重。白色表示小权重，黑色表示大权重。

共享权重和偏差最大的优点是：大大减少了网络中参数的数量。如全连接网络的参数是卷积网络参数的30倍左右。(卷积网络20个特征：20x26=520, 全连接20个隐层神经元：20x784=15680)

（3）混合层

卷积神经网络除包含卷积层之外，还包含混合层(Pooling Layers)，混合层在卷积层之后，它的职责是简化（总结）卷积层输出的信息。

混合层根据卷积层输出的所有特征映射，然后提炼出新的特征映射。

（4）完整的卷积神经网络

最后一层与前面一层是全连接，其连接数为：3x12x12x10。

卷积神经网络与全连接神经网络的架构不一样，但其目标是一样的，它们的目标为：使用训练数据训练网络的权重和偏差，然后对输入的图像做出正确的分类。

天凉好个秋南半球享受温暖阳光（七）

乌拉圭

乌拉圭位于南美洲的东南部，乌拉圭河与拉普拉塔河的东岸，首都为蒙得维的亚。乌拉圭因其优美的自然风光和安定的社会环境，被誉为“南美瑞士”，又因其形似宝石而又盛产紫晶石，获誉为“钻石之国”。

中秋阖家邀明月美食不缺席 12种应季传统美食不可辜负（二）

芋头

用清水煮一大锅小芋头粘了糖吃，是过去穷人家的实在日子。在江浙一带，芋头的发音与“运来”相近。所以中秋节吃芋头，不仅仅只是享口福同样也表示希望能够好运连连。

虚拟货币交易所关停倒计时众生相：清退遇到骗子

金融时报9月29日——9月以来，ICO、虚拟货币在中国经历了一轮“溯及既往”的最强监管。在监管大潮下，有“小白玩家”忙着退币，有人坚定持币“长期看涨”，有人转战场外和海外市场继续交易，也有人假冒购币者试图在混乱中谋取利益。

9月30日，虚拟货币交易所即将彻底关停其在中国的所有交易活动。“未来怎样有待观察，毕竟大家都是摸着石头过河。”一位区块链技术开发公司负责人对于比特币等虚拟货币在中国的未来发表了这样的看法。他本人是比特币等虚拟货币的持有者，也曾经动过做ICO的念头。

“幸好没有做ICO，如果做了现在就不会这么好过了。ICO热的时候，有员工被做ICO的公司挖走了，也有员工直接去做ICO了，所以对我们公司造成的压力极其巨大。现在ICO被叫停了，我就不用担心人家来挖人了。”这位负责人表示，现在叫停ICO对区块链技术开发企业来说反而是有利的，监管层对ICO、虚拟货币和交易所出台的一系列强监管措施也并不影响区块链业务的拓展。

交易所层面的虚拟货币交易关停在即，清退工作进度如何？数字资产投资者抱有怎样的态度？交易所、发行方将转战哪些业务领域？区块链技术开发应该是否受到影响？带着这些问题，本报记者近日进行了一番调查。

清退遇到骗子

毫无疑问，甚嚣尘上的ICO是此轮强监管出手整治虚拟货币交易的导火索。8月以来，监管层多次提示了ICO项目以及以“币”为名称的非法金融活动的众多风险，同时要求金融行业积极抵制ICO以及与虚拟货币相关的非法金融活动。

9月4日，央行等七部委紧急叫停ICO交易；9月2日至14日，多家比特币交易平台提高手续费；9月14日，比特币中国宣布9月底停止所有交易；9月15日，北京市互联网金融风险专项整治工作领导小组发文清退虚拟货币交易所。

“这也是希望从市场角度将数字货币行业可能带来的风险隔离在外。”一位律师对记者表示，事实上，监管机构和司法机关就ICO清退没有给出一个明确、统一的标准。目前，市场上自发形成的规则是按照发行价清退，“也就是以原生代币发行当时对应的比特币等虚拟资产的价格进行清退，将交易双方的权利义务恢复到‘最初状态’。”

那么，清退工作是否顺利呢？一位非主流数字货币发行方人士告诉记者，其目前已完成了60%的代币清退工作，但清退过程中也遇到不少问题，包括交易所推诿责任、购买方不愿意退币、假装买币的骗子时而出现并要求退币。

前述律师建议，清退工作需注意以下事项：妥善解除合同，恢复原状；清退留痕，拥抱“排查”；清退有序，杜绝群体性事件；万不可篡改和销毁证据（含ICO白皮书）。

转战海外场外交易和“挖矿”

“原价求购一台蚂蚁矿机S9。”监管层发文清退虚拟货币交易所后，一位虚拟货币交易平台负责人准备将更多精力放在“挖矿”上。他入手了一些“矿机”，近期在内蒙古寻找便宜的电价资源，以运维他那高耗电的大规模“矿场”。

尽管国内交易所层面的虚拟货币交易即将关停，但不少人认为，短期内比特币还是很难禁止的，“只是不能公开进行集中竞价交易了，今后中国的比特币交易可能会转变为地下交易、场外交易甚至转移到海外交易。”

上述平台负责人也在他的小圈子里展示了一些海外交易平台操作教程，包括注册、充值、提现、提币等，也分享了一些海外ICO的投资机会。

正如上述平台负责人所做的，中国互联网金融创新研究院院长黄震表示，交易平台可能会在境外寻找一些为用户继续提供服务的方式，也有把用户转移交给海外平台的可能性。另外，一些交易平台也可能会转型做一些区块链的开发业务，或开展金融科技投资等。

“比特币等虚拟货币确实存在逃避外汇管制的行为，已经累积了一定的社会风险，并威胁到主权货币地位，当局出于维稳考虑决定叫停ICO并关停交易所。”前述律师表示，投资者应该意识到比特币的投资风险，不管是继续持有还是抛掉，都应对比特币的风险持有“愿赌服输”的态度。

作为比特币等虚拟货币的持有者，前述区块链技术开发公司负责人选择继续持有比特币和以太坊等他认为“长期看涨”的虚拟货币，对于“没什么价值”的非主流虚拟货币，他选择了退币。

“ICO确实太过了，虚假的、不切实际、空对空的、各怀鬼胎的成分太多，助长了不靠谱的行为。国家通过这种手段降温，也避免不明真相的群众亏钱。”他说。

区块链市场广阔

诞生于8年前的比特币将区块链技术安全性高、价值传递的特性直接展现在了人们的眼前，那么，此轮虚拟货币强监管风暴会不会对区块链技术的发展和应用产生影响？

“没有比特币，区块链照样玩得转。区块链可以做的应用非常多，市场前景很好，也没有受到此轮监管政策的影响，因为人们对于区块链技术的认识度和共识度越来越高。”前述区块链技术开发公司负责人表示，不能把比特币等虚拟货币等同于区块链技术，比特币的技术是不能直接应用于企业的，必须经过改造，区块链技术落地到企业应用还有很多其他工作要做。

谈及区块链技术应用于金融方面的优点，这位负责人表示，一是区块链具有不可篡改的属性，这意味着数据可以累积起来成为信用，而且这些信用在区块链上是可以被证明的，因此无需担保和评级等中介服务，可以直接向投资者融资；二是当前线下纸质交易成本仍然很高，基于区块链，票据、应收款、债权等签约成本就会变得很低且可以分割，对投资人来说也可以分散投资风险。

“现在大银行不喜欢做小微金融，因为如果只放几万元贷款，银行做企业调查的成本很高。但在区块链上，交易合同、库存情况都会有记载，而且都是真实、不可篡改的数据，这样一来投资者就不需要上门查验发票、订货单，审计、尽调、了解一家企业的成本变得很低，企业的融资成本进而就会降低。”该负责人说。

区块链技术的核心思路是去中心化。“但我们做的区块链应用中去中心化并不是必须的，更多是做分布式的。”对于区块链技术当前的落地情况，该负责人说，其公司更多在做许可链的应用。在比特币的技术中，任何人只要有“矿机”就可以设置节点、参与生态；而在许可链中，只有被认可的节点才可以参与投票、记账。

“类似的业务我们大概做了20家，和比特币等虚拟货币没有任何关系。”该负责人认为，“区块链是不可阻挡的历史潮流，基于区块链的ICO也确实可以解决高科技企业的融资问题，但前提必须规范化。至于今后如何发展，仍有待观察。”

Yoshua Bengio宣布即将终止Theano的开发和维护

新智元9月29日——

Theano是Python的一个数值计算库。在Theano中，计算是使用NumPy-esque语法来表示的，编译后可以在CPU或GPU架构上高效运行。Theano是一个开源项目，主要由蒙特利尔大学的机器学习团队开发。

今天，Theano的开发与维护者之一 Pascal Lamblin 贴出了一封邮件：Yoshua Bengio 宣布在发布Theano 1.0版本之后，终止Theano的开发和维护。以下是邮件内容：

亲爱的用户和开发者：

经过近十年的开发，我们很遗憾地宣布，我们将在Theano 1.0版本发布后终止Theano的开发。Theano 1.0版本将在接下来的几周内发布。我们将继续保持最低限度的维护，使其再工作一年，但我们将不再积极增加新的功能。这之后，Theano作为开源软件将继续可用，但MILA不会承诺仍花时间对其进行维护或支持。

支持深度学习研究的软件生态系统一直在快速发展，现在已经达到一种健康的状态：开源软件已经是常态；有各种各样的框架可用，满足了从探索新想法到将它们部署到生产中的需求；而大型企业在激烈竞争中支持不同的软件栈。

我们很自豪的是，Theano这些年来所提出的大多数创新，现在已经被其他框架采用和完善。例如，将模型表达为数学表达式，重写计算图以获得更好的性能和内存使用，GPU上的透明执行，更高阶的自动微分，等等，这些都成为了主流想法。

在这种背景下，我们得出的结论是，支持Theano不再是我们所能促进新研究理念出现和应用的最佳方式。即使来自工业界和学术界的贡献和支持越来越多，维持一个旧的代码库并与竞争对手保持同步已经成为创新的阻碍。

MILA仍将致力于支持研究人员，并支持创新的研究想法的实现和探索。我们将通过其他方式继续朝着这个目标努力，并为其他项目做出重要的开源贡献。

感谢所有帮助开发Theano，并通过贡献bug报告、配置文件、用例、文档和支持来改进它的人。

-- Yoshua Bengio,

MILA主管