文章列表 - 蓝海商信 - 蓝海硅谷-金地毯

行业研究

行业研究

GoogleBrain新技术：No RNNs, No CNNs, Just Attention！

主导序列转导模型基于编码器 - 解码器配置中的循环或卷积神经网络。性能最好的模型是通过注意机制连接编码器和解码器。我们提出了一种简单的网络架构，即Transformer，完全基于注意机制，完全放弃了rnn和cnn。两个机器翻译任务的实验表明，这些模型在质量上非常优越，还可并行化，并大幅减少训练时间。我们的模型在WMT 2014英德翻译任务上实现了28.4 BLEU，改善了现有的最佳效果，包括超过2个BLEU。在WMT 2014英法翻译任务中，我们的模型建立了一个新的单一模式，最先进的BLEU得分为41.0，在八个GPU上训练了3.5天，只用最少的训练成本文献模型。结果显示，Transformer可应用于其他任务，能将其成功应用于具有大量和有限训练数据。

1 Introduction

Recurrent neural networks, long short-term memory [12] and gated recurrent [7] neural networks in particular, have been firmly established as state of the art approaches in sequence modeling and transduction problems such as language modeling and machine translation [31, 2, 5]. Numerous efforts have since continued to push the boundaries of recurrent language models and encoder-decoder architectures [34, 22, 14].

Recurrent models typically factor computation along the symbol positions of the input and output sequences. Aligning the positions to steps in computation time, they generate a sequence of hidden states ht, as a function of the previous hidden state ht−1 and the input for position t. This inherently sequential nature precludes parallelization within training examples, which becomes critical at longer sequence lengths, as memory constraints limit batching across examples. Recent work has achieved significant improvements in computational efficiency through factorization tricks [19] and conditional ∗Equal contribution. Listing order is random. †Work performed while at Google Brain. arXiv:1706.03762v1 [cs.CL] 12 Jun 2017 computation [29], while also improving model performance in case of the latter. The fundamental constraint of sequential computation, however, remains.

Attention mechanisms have become an integral part of compelling sequence modeling and transduction models in various tasks, allowing modeling of dependencies without regard to their distance in the input or output sequences [2, 17]. In all but a few cases [25], however, such attention mechanisms are used in conjunction with a recurrent network.

In this work we propose the Transformer, a model architecture eschewing recurrence and instead relying entirely on an attention mechanism to draw global dependencies between input and output. The Transformer allows for significantly more parallelization and can reach a new state of the art in translation quality after being trained for as little as twelve hours on eight P100 GPUs.

2 Background

The goal of reducing sequential computation also forms the foundation of the Extended Neural GPU [21], ByteNet [16] and ConvS2S [9], all of which use convolutional neural networks as basic building block, computing hidden representations in parallel for all input and output positions. In these models, the number of operations required to relate signals from two arbitrary input or output positions grows in the distance between positions, linearly for ConvS2S and logarithmically for ByteNet. This makes it more difficult to learn dependencies between distant positions [11]. In the Transformer this is reduced to a constant number of operations, albeit at the cost of reduced effective resolution due to averaging attention-weighted positions, an effect we counteract with Multi-Head Attention as described in section 3.2.

Self-attention, sometimes called intra-attention is an attention mechanism relating different positions of a single sequence in order to compute a representation of the sequence. Self-attention has been used successfully in a variety of tasks including reading comprehension, abstractive summarization, textual entailment and learning task-independent sentence representations [4, 25, 26, 20].

To the best of our knowledge, however, the Transformer is the first transduction model relying entirely on self-attention to compute representations of its input and output without using RNNs or convolution. In the following sections, we will describe the Transformer, motivate self-attention and discuss its advantages over models such as [15, 16] and [9].

3 Model Architecture

Most competitive neural sequence transduction models have an encoder-decoder structure [5, 2, 31]. Here, the encoder maps an input sequence of symbol representations (x1, ..., xn) to a sequence of continuous representations z = (z1, ..., zn). Given z, the decoder then generates an output sequence (y1, ..., ym) of symbols one element at a time. At each step the model is auto-regressive [10], consuming the previously generated symbols as additional input when generating the next.

The Transformer follows this overall architecture using stacked self-attention and point-wise, fully connected layers for both the encoder and decoder, shown in the left and right halves of Figure 1, respectively.

3.1 Encoder and Decoder Stacks

Encoder: The encoder is composed of a stack of N = 6 identical layers. Each layer has two sub-layers. The first is a multi-head self-attention mechanism, and the second is a simple, positionwise fully connected feed-forward network. We employ a residual connection around each of the two sub-layers, followed by layer normalization [1]. That is, the output of each sub-layer is LayerNorm(x + Sublayer(x)), where Sublayer(x) is the function implemented by the sub-layer itself. To facilitate these residual connections, all sub-layers in the model, as well as the embedding layers, produce outputs of dimension dmodel = 512.

Decoder: The decoder is also composed of a stack of N = 6 identical layers. In addition to the two sub-layers in each encoder layer, the decoder inserts a third sub-layer, which performs multi-head attention over the output of the encoder stack. Similar to the encoder, we employ residual connections

Figure 1: The Transformer - model architecture. around each of the sub-layers, followed by layer normalization. We also modify the self-attention sub-layer in the decoder stack to prevent positions from attending to subsequent positions. This masking, combined with fact that the output embeddings are offset by one position, ensures that the predictions for position i can depend only on the known outputs at positions less than i.

3.2 Attention

An attention function can be described as mapping a query and a set of key-value pairs to an output, where the query, keys, values, and output are all vectors. The output is computed as a weighted sum of the values, where the weight assigned to each value is computed by a compatibility function of the query with the corresponding key.

3.2.1 Scaled Dot-Product Attention

We call our particular attention "Scaled Dot-Product Attention" (Figure 2). The input consists of queries and keys of dimension dk, and values of dimension dv. We compute the dot products of the query with all keys, divide each by, and apply a softmax function to obtain the weights on the values.

In practice, we compute the attention function on a set of queries simultaneously, packed together into a matrix Q. The keys and values are also packed together into matrices K and V . We compute the matrix of outputs as:

The two most commonly used attention functions are additive attention [2], and dot-product (multiplicative) attention. Dot-product attention is identical to our algorithm, except for the scaling factor of. Additive attention computes the compatibility function using a feed-forward network with a single hidden layer. While the two are similar in theoretical complexity, dot-product attention is much faster and more space-efficient in practice, since it can be implemented using highly optimized matrix multiplication code. While for small values of dk the two mechanisms perform similarly, additive attention outperforms dot product attention without scaling for larger values of dk [3]. We suspect this to be caused by the dot products growing too large in magnitude to result in useful gradients after applying the softmax function. To counteract this, we scale the dot product by 1/

3.2.2 Multi-Head Attention

Instead of performing a single attention function with dmodel-dimensional keys, values and queries, we found it beneficial to linearly project the queries, keys and values h times with different, learned linear projections to dk, dk and dv dimensions, respectively. On each of these projected versions of queries, keys and values we then perform the attention function in parallel, yielding dv-dimensional output values. These are concatenated, resulting in the final values, as depicted in Figure 2 Multi-head attention allows the model to jointly attend to information from different representation subspaces at different positions. With a single attention head, averaging inhibits this.

3.2.3 Applications of Attention in our Model

The Transformer uses multi-head attention in three different ways:

In the encoder-decoder attention layers, the queries come from the previous decoder layer, and the memory keys and values come from the output of the encoder. This allows every 4 position in the decoder to attend over all positions in the input sequence. This mimics the typical encoder-decoder attention mechanisms in sequence-to-sequence models such as [34, 2, 9].
The encoder contains self-attention layers. In a self-attention layer all of the keys, values and queries come from the same place, in this case, the output of the previous layer in the encoder. Each position in the encoder can attend to all positions in the previous layer of the encoder.
Similarly, self-attention layers in the decoder allow each position in the decoder to attend to all positions in the decoder up to and including that position. We need to prevent leftward information flow in the decoder to preserve the auto-regressive property. We implement this inside of scaled dot-product attention by masking out (setting to −∞) all values in the input of the softmax which correspond to illegal connections. See Figure 2.

3.3 Position-wise Feed-Forward Networks

In addition to attention sub-layers, each of the layers in our encoder and decoder contains a fully connected feed-forward network, which is applied to each position separately and identically. This consists of two linear transformations with a ReLU activation in between.

While the linear transformations are the same across different positions, they use different parameters from layer to layer. The dimension of input and output is dmodel, and the inner-layer has dimension 2048.

3.4 Embeddings and Softmax

Similarly to other sequence transduction models, we use learned embeddings to convert the input tokens and output tokens to vectors of dimension dmodel. We also use the usual learned linear transformation and softmax function to convert the decoder output to predicted next-token probabilities. In our model, we share the same weight matrix between the two embedding layers and the pre-softmax linear transformation. In the embedding layers, we multiply those weights by

3.5 Positional Encoding

Since our model contains no recurrence and no convolution, in order for the model to make use of the order of the sequence, we must inject some information about the relative or absolute position of the tokens in the sequence. To this end, we add "positional encodings" to the input embeddings at the bottoms of the encoder and decoder stacks. The positional encodings have the same dimension dmodel as the embeddings, so that the two can be summed. There are many choices of positional encodings, learned and fixed [9]. In this work, we use sine and cosine functions of different frequencies:

where pos is the position and i is the dimension. That is, each dimension of the positional encoding corresponds to a sinusoid. The wavelengths form a geometric progression from 2π to 10000 · 2π. We chose this function because we hypothesized it would allow the model to easily learn to attend by relative positions, since for any fixed offset k,

can be represented as a linear function of P Epos.

4 Why Self-Attention

In this section we compare various aspects of self-attention layers to the recurrent and convolutional layers commonly used for mapping one variable-length sequence of symbol representations

One is the total computational complexity per layer. Another is the amount of computation that can be parallelized, as measured by the minimum number of sequential operations required.

The third is the path length between long-range dependencies in the network. Learning long-range dependencies is a key challenge in many sequence transduction tasks. One key factor affecting the ability to learn such dependencies is the length of the paths forward and backward signals have to traverse in the network. The shorter these paths between any combination of positions in the input and output sequences, the easier it is to learn long-range dependencies [11]. Hence we also compare the maximum path length between any two input and output positions in networks composed of the different layer types.

As noted in Table 1, a self-attention layer connects all positions with a constant number of sequentially executed operations, whereas a recurrent layer requires O(n) sequential operations. In terms of computational complexity, self-attention layers are faster than recurrent layers when the sequence length n is smaller than the representation dimensionality d, which is most often the case with sentence representations used by state-of-the-art models in machine translations, such as word-piece [34] and byte-pair [28] representations. To improve computational performance for tasks involving very long sequences, self-attention could be restricted to considering only a neighborhood of size r in the input sequence centered around the respective output position. This would increase the maximum path length to O(n/r). We plan to investigate this approach further in future work.

A single convolutional layer with kernel width k < n does not connect all pairs of input and output positions. Doing so requires a stack of O(n/k) convolutional layers in the case of contiguous kernels, or O(logk(n)) in the case of dilated convolutions [16], increasing the length of the longest paths between any two positions in the network. Convolutional layers are generally more expensive than recurrent layers, by a factor of k. Separable convolutions [6], however, decrease the complexity considerably, to. Even with k = n, however, the complexity of a separable convolution is equal to the combination of a self-attention layer and a point-wise feed-forward layer, the approach we take in our model.

As side benefit, self-attention could yield more interpretable models. We inspect attention distributions from our models and present and discuss examples in the appendix. Not only do individual attention heads clearly learn to perform different tasks, many appear to exhibit behavior related to the syntactic and semantic structure of the sentences.

5 Training

This section describes the training regime for our models.

5.1 Training Data and Batching

We trained on the standard WMT 2014 English-German dataset consisting of about 4.5 million sentence pairs. Sentences were encoded using byte-pair encoding [3], which has a shared sourcetarget vocabulary of about 37000 tokens. For English-French, we used the significantly larger WMT 6 2014 English-French dataset consisting of 36M sentences and split tokens into a 32000 word-piece vocabulary [34]. Sentence pairs were batched together by approximate sequence length. Each training batch contained a set of sentence pairs containing approximately 25000 source tokens and 25000 target tokens.

5.2 Hardware and Schedule

We trained our models on one machine with 8 NVIDIA P100 GPUs. For our base models using the hyperparameters described throughout the paper, each training step took about 0.4 seconds. We trained the base models for a total of 100,000 steps or 12 hours. For our big models,(described on the bottom line of table 3), step time was 1.0 seconds, and the models were trained for 300,000 steps or 3.5 days.

5.3 Optimizer

This corresponds to increasing the learning rate linearly for the first warmup_steps training steps, and decreasing it thereafter proportionally to the inverse square root of the step number. We used warmup_steps = 4000.

5.4 Regularization

We employ three types of regularization during training: Residual Dropout We apply dropout [30] to the output of each sub-layer, before it is added to the sub-layer input and normalized. In addition, we apply dropout to the sums of the embeddings and the positional encodings in both the encoder and decoder stacks. For the base model, we use a rate of

Attention Dropout Query to key attentions are structurally similar to hidden-to-hidden weights in a feed-forward network, albeit across positions. The softmax activations yielding attention weights can then be seen as the analogue of hidden layer activations. A natural possibility is to extend dropout [30] to attention. We implement attention dropout by dropping out attention weights as,

In addition to residual dropout, we found attention dropout to be beneficial for our parsing experiments.

Label Smoothing During training, we employed label smoothing of value ls = 0.1 [32]. This hurts perplexity, as the model learns to be more unsure, but improves accuracy and BLEU score.

6 Results

6.1 Machine Translation

On the WMT 2014 English-to-German translation task, Our big transformer model (Transformer (big) in Table 2) outperforms the best previously reported models (including ensembles) by more than 2.0 BLEU, establishing a new state-of-the-art BLEU score of 28.4. The configuration of this model is listed in the bottom line of Table 3. Training took 3.5 days on 8 P100 GPUs. Even our base model surpasses all previously published models and ensembles, at a fraction of the training cost of any of the previous best models.

On the WMT 2014 English-to-French translation task, our big model achieves a BLEU score of 41.0, outperforming all of the previously published single models, at less than 1/4 the training cost of the previous state-of-the-art model. The Transformer (big) model trained for English-to-French used dropout rate Pdrop = 0.1, instead of 0.3.

For the base models, we used a single model obtained by averaging the last 5 checkpoints, which were written at 10-minute intervals. For the big models, we averaged the last 20 checkpoints. We used beam search with a beam size of 4 and length penalty α = 0.6 [34]. These hyperparameters were chosen after experimentation on the development set. We set the maximum output length during inference to input length + 50, but terminate early when possible [34].

Table 2 summarizes our results and compares our translation quality and training costs to other model architectures from the literature. We estimate the number of floating point operations used to train a model by multiplying the training time, the number of GPUs used, and an estimate of the sustained single-precision floating-point capacity of each GPU 3 .

6.2 Model Variations

To evaluate the importance of different components of the Transformer, we varied our base model in different ways, measuring the change in performance on English-to-German translation on the development set, newstest2013. We used beam search as described in the previous section, but no checkpoint averaging. We present these results in Table 3.

In Table 3 rows (A), we vary the number of attention heads and the attention key and value dimensions, keeping the amount of computation constant, as described in Section 3.2.2. While single-head attention is 0.9 BLEU worse than the best setting, quality also drops off with too many heads.

In Table 3 rows (B), we observe that reducing the attention key size dk hurts model quality. This suggests that determining compatibility is not easy and that a more sophisticated compatibility function than dot product may be beneficial. We further observe in rows (C) and (D) that, as expected, bigger models are better, and dropout is very helpful in avoiding over-fitting.

6.3 English Constituency Parsing

To evaluate if the Transformer can generalize to other tasks we performed experiments on English constituency parsing. This task presents specific challenges: the output is subject to strong structural constraints and is significantly longer than the input. Furthermore, RNN sequence-to-sequence models have not been able to attain state-of-the-art results in small-data regimes [33]. We trained a 4-layer transformer with dmodel = 1024 on the Wall Street Journal (WSJ) portion of the Penn Treebank [23], about 40K training sentences. We also trained it in a semi-supervised setting, using the larger high-confidence and BerkleyParser corpora from with approximately 17M sentences 3We used values of 2.8, 3.7, 6.0 and 9.5 TFLOPS for K80, K40, M40 and P100, respectively.

[33]. We used a vocabulary of 16K tokens for the WSJ only setting and a vocabulary of 32K tokens for the semi-supervised setting.

We performed only a small number of experiments to select the dropout, both attention and residual (section 5.4), learning rates and beam size on the Section 22 development set, all other parameters remained unchanged from the English-to-German base translation model. During inference, we increased the maximum output length to input length + 300. We used a beam size of 21 and α = 0.3 for both WSJ only and the semi-supervised setting.

Our results in Table 4 show that despite the lack of task-specific tuning our model performs surprisingly well, yielding better results than all previously reported models with the exception of the Recurrent Neural Network Grammar [8].

In contrast to RNN sequence-to-sequence models [33], the Transformer outperforms the BerkeleyParser [27] even when training only on the WSJ training set of 40K sentences.

7 Conclusion

In this work, we presented the Transformer, the first sequence transduction model based entirely on attention, replacing the recurrent layers most commonly used in encoder-decoder architectures with multi-headed self-attention.

For translation tasks, the Transformer can be trained significantly faster than architectures based on recurrent or convolutional layers. On both WMT 2014 English-to-German and WMT 2014 English-to-French translation tasks, we achieve a new state of the art. In the former task our best model outperforms even all previously reported ensembles. We also provide an indication of the broader applicability of our models through experiments on English constituency parsing.

We are excited about the future of attention-based models and plan to apply them to other tasks. We plan to extend the Transformer to problems involving input and output modalities other than text and to investigate local, restricted attention mechanisms to efficiently handle large inputs and outputs such as images, audio and video. Making generation less sequential is another research goals of ours. We intend to make the code we used to train and evaluate our models available soon.

金准数据2017最新研究：区块链在企业级的应用

众所周知，区块链最早被用为数字货币比特币的底层技术，同时，数字货币也是目前区块链最成熟的应用。既然区块链可以作为数字货币的分布式账本，那么，推而广之，它是不是能够作为其他数字资产的分布式账本？答案是肯定的。新一代区块链的应用路径正是从数字货币到数字化金融资产，再进一步到各类数字化资产，我们由此成为区块链的1.0、区块链2.0和区块链3.0。

在数字资产的各个领域，区块链应用试验性的探索正全面铺开，从比特币、瑞波币等数字货币到金融市场，涵盖了数字化的股票、私募股权、众筹股权、债券、对冲基金、所有类型的金融衍生品如期货、期权等各类金融资产。进一步延伸到经济社会的各个领域，不动产、数据资产、知识产权、艺术品、奢侈品、文化遗产、企业资产、城市资产和智能资产等，区块链技术被应用与这些资产的注册、存储和交易。

我国区块链技术的应用实践逐步展开，涌现出一批创新应用原型。当前在金融领域的应用场景最多，各个金融机构积极开展基于区块链技术的数字货币、数字票据、金融资产交易、股权众筹、抵押贷款、清算/结算、金融资产管理、互助保险、积分兑换、跨境支付、区块链征信、供应链金融等应用。中国人民银行积极探索区块链技术在数字货币中应用，“央行链”呼之欲出。工商银行、平安银行、微众银行、阳光保险等金融机构启动开展区块链概念验证，如工商银行的金融资产交易验证、中银香港的抵押贷款估值系统验证、中钞信用卡的智能数字票据系统验证、微众银行的银行间联合贷款结算清算、阳光保险的航空意外险卡单验证等。除了金融行业，区块链在电子存证、能源互联网、版权、供应链管理、股权众筹、政府及公益、房地产交易等领域也涌现出一批应用探索，如保全网的电子公证，唯链的供应链溯源，蚂蚁金服的公益扶贫、海航的集团采购和供应链融资等应用。

目前，区块链实际落地面临的不仅仅是技术层面的制约，更主要的障碍来自于体制和机制层面上的障碍。以企业为核心的经济体系有其存在的必然性和合理性，大型跨国企业在全球经济中依然发挥着主导作用。谁愿意革自己的命？尽管，互联网上的跨企业、跨联盟、跨机构、个人分享等已然成为趋势。但以一个中心化的政府机构、大型企业、大平台作为可信的第三方，这仍然是大家能够接受的价值交易模式，尽管这样的模式存在着一些低效、沟通成本和交易成本。这就为区块链技术进入商业应用领域设置了很高的障碍。大型机构应用区块链技术仍显被动。在中心化的机制里，责任和监管由运营平台承担，而运营平台又由政府直接监管，平台作为运营方。而去中心化的机制则将权利下放给各个节点的情况下谁来做运营方？例如现在已有60多家银行加入R3联盟。试想一下，如果这60多家银行将所有资金活动都放到区块链上运行，而R3作为一个不由政府背书缺乏足够公信力的组织，又带来另一个可信度的问题。

目前，区块链的应用走到了一个分叉口，从概念验证（POC）阶段到开发去中心化应用(DApp)阶段，出现了两种声音。区块链在银行、保险、证券、资产交易、互联网、公证、知识产权、能源、供应链、政府和财政等方面的应用场景已被广为人知，在进行了一轮概念验证之后，在这一过程中出现一种声音认为区块链在某些领域的应用是一种替代性不强的可选择性技术，例如只是数字代币跨机构应用的一种可替代技术。而在一些新理念、创新性领域区块链应用的声音更强烈，如共享金融、普惠金融、互助保险、区块链金融、去中心化交易所、物联网应用、共享经济、数据资产交易、互联网共治等领域，区块链被认为存在更大应用空间，去中心化应用的开发正稳步开展。两种声音对待区块链应用的态度也决定了投入路径的不同。

从技术、经济与社会三个方面来说，区块链适合的应用场景有七个：第一，区块链曾经是数字货币（比特币）的底层技术,它目前也是600多种数字代币的底层技术。第二，区块链是基于P2P网络和密码学的分布式数据库技术，具有数字公证、去中心化数据存储的应用。第三，区块链是构建基于P2P网络的去中心化应用（Dapp）的底层技术。第四，区块链是货币、资产、实物等交易的分布式（去中心化）总帐系统——基于区块链的去中心化交易系统。第五，区块链是用共识算法和程序建立信任机制的、充分体现市场经济精神的、去中心化的、对等交易系统，建立信任的系统。第六，区是跨机构、跨组织、跨个体、跨智能体的平等协作的经济系统。第七，作为一个社会系统区块链是一个社会成员平等协作、数据共享、达成共块链识、实现共治的社会系统。

在赵刚博士的《区块链：价值互联网的基石》一书中也提到过区块链在未来应用的5个方向。区块链将成为价值互联网和可信互联网的基石、万物互联的万物账本、驱动分享经济发展的新引擎、大数据资产流通的重要支撑与建立互联网治理体系的新手段。

案例参考——区块链作为赛智时代公司2016年新孵化的业务，为发展区块链业务，成立了赛智区块链（北京）技术有限公司。主要业务涵盖基于区块链的Dapp应用开发和服务、数据区块链服务、数据区块链交易所、区块链咨询培训等。区块链解决方案方面，赛智区块链是国内第一批建立基于以太坊的企业级区块链解决方案的公司，能为金融、能源、供应链、政府等客户提供跨机构业务协作、信誉管理、KYC、跨机构数字化资产管理等应用开发服务。数据区块链方面，赛智区块链是第一个提出大数据区块链的公司，致力于开发基于区块链技术的数据分层存储方案，推进数据资产的确权、链上交易和链上数据分析等。

研究方向——赛智区块链公司与一些专家和学者共同成立了全球首个“大数据区块链实验室”，有三个研究方向：一是区块链在数据资产流通中的应用；第二个是区块链平台本身的大数据应用；第三个，区块链和大数据融合的商业应用。目前，在区块链业务拓展方面，赛智区块链正和中央网信办、工信部、公安部、贵州省、国家电网、乐视金融、中国人保等机构保持着密切的合作关系。

15家大数据云计算&8家金融科技独角兽分析盘点

美国一直是世界上最鼓励创新的国家之一，从云计算概念的出现到现在如火如荼的大数据和金融科技，美国都处于世界领先的地位，很多初创企业也迎着这股浪潮成为了独角兽并获得了很好的发展。

云计算的出现使得计算能力不再是企业发展的瓶颈，而变成了一种更方便、实惠的资源。2005年另一项大数据领域技术——Hadoop产生了革命性的意义，它不仅使分布式存储数据成为可能（HDFS），还可以高性能的并行处理数据（MapReduce），这两项服务结合为快速和可靠分析结构化和复杂数据打下了坚实的基础。

美国传统信息化程度较高的大型企业很快就过渡到云计算大数据的时代，那些提供大数据服务的新兴企业也借着这股浪潮快速成长。比如Splunk于2012年在纳斯达克成功上市，成为第一家上市的大数据处理公司。

最近的几年，各个行业都在快速的步入大数据时代，首当其冲的就是金融行业。美国的传统金融体系非常健全，也非常有意愿获取新技术来改善原有金融系统存在的问题。在这种情况下，Financial Services ＋ Technology就形成了现在的“FinTech”。

金融科技现在已经显著的改变了金融服务业的运作方式，该领域的初创企业也受到了风险投资的青睐，迅速的成长。2013年，支付领域的独角兽Square上市，2014年，网贷领域的独角兽LendingClub和On Deck Capital上市。现在Stripe也在金融科技领域以接近100亿美元的估值一枝独秀。这充分的体现了金融科技的火爆以及资本的重视。

以下在揭秘美国独角兽过程中，为大家梳理介绍一下其中8家金融科技和15家大数据云计算独角兽，希望能对行业从业者有所启发。

金融科技&大数据云计算1

领域整体分析

1. Palantir是大数据云计算领域估值最高的独角兽，在美国独角兽整体排名第三。支付公司Stripe成为金融科技领域估值最高的独角兽。

2. QED Investors成为金融科技领域投资独角兽最多的投资机构，红杉则是大数据云计算领域投资独角兽最多的投资机构，他们分别都投资了5家独角兽。

3.金融科技领域独角兽的平均养成时间为6.4年，成为独角兽的时间集中在2014和2015年两年。大数据云计算领域的平均养成时间为6.5年，成为独角兽的时间则集中在2013－2015年。

4.这两个领域的资本效率比值中位数相近，略高于整体独角兽的资本效率比值中位数（5.1）。

5.金融科技领域单从市销率来判断估值不是很全面，可以参考已上市的金融科技公司来进行对比。我们选取了已上市的独角兽公司LendingClub、On Deck和Square，除了Square成长较好之外，其他两个公司的市值相较上市时的估值下降了多半，而且这三家公司都未盈利且市销率都在5倍以下。现有的独角兽市销率都偏高，估值也存在一定泡沫。

6.大数据云计算领域市销率最高的是Cloudflare，最低的为Mu Sigma，中位数为20倍。几家云安全公司的市销率都比较高，也说明了安全领域仍然是投资的热点。

7.基于国外权威创投机构的分析和一些海外信源，以及对公司本身的经营情况、细分领域的发展状况和竞争情况等的分析，我们判断，今年上市希望较大的几个独角兽分别是Credit Karma、InsideSales、Domo Technologies和Zscaler。

金融科技现在已经显著的改变了金融服务业的运作方式，该领域的初创企业也受到了风险投资的青睐，迅速的成长。

8家金融科技领域独角兽2

详细盘点

金融科技现在已经显著的改变了金融服务业的运作方式，该领域的初创企业也受到了风险投资的青睐，迅速的成长。下面为你盘点8家金融科技领域的独角兽，希望能给你带来一些灵感。

1）Avant：个人小额贷款公司

Avant是一家P2P小额贷款公司，专注于为介于信用优级和信用次级之间的用户提供贷款服务。其特色是通过自有资金发放贷款，并承担违约风险，目前Avant保留一半贷款在自己的资产负债表上，另一半通过证券化发售给投资者，且其资金端都是投资机构，个人投资者不在考虑范围内。Avant的贷款额度平均为8000美元，最高可达35000美元，贷款利率最低位9%，最高可达36%，具体取决于通过大数据以及机器学习得到的贷款者信用等综合评价而定。贷款一般一个工作日即可打到账户中。

截止2016年6月已经向超过50万用户发放了贷款，总量超过30亿美元。

2）CreditKarma：个人征信查询平台

Credit Karma提供面向个人的信用数据查询服务，用户可以实时免费的获取自己的信用数据。该平台允许用户绑定自己的银行卡、信用卡账户，同时允许用户在其平台上查看自己的房屋贷款、汽车贷款和助学贷款等各种财务状况，这样用户就可以了解每项财务指标是如何与自己的信用分数挂钩的。在此基础上，Credit Karma帮助用户了解如何更好的处理自己的信用卡债务，帮助消费者寻找性价比最高的金融产品，例如推荐信用卡供用户申请、进行一般贷款或抵押贷款。在用户购买了金融机构的产品后，Credit Karma便会收到金融机构的分成，从而实现盈利。

截止2016年底，Credit Karma已经服务了100多家付费企业用户以及超过6000万美国个人用户。

3）GreenSky：个人信用贷款平台

GreenSky是一家个人信用贷款平台，定位为一家技术公司，为银行、贷款机构及个人贷款用户提供服务，主要为消费者提供家庭改善（例如装修、家居、太阳能设备等）及医疗保健等用途的贷款。GreenSky信贷计划的融资由联邦保险、联邦和州特许金融机构提供。银行通过在线或通过GreenSky App向大约12000家商家和个人承包商提供贷款。

从2012年到2016年，GreenSky的信贷计划累计提供近50亿美元的贷款。

4）Kabbage：面向小微企业的自动化商业贷款公司

Kaggage是一家面向互联网等轻资产行业小微企业的贷款公司，通过搜集包含运营、财务、社交等多方面的数据，重构信用体系，综合形成信用评分并据此快速放款，解决了互联网企业、小微企业固定资产少而无法从传统金融机构获得授信与贷款的痛点。Kabbage提供贷款所依托的信用体系的数据源包含两方面：首先是传统的小微企业营运数据，包括从Google Analytics等得到的网络信息、企业记账信息，以及从物流企业得到的发货信息；其次是Kabbage独具特色的Social Klimbling 商家信用评分体系，这一体系鼓励客户将自己的商业账户与Facebook和Twitter账户关联起来，革命性地把社交网络信息数据引入到商家信用评分体系，获得了更加优异的风控模型与更低的违约率。依靠这一独特的信用风险评分模型，Kabbage能够在七分钟内作出付款判断。在还款阶段，借款的小微企业可以将消费者在本企业的银行账户或第三方支付的交易，按照约定的比例直接划转到Kabbage的账户。Kabbage提供的贷款额度从500美元至5万美元不等，费率波动范围为前两个月每月2%～7%，后四个月每月为1%，六个月的费用率相当于利率为8%～18%，与银行贷款的利率相当，其最长期限为6个月。

截止2017年2月，Kabbage平台累计贷款金额达到了27亿美元，客户数量超过10万。2017年初其还通过资产证券化获得了5亿美元资金支持，用于拓展更多的用户。

5）Mozido：提供移动支付方案的服务提供商

Mozido是一家提供移动支付解决方案的服务提供商，解决方案基于云端，允许没有在银行开户的用户进行跨平台转账。Mozido提供的服务包括账单支付、通话时间充值、个人对个人支付、商家支付、忠诚度计划、政府支付的直接存款等，以及为商家、金融机构和政府机构提供定制营销等服务。主要关注用户为全球20亿的没有银行账户的移动用户。Mozido提供安全的基于云的PCI安全白标签钱包技术，可以在任何移动平台上运行，包括Android、iOS、黑莓、平板电脑和基本功能手机。该平台可以与销售点进行系统集成，能够通过多种渠道完成多种货币的交易，包括移动、互联网、IVR和电视。

Mozido的业务遍布全球，包括在美国、中国、印度、非洲、斯里兰卡、中东、欧洲和拉美开展业务，支持用户利用手机管理自己的资金、支付及其他服务。

6）Prosper Marketplace：P2P借贷撮合平台

Prosper Marketplace是一家以撮合交易为主的P2P平台，借贷双方可以通过拍卖的方式进行资金交易，是目前世界上最大的P2P借贷平台。平台中借款人通常可以申请特定利率下1000-25000美元之间的无担保贷款。Prosper的模式类似拍卖，借款方希望寻找愿意以最低利率出借的出资人，而出资人则希望找到愿意支付更高利率的借款人，双方的重要参考指标就是个人信用评分。在平台中资金提供方可以看到资金需求方的信用状况，包括房屋情况、信用额度、金融行业征信数据等信息，也可以询问诸如现金流状况等直接的个人问题，用来决定要下标的最低利率和放款金额。目前Prosper的收入来自借贷双方，平台会从借款人处提取每笔借贷款的1%~3%费用，从出借人处按年总出借款的1%收取服务费。

截止2016年，Prosper平台累计贷款额达到76亿美元。

7）Social Finance：面向大学生的信用贷款公司

Social Finance（简称SoFi）是为指定优秀大学的特定专业学生提供助学贷款服务的公司。SoFi主要帮助学生以低于美国联邦政府贷款的利息获得再贷款。目前该公司已拿到美国国家许可开展服务，服务范围遍及50多所高校，提供多种借贷服务。SoFi只贷款给毕业于美国名校的高材生，对已经有学生贷款的毕业生提供低息贷款，让他们可以一次性偿还以前高息的学生贷款，学生们可以因此节省一大笔利息费。其风控体系规定借款者必须毕业于其选定的美国排名前200的优秀大学，不仅如此，借款者只能毕业于SoFi规定的较热门、有发展的几个专业，如法律、医学、商业、工程、美术等。申请再融资贷款的毕业生们可以通过SoFi网站注册填写个人信息，上传贷款需求详情。SoFi将会在一个工作日内决定其贷款利率，信用状况较好的学生能够获得更加优惠的贷款利率。10天之内SoFi会替借款者一次性还清已有学生贷款本息，此后借款者只需要向SoFi还款。SoFi并不针对贷款发行收取费用，只对投资收取服务费或管理费。

2016年会员已达到22.5万名，2016年总共发放贷款80亿美元。

8）Stripe：在线支付技术解决方案服务商

Stripe为网站及线上平台提供支付接入服务，使其能够接受客户的在线信用卡、App钱包等付款方式。Stripe为开发者或商家提供支付API接口或代码，让商家的网站、移动App等支持信用卡在线付款，其费率设计目前偏向于小型商家使用。Stripe的收费模式为对所有年交易额100万美元以下的客户收取每笔2.9%+30美分的服务费，其优势是不收取每月30美元的会员费，并将这种收费方式作为与Paypal竞争的策略。Stripe还是第一家支持比特币支付的主流支付服务公司，同时应用人工智能技术辨识虚假交易等。

截止2016年11月，Stripe员工人数约600人，目前每年处理的支付总额已经超过100亿美元。在美国实行2个工作日结算。

15家大数据云计算领域独角兽3

详细盘点

美国传统大型企业因为信息化程度较，因此它们很快就过渡到云计算大数据的时代，那些提供大数据服务的新兴企业也借着这股浪潮快速成长。接下来为你盘点一下大数据云计算领域的15家独角兽：

1）Actifio：为企业级用户提供大数据存储服务

Actifio是为企业级用户提供数据长期存储、备份和意外丢失恢复等服务的提供商。它可以将备份数据虚拟化，从而省去大量空间、带宽等资源。当用户需要这些数据时，客户又能将这些受保护的“虚拟文件”瞬间恢复。Actifio的技术可以将数据与基础架构分离，以一种简单的、以应用为中心的SLA驱动方式取代孤立的数据管理应用程序，使用户能更经济的管理数据，使用Actifio可以减少90%的备份存储费用。

Actifio在30多个国家拥有300多个企业客户，并拥有包括IBM、Sungard、HBO、Netflix、NEC、Sanofi、KKR等多个领域的大型公司和许多州、地方和联邦政府机构作为合作伙伴。根据之前融资时的数据，Actifio提供的服务价格在35万美元／3年左右。

2）Domo Technologies：基于云的商业智能分析服务商

Domo是一家商业智能软件公司，可以将企业各种来源的数据汇总起来以实时而且可视化的方式进行展现，提供给企业管理层及一线员工使用，帮助企业基于数据进行业务管理。它本质上是一个为决策者提供服务的SaaS平台，各种各样的信息在这个平台上经过处理后可以提炼成可在手机屏幕上展现的洞察信息，企业管理者和员工可以根据这些信息作出决策。Domo获取数据的方式不仅依赖于用户的数据库系统，还可以从企业正在使用的各种系统中以API的方式来获取数据，包括Salesforce、SAP、Google、Facebook和Excel等。在获取数据后，Domo可以在一个统一的Dashboard上面进行展现，使用者可以不用打开Salesforce或是Zendesk的情况下看到销售以及售前售后的情况。个人使用者可以免费注册使用，小型团队和企业需支付175美元／人／月，企业级用户需要联系Domo团队获得报价。

Domo的客户覆盖多个行业领域（包括教育、金融、医疗健康、零售等），并针对不同的企业内部角色（例如CEO、市场、销售、运营、财务等）都有相应的解决方案。

3）InsideSales：为企业销售提供基于大数据分析的用户购买行为预测

InsideSales是为企业提供基于大数据分析的用户购买行为预测的服务平台，可以帮助企业销售人员更好的预测客户的行为及需求。InsideSales的数据来源包括企业CRM中的数据，还包括自有数据库里的900亿销售数据和四个类别（人口统计、公司统计、地理信息和组织信息）的外部数据进行学习，以增强预测的准确性。它拥有世界上最大的营销数据库。InsideSales还可以将其平台接入浏览器，自动将活动同步到CRM产品，无需销售人员手动输入数据。还可以根据销售打电话、发邮件等内容预测出潜在客户，并能自动提醒销售人员跟进。销售人员完成了多少销售目标、沟通的次数都会以排名的形式呈现，通过排行榜设立奖励，从而激励销售人员。

2016年InsideSales每月可以从用户处匿名搜集超过10亿的销售互动信息。它拥有2000个企业客户，包括微软和Groupon等，他们每个月为每个用户（员工）付25-295美元来使用InsideSales的服务。

4）MarkLogic：NoSQL数据库提供商

MarkLogic是一家NOSQL（Not Only SQL）数据库提供商，向企业提供能同时存储结构化和非结构化数据的解决方案，从而为应用程序提供数据存储和支持服务。MarkLogic并不依赖某种流行的特定开源技术，其核心技术是闭源的。其本身是一个文档数据库，但支持灵活的数据格式与模型，内置搜索、语义分析等功能模块，可扩展性和可用性都很高，而且具备企业级应用必须的特性（ACID事务、安全等），底层使用了HDFS，能够与Hadoop生态系统很好的集成。面向个人开发者的版本可以免费使用，企业版本为1.8万美元／年。

MarkLogic 2016年的收入在1.25亿美元左右，客户增长在20%左右。

5）MongoDB：基于分布式文件存储的开源数据库系统

MongoDB是一个基于分布式文件存储的开源数据库系统，也是NOSQL的数据库，介于传统的结构化数据（关系型数据库）与非结构化数据库（文件存储）之间，他的数据结构非常松散，也非常灵活，在现代的计算机应用中常用来存储分布式文件，以便于大数据处理。MongoDB的主要收入来源是面向大型客户（例如大都会人寿保险公司、电商巨头eBay和纽约时报等）出售数据分析软件。

截止2016年，MongoDB已被下载2000万次，企业客户达到2000多家。

6）Mu Sigma：海量数据分析和数据决策支持服务

Mu Sigma是一家为企业客户提供专业数据分析和数据决策支持服务的公司，通过将数据和数据科学与企业的业务结合，可以帮助企业用海量数据驱动决策。主要擅长营销、供应链和风险分析，应用于快消和零售、银行和金融服务、医药、医疗健康、TMT等10个行业。应用场景例如一家制药公司使用Mu Sigma来帮助药物进行定价；通过对百货商店监控摄像头的数据进行分析，得出消费者的购买意图、倾向、满意度等。

使用Mu Sigma服务的公司中有超过140家为世界财富500强企业。MuSigma拥有超过2500名决策科学专业人士，其中大部分在印度班加罗尔的数据交付中心。MuSigma从2011年就开始盈利，根据Datafox的数据，2016年的收入已达6亿美元。

7）Palantir：大数据分析和可视化的工具平台

Palantir是一家为企业提供大数据关联关系和可视化工具的公司。最早产品主要是用来做反欺诈，之后开始为政府提供数据分析、信息检索和提取关键信息等服务。现在产品拓展到可以应用在多个行业。目前Palantir的产品有两个：（1）Gothem：主要针对企业数据。帮助企业整合所有结构化和非结构化的数据，经过处理后映射到模型中。随着数据不断的流入，这些数据之间的关联关系可以通过算法被可视化展现，用户可以进行各种各样的分析，来进行辅助决策。主要应用于国防安全领域。（2）Metropolis：主要针对大规模行业数据。集成了多个数据源，将不同的信息汇集到一个统一的定量分析环境中，通过统计和数学运算库可以执行模型中的计算来形成对行业数据的各个角度的理解，并能通过可视化工具展现。数据源实时更新，用户可以在任何时间都能看到最准确和最新的信息。主要应用在金融领域，可以跟踪和分析保险索赔数据、网络流量和金融交易模型。盈利模式主要是售卖软件，每套软件500万－1000万美元不等，20%的预付款，剩余部分在用户满意后结清。

直到2008年，CIA还是Palantir的唯一大客户，2010年开始拓展非政府企业客户，主要还是银行和金融机构的客户。2016年，Palantir开始流失一些大客户，例如可口可乐、AmericanExpress和纳斯达克，主要原因是价格太昂贵，据报道这些大客户的五年期合同，最后一年的价格可达到1800万美元。Palantir的年收入已经达到15亿美元以上。

8）Qualtrics：利用用户行为数据进行分析调查

Qualtrics是提供网上调查服务的软件公司，不同于一般调查问卷式的在线调查，它是通过采集使用者行为数据，比如一次促销活动的页面点击次数、浏览时间、用户满意度、员工敬业度、品牌、营销和反馈等360度的数据，为客户进行全面的分析，帮助客户作出明智的、数据驱动的业务决策。有免费版本也有付费版本，付费有299美元／年、599美元／年的版本，企业级用户需要定制化的需要直接联系销售报价。

全球拥有8500多家企业客户，包括财富100强企业的一半。由于最早是服务于心理学教授和科研机构，因此目前还有美国各大学和99所顶尖商学院在使用Qualtrics产品。平台日活用户有200万，收入已突破2亿美元。

9）Docker：开源的应用容器引擎

Docker是一个开源的应用容器引擎，通过Docker程序员可以直接把代码放到“容器”里面，然后方便的在各个云端或设备上运行。相比其他技术，它能让更多数量的应用程序在同一硬件上运行，让开发人员可以快速构建可随时运行的容器化应用程序，大大简化了管理和部署应用程序的任务。Docker有免费版也有付费版，付费版主要在Docker Store里面进行在线购买。主要的收入来源是售卖管理工具，例如Docker DataCenter，DataCenter的定价是每个节点每年1500-3000美元。

Docker已被下载了7亿多次，而且已经有成千上万的Docker容器被共享在了DockerHub应用商店，Docker Hub很可能最终会成为一个超大规模的软件组件市场，有巨大的商业潜力。

10）Pivotal：PaaS平台技术解决方案提供商

Pivotal是由EMC和VMware合资成立的软件公司，主要销售PaaS解决方案和提供咨询服务，目前Pivotal逐步向云计算以及数据处理技术等业务发展。PCF是Pivotal基于开源PaaS平台CloudFoundry打造的商业版软件，是Pivotal目前最重要的产品。PCF通过构建以容器为核心，面向数据的企业级的PaaS平台，使企业既满足使用Docker的需求，又能实现Pivotal Cloud Foundry提供的易用的企业级安全管理、应用管理、数据服务，并且能在所有主要客户所在的云服务器上运行。

PCF 2016年的收入就达到2亿美元，大数据系列产品年收入达到1亿美元，整体年收入达到近6亿美元。

11）CloudFlare：云安全及云加速服务商

CloudFlare是CloudFlare是一家云安全服务公司，不仅向客户提供网站安全管理、阻止黑客攻击和垃圾邮件等技术支持，还可以提高客户网站的性能和速度。它使用基于反向代理的CDN及分布式DNS，帮助受保护站点抵御包括DDoS在内的大多数网络攻击。它没有采用出售防火墙软件或者入侵防护硬件的传统方法，而是在云端提供价格低廉的保护。其路由器和服务器分布于世界各地的28座数据中心，会把客户的访问者重新定向到最近的CloudFlare服务器。它还可以通过反向代理提供网站加速服务，并且通过它部署在全球各大洲的缓存节点服务器，提供高效的加速服务。

在CloudFlare保护的超过600万家网站中，绝大部分都使用其免费的基础服务，约4%至5%的客户每月支付20-5000美元来获得加强版的功能。

12）Cylance：通过AI预测及防御的网络安全公司

Cylance是一家利用人工智能技术来识别并提供网络安全服务的公司。它通过将复杂的数学算法与机器学习及对黑客心理的分析相结合，提供预测和预防高级威胁的安全技术服务，能够准确的识别出威胁，防止恶意代码在目标系统上执行。同时Cylance可以将所有威胁情报信息与其他用户进行实时共享。而针对一些公司无法定期在线更新的用户， CylancePROTECT有一个非常可靠的离线工作方法，无需定期更新也能大概率的识别最新的网络安全威胁软件。目前CylancePROTECT能够提供高于传统网络安全软件两倍以上的识别及保护能力，能够拦截并隔离97％的恶意软件，而排名第二的产品仅检测到了67％。

到2017年初，Cylance员工增加到700多人，客户也增加到超过3000个。

13）Illumio：自适应云安全平台

Illumio是一个自适应云安全平台，主要为企业私有云、公有云、用户数据和云端数据等数据提供安全保障，帮助企业找出公司网络中潜在的恶意软件或未经授权的数据泄漏。Illumio构建的自适应安全架构，可以安全监控和防护每个工作单元或应用，而不是基于传统的边界防护，并适应私有服务器、公有云和混合云，任何规模和安全体系都可以灵活部署。并且用户可以使用自然语言编写安全策略，而不需要了解底层网络架构。

14）Lookout：移动领域的网络安全公司

Lookout是一家专注于移动领域的网络安全公司，在移动攻击造成伤害前就可以进行预测和拦截。Lookout之前主要开发面向普通消费者的手机安全产品，商业模式为免费增值，随后业务扩展，开始进入企业安全产品领域，开发了一个安全分析平台，以及一个专门面向安全应用的移动应用商店。其企业级产品的重点是将桌面的安全保护功能完整的迁移到移动端，手机上的数据和将要打开的网络链接都会受到保护。

Lookout的客户包括全球领先的移动网络运营商，例如AT&T、德意志电信、Sprint和TMobile等。其个人用户已多达5000万人，付费用户也多达数百万人。

15）Zscaler：多用户、分布式云安全平台

Zscaler凭借多用户、分布式的安全平台，为运营商级别的网络提供安全防护方案，使网络用户、物联网设备能够避免受到攻击威胁。Zscaler的产品在全球超过100个数据中心运行，通过软件与硬件结合的方式提供下一代防火墙、网络安全、沙盒、APT保护、数据丢失防护、SSL解密、策略管理和威胁情报功能，从而保证了骨干网络及接入的各种设备的使用安全。

截止2017年初，Zscaler被超过5000家企业使用，如美国联合航空公司、NBC和英国国民卫生服务等，还包括50家财富500强企业，保护超过1500万个人用户，其中50%来自美国以外。

无人车最新排名：谷歌第一，百度居中滴滴垫底

无人车竞争愈发激烈，市场瞬息风云变幻。虽然将无人车真正整合进入城市交通还有很多年的时间，但即使在当前这个早期阶段，谁先谁后状况已然分明。

过去一年已经证明，无人车竞赛看起来并没有想象中那么胶着。The Information 调查了整个无人车领域 15 大项目，采访了传统汽车制造商、湾区技术挑战者和创业公司的高管，为谁将最先真正部署无人车做了个详细的排名。

【核心要点】我们距离大规模部署真正意义上完全无人驾驶的汽车还有很远的距离。现在，由 Waymo 和 Uber（是的，Uber）为代表的科技公司在无人驾驶最关键的领域拥有传统汽车厂商所不具有的优势，将宝马和奥迪等大牌远远甩在后面。然而，要实现无人驾驶汽车真正上路，只有双方携手合作才行。

虽然一般人将无人车竞赛视为硅谷科技公司和底特律传统汽车制造商之间的战斗，但事实是双方需要彼此合作才能共同抵达终点。即使是 Waymo 和 Uber 这样在 The Information 排行上领先的公司，在完成全自主驾驶车辆方面也有很多工作要做。与此同时，传统的汽车制造商虽然榜上有名，但在某些关键领域还排名靠后，或者根本没有占据席位。

这份报告要揭露一个事实是，传统车厂在无人车领域并没有领先于科技公司。一些传统车厂的高管在过去一年中发表了与现实不符的公开声明（说的就是你，通用汽车和福特）。日前，The Information 就无人车开发现状，在山景城做了采访。

目前正在进行的大多数项目，要实现商业化还需要很长的时间，不用说规模化了。正如 The Information 专栏作家 Sam Lessin 所指出的那样，无人车没有所谓的信用评级可言，要么可用（近乎完美），要么不可用。

初创公司 Luminar Technologies 为自驾车生产激光雷达传感器。Luminar Technologies 首席执行官 Austin Russell 表示，很多公司就如何实现自动驾驶并没有明确的路线图，靠的是路上会出现的、供他们收购的其他系统。

The Information 排行从以下 3 个同等加权的标准来评估相关的自动驾驶项目。

1）技术（Technology），或者说该公司自主研发的无人驾驶系统准备好能上路（在基础设施良好的城市道路）的程度。这可能包括公开演示和性能数据。

2）工程（Engineering），公司内拥有机器人、传感器融合和地图测绘等无人驾驶汽车相关领域的人才储备。

3）商业模式（Business model），或者说公司将技术带入市场的轻松程度。

每家公司在每个类别中的分数为 0-5，最好为 5。排名旨在比较各方案彼此之间的优缺点；Waymo 技术得 5 分，意味着它目前是各家中最好的，但并不意味着 Waymo 技术可以上路了。另外，目前领先并不意味着接下来也会领先；谁笑到最后还不一定。

谷歌福特合作失败：科技公司省不了制造汽车这笔钱

在分析无人车进展情况时，商业模式没有得到足够的重视。在乘车共享网络中测试和让无人车车队上路，以及运营面向消费者的 App 的能力，可能是一大主要优点。

同样，真正把汽车制造出来也没有得到足够多的重视。如果软件公司想在无人车竞赛中先一步抵达终点，他们需要付钱让汽车制造商帮他们把汽车制造出来。

以前是谷歌无人车，现在独立出来的 Waymo 就是一个很好的例子。据两位知情人士透露，Waymo（当时仍然是谷歌的一部分）与福特为期 18 个月前的合作伙伴关系之所以告吹，就是因为 Waymo 不希望支付扩大制造能力的相关成本，哪怕这样做最终将有可能生产数千辆或数百万辆由谷歌软件驱动的无人驾驶轻型客车。

其中一位表示，与生产卡车相比，生产轻型乘用车对福特而言并没有多少利润可言，所以在这方面需要谷歌投资数数百乃至数千万美元。双方也在协商，是否让福特在最终谷歌无人车收入中抽成，从而使福特更容易承担扩大产能带来的更多成本。（相关代表公司对此没有进行评论。）

在福特和谷歌分手之后，谷歌的领导层（包括联合创始人 Sergey Brin 在内）同意与菲亚特克莱斯勒进行小规模交易。据悉，开始只需要几百辆混合动力车——现在有 600 辆，不需要克莱斯勒在制造上花很多钱。换句话说，如果想要规模化，Waymo 仍然会有一大笔费用得花。

大多数公司都在两方面都做投资，以此减少风险。一些汽车制造商正在为软件公司（克莱斯勒、沃尔沃、Uber）提供汽车，同时也试图建立自己的解决方案。Uber 正在开发一个内部解决方案，同时也为汽车制造商提供将其汽车纳入 Uber 乘车共享网络中的机会。（戴姆勒、梅赛德斯-奔驰的制造商已经有意向，但实际这样做还有好几年的时间）。这就意味着 Uber 将放弃一些价值或利润，但万一自己的无人车方案失败了，在 AV 这方面还能有些赚头。尽管 Uber 最近事件不断，高管纷纷离职，但令人吃惊的是，由于其固有的商业模式优势和公司仍然保有的人才，该公司在榜单上排名第二。

什么是真正的自动驾驶？标准不一

一直以来，关于到达什么阶段才算实现自动驾驶，一直有争论。Waymo 比竞争对手有更多的里程（300 多万英里，并且每天都在增加），但这家公司的高管在这方面只字不提。值得注意的是，并不是所有里程的价值都是一样的，单纯上路行驶并非目的，上路测试的主要目标之一，是要弄清楚车辆周围可能发生多长时间或者什么类型的状况。在涉及自主驾驶系统的技术要求方面，比如什么地图绘制方法，在哪里、如何使用深度学习算法，什么样的模拟软件可以帮助训练决策驱动算法，以及需要多少传感器才行，这些方面的答案都不是固定的。

另一个重要的考虑是，这些公司追求的目标并非一致。一些汽车制造商没有定义自己的系统在使用时有什么局限。即使在短期内也有不同的目标。NuTonomy（名单上的第 6 名）是一家目前在行业中受到最多关注的自驾软件初创公司，他们的目标是以每小时 35 英里或更短的速度上路行驶。特斯拉旨在将自主驾驶从高速公路上扩展到更复杂的城市街道。德尔福公司（Delphi）是榜单上唯一的直接汽车零部件供应商，他们希望为其传统客户——车厂——销售一个通用的无人驾驶解决方案，因此其实现路径可能会更简单。

还有一个外包的问题。汽车制造商依赖软件提供商，如 Mobileye，而 Mobileye 的目标是将自己的技术销售给尽可能多的客户，所以最终没有一个客户会有优势。而对于汽车制造商而言，依靠 Mobileye 有一个缺点，因为 Mobileye 可以保留车上摄像头产生的关键数据，以便持续改进自己的算法。

不断演进的技术：不列入考虑的变量

这份排名不考虑半自主驾驶（semi-autonomous）相关技术，因为半自主驾驶虽然会更早实现，也可能拯救人的生命，但不会改变大多数人的生活方式。我们的这项调查也不涉及正在开发的两种通信技术（用于车辆网，或让车辆与交通信号灯等道路基础设施进行交互）。在理论上说，这些技术对所有项目都一样。

有许多变量可能会影响一家公司的发展。汽车制造商能否更好地从更新的汽车，以无线的方式收集相机数据，从而帮助他们赶上像 Waymo 这样拥有大量数据的竞争对手？其他还有激光雷达的性能和价格、汽车安全软件乃至汽车操作系统。

传统汽车制造商参与无人车竞赛的风险特别高，因为有了乘车共享网络和自主驾驶技术，在发达市场销售的汽车数量几乎肯定会下降。汽车公司规模越大，这种风险也越大。即使汽车制造商能够自行研发出无人驾驶技术也无济于事，因为车厂本身是制造和销售汽车的。

为此，分析中几乎所有的汽车制造商都以参股等形式，建立了自己的汽车共享（通用汽车拥有 Maven，宝马拥有DriveNow，戴姆勒有 Car2Go）或乘车服务（福特购买了 Chariot，通用汽车在 Lyft 拥有大量股权，大众汽车公司拥有 Gett 的大量股权）。

一些知名汽车品牌如本田、派克集团（Peugeot）和现代汽车没在这方面投资，因为他们似乎没有真的想要研发自有的全自主汽车。此外，我们还排除了一些缺乏进入市场规模的创业公司：Aurora Innovation（由前谷歌无人车项目负责人 Chris Urmson 负责），Nuro，Optimus Ride 和 Drive.ai，这些公司可能是好的收购目标。另一家创业公司 Zoox 正试图在自驾车上实现苹果在手机上实现的成果，目标远大，但最终能否实现也很难说。

这个新兴行业中，还有一个比较高调的玩家——芯片制造商英伟达。英伟达承诺在明年之前帮助几家制造商开发完全自主的“AI车”。英伟达并没有收入在我们的排名中，不过这家公司最终可能会向其他公司销售大量的计算芯片。

15家L4自动驾驶汽车公司：技术、工程和商业模式综合评分

1.Waymo

技术：5

工程：4.5
商业模式：3.5

评分：13/15

几乎所有关注这一行业的人，包括Waymo 的竞争对手，都将 Alphabet 成立的新部门视为最大的敌人。Waymo 此前是谷歌的一部分，现在它似乎正面临失去其在汽车软件方面先发优势的危险，因为——如一位前谷歌汽车开发商所说——它在“煽动别人追求同样的价值主张”。

一年来很多事情都在改变。有些大型汽车制造商在无人驾驶软件计划中有多少漏洞已经很明显了。相比之下，Waymo 看起来更好。对手们也注意到了Waymo 在硬件方面的力量：它开发了自己的激光雷达传感器，通过发射激光来检测图像，据称其性能优于今天用于其他汽车的激光雷达。

虽然这段时间Waymo 失去了一些关键人物，但它保留了其他具有良好声誉和拥有近十年或更长的实战经验的人。这意味着他们知道什么技术方法是行不通的，而大多数竞争对手对此并不清楚。Dmitri Dolgov 领导的工程小组的一些关键名字是：Pierre-Yves Droz（激光雷达）; Nathaniel Fairfield（运动规划）; Andrew Chatham（数据软件基础设施，高清地图）; 软件工程师Mike Montemerlo ，他帮助领导斯坦福大学团队，在2005年——无人驾驶计划开始前四年，获得了无人驾驶汽车 DARPA “大挑战”赛。

该公司表示，正在菲尼克斯地区测试无人驾驶汽车的共享服务，尽管目前尚不清楚何时会有更广泛的商业发布，以及服务将如何受到地理区域的限制。虽然关于共享服务 Waymo 长时间来一直在与Lyft 沟通，但现在很难做到这一点。毕竟，Lyft 想和无人驾驶领域的每个玩家都合作，因为它缺乏资源，无法开发自己的无人驾驶程序。如果需要，Waymo 也完全有能力，并且非常乐意自己去开展无人驾驶的士服务。

剩下的一个大问题就是 Waymo 与汽车制造商达成长期协议的能力。如果不是菲亚特，那么也许会是本田。本田已经公开表示了兴趣。在测试其无人驾驶系统后，Waymo 可以开始考虑将其授权给其他汽车制造商了，高层们目前已经在讨论此事。

2.Uber

技术：3

工程：4

商业模式：5

评分：12/15

Uber 的无人驾驶汽车计划负责人 Anthony Levandowski 和 Uber 首席执行官Travis Kalanick曾经屡次向同事们表示，无人驾驶车辆是赢家通吃的市场，他担心如果 Waymo 领先太多，可能会吃掉 Uber 的份额。Levandowski 私底下对至少一位同事表示过，他的团队与 Waymo 有5 年的差距，但还有机会成为其主要的对手。Uber 无人驾驶测试的泄漏数据凸显了Uber 技术的稚嫩。

然而，Uber在商业模式方面与 Waymo 相比具有优势：

首先，Uber 现在拥有交通服务，它计划在准备好时随时插入无人驾驶车辆，而 Waymo 则必须与外部合作伙伴（如Lyft）合作。因为 Waymo自己的无人驾驶汽车分享服务需要按城市慢慢推出，Uber 应该有时间赶上。与此同时，Uber 可能会大大降低票价，以防止 Waymo 在其运营的地方攫取市场份额，那些尝鲜的乘客除外。Waymo 系统不会像Uber的人类司机一样无处不在，所以实用性应该比新鲜感更重要。

第二，Uber 是一家业务型公司，知道如何在世界各地的城市经营业务，并且可以部署专门的专业人士来管理 Uber 车队中的无人驾驶车辆。

第三，根据 Uber 的一位消息人士称，Uber 与沃尔沃的协议涉及数千辆汽车，而不仅是Waymo和Chrysler 的数百辆。

在人才方面，和 Waymo 一样，Uber 在最近几个月失去了一些重要人物。但它也保留了很多：在匹兹堡，有 CMU 的 DavidStager（系统工程），Dan Tascione（软件基础设施）; 和Jeff Schneider（机器学习）; 在旧金山，Andrew Gray（认知），以前在特斯拉和 Cruise 工作。

3.Daimler

技术：3

工程：3.5

商业模式：3.5

评分：10/15

在德国主要的汽车品牌中，戴姆勒开发半自动驾驶功能最为积极。尽管公司还没有透露自己完全无人驾驶汽车的开发计划，只是表示将在“未来十年的早期”启动某个项目。对其无人领域未来表现的期望几乎完全取决于它的声誉。

1月，戴姆勒公司宣布将与芯片制造商英伟达开发一款“AI车”，可能会尝试使用英伟达“端到端深度学习”的方式。这与戴姆勒无人驾驶计划负责人之前的声明相矛盾，他此前表示该公司的解决方案不是这样的。所以我们现在将忽略戴姆勒——英伟达的生命，并假设戴姆勒同意发布公告，只是为了从英伟达购买芯片时获得更好的价钱，而这个芯片正好可以用于现有的无人驾驶计划。

因为戴姆勒销售的汽车数量少于其他汽车制造商，其车辆经常是由富裕的个人购买的，所以有机会通过传统的经销商模式潜在地销售相当数量的汽车。客户可能会自己购买昂贵的无人车，而不是通过乘车分享网络与其他人分享汽车。戴姆勒没有给出发布全无人驾驶汽车的确切时间——除了说至少要三年，而且大概会运行无人驾驶的士服务。通过汽车分享子公司 Car2Go，戴姆勒已经在北美、欧洲和中国的30个城市经营了数千辆车辆。这可能会派上用场。

4.Delphi

技术：3

工程：3

商业模式：4

评分：10/15

像戴姆勒一样，德尔福也可能被高估了。但它是无人驾驶汽车界的玩家中最为认真的汽车供应商。这部分是因为其 2015 年收购了 Ottomatika，分拆自 CMU（无人驾驶汽车和机器人研究的温床），其中包括一个工程团队和为无人驾驶系统提供动力的软件。在德尔福 CTO Glen De Vos 的引领下，Ottomatika的大部分核心团队留在了德尔福，三年的成本为 3000万美元——在2017年，这是多么便宜的无人驾驶汽车人才啊！

和与 Mobileye 合作的汽车制造商不同，德尔福在本列表的评级与不会因与英特尔收购的以色列芯片制造商的合作而下降。那是因为德尔福的商业模式是不同的; 它正在致力于可以卖给尚未拥有自己内部程序的多个汽车制造商的产品。

德尔福比大多数玩家更快地在公众面前进行了无人驾驶汽车合格测试。作为通用汽车公司的前汽车零部件部门，德尔福上周宣布，将在法国诺曼底运营两辆无人驾驶车辆，作为新加坡和某未知美国城市的计划的补充。它这么做是为了训练其计划在2019年前向汽车制造商销售的无人驾驶系统。这意味着到2021年，它理论上将可以向终端客户大规模供货了。

5.Tesla

技术：3.5

工程：3

商业模式：3

评分：9.5/15

打赌特斯拉能赢得这场竞争，意味着和绝大多数坚持认为激光雷达是完全无人驾驶必需品的的人作对。首席执行官 Elon Musk 天下闻名，他说特斯拉认为传感器既不必需，又很昂贵，摄像头和雷达本身就应该够了。 “如果我们错了，那就是一个大错”一个了解特斯拉战略的人说。激光雷达的价格也会下降，而且随着时间的推移，Musk 也许会改变想法。现在，即使是市场领导者Velodyne 制造的激光雷达对于商业车辆或者“无人驾驶级别”来说也还不够好，而且还有大量积压的订单。

了解特斯拉无人驾驶汽车世界观的人这么说：解决无人驾驶问题，通过花更多的钱将大量的传感器和摄像头放在汽车上，并且“强迫它”——像 Waymo 的做法那样——更容易；另一方面，特斯拉想要实现无人驾驶，实现足以吸引消费者的低价格，或者作为买家，或者作为分享汽车的乘客。（这将需要特斯拉核心竞争力的转变，但转变并不像其他汽车制造商那样巨大，那些制造商每周都不会像特斯拉那样将软件更新到他们的汽车）特斯拉还有能力在多个国家制造和分销汽车，并为他们服务。

留住一直是过去一年的一个问题，特斯拉的无人驾驶团队的几个关键人物离开了，去了英伟达、奥迪、Uber 和 Aurora。

但是，如果开发无人驾驶汽车是一场竞赛，竞赛的内容是看看谁能够尽可能多地收集驾驶数据，以便训练算法来了解驾驶员可能遇到的各种场景，并作出正确的决定，则特斯拉是一个沉睡的巨人。因为它的汽车有摄像头，因为这些汽车连接到互联网。特斯拉不仅支持汽车在高速公路上进行半自主驾驶，而且从城市驾驶也可以获取数据，尽管它一直在保证自己从来没有从所有者那里收集识别数据。

特斯拉使用 Mobileye 技术通过摄像头识别物体，直到去年两家公司分道扬镳。这一拆分降低了自动驾驶模式的水平。一年之后，特斯拉表示，它与“接近了以前使用 Mobileye的障碍物检测时达到的水平。也许这就是为什么 Musk 先生说两年后，客户就可以在特斯拉汽车内闭上眼睛，一觉睡到目的地。当然或许这只是他良好销售技艺的体现。

6. nuTonomy

技术：3

工程：3

商业模式：3

评分：9/15

这是目前业界最知名的独立创业公司，拥有100多名员工。 NuTonomy在新加坡和波士顿的道路上测试了大约十几辆自动驾驶汽车，并且它们已经累积了数千公里的测试历程。 NuTonomy表示明年将推出一个商业机器人出租车服务。首席执行官卡尔·伊涅米玛（Karl Iagnemma）曾公开展示过他的车辆处理复杂情况，包括通过交通堵塞，交叉路口，行人附近，停车位，建筑区和雨中驾驶的能力。

NuTonomy是由“新”和“自动”相结合的名称，由马萨诸塞理工学院的两名教师创立，其中包括“快速探索随机树”算法的早期研究员。 Iagnemma 说，当一辆自主的汽车需要规划其路线时，这些算法会派上用场。标致（Peugeot）的母公司 PSA PSA正在将 nuTonomy的软件与其几款车辆整合在一起。如果顺利进行，他们合作可能会产生一个庞大的自动驾驶舰队。

NuTonomy已经开发了所谓的车队管理软件，并计划在现有的共享汽车网络中部署其车辆。业内人士表示，目前，nuTonomy在筹集了2000万美元之后，目前正在展开新一轮融资。

7. 百度

技术：2

工程：3

商业模式：3.5

评分：8.5/15

百度，中国的谷歌，在这个名单中可能被高估了。其自动驾驶项目的主管王劲最近辞职。不久之前，著名的深度学习专家吴恩达也从百度离职，他也曾参与百度无人驾驶的研究工作（也许他会参与Drive.ai，在那里他的妻子是联合创始人？）百度计划在7月份开源一些自动驾驶软件，以便其他开发人员可以使用它来改进自动驾驶，从另一个方面来看，这意味着百度的技术可能还不够好。而百度核心业务上面临的问题意味着将资源投入汽车计划的能力较弱。

虽然如此，百度是中国唯一一个真正在开发自动驾驶汽车的厂商之一，并且与许多中国汽车制造商有着紧密的联系。毫无疑问，在调试和发布汽车时，它将有一个先天优势。很难想象一个外国的项目会在这个市场上胜出。这就是为什么值得关注的是王劲，他正在推出自己的自动驾驶创业公司。

8. GM/Cruise

技术：2.5

工程：2.5

商业模式：3

评分：8/15

通用汽车在2016年初以5.81亿美元的价格买下自动驾驶公司 Cruise，这似乎是一个聪明的方法：既在无人驾驶的版图上抢到了自己的位置，同时也获得了很难招到的软件人才。但是，在今天看来，通用汽车的赌注似乎下得太早了。在过去的一年中，比Cruise的团队拥有更丰富的自动驾驶汽车研究经验的团队逐渐开始创业。

现在，Cruise 领先与其在底特律的对手，其自动驾驶汽车在旧金山的复杂街道上行驶超过10,000英里。但是，这些车似乎并不像Cruise所说的那样好，这里的“不好”指的是犯错误的频率方面。不过，通用汽车公司的领导层依然对 Cruise 首席执行官凯尔·沃格特（Kyle Vogt）报以信任。关于如何商业化自动驾驶汽车，他被赋予重任。该公司表示将在今年年底前推出小规模的机器人出租车实验。（到目前为止，他们本应该已经通过 Lyft 推出机器人出租车服务，考虑到通用拥有 Lyft的股份，他们所花的时间是不是有点过长了。）

通用汽车的股东可能不愿意再进行大笔的收购，但，他们可能没有更多的选择。

9. Nissan-Renault

技术：2.5

工程：2.5

商业模式：3

评分：8/15

归功于其极有个人魅力的CEO卡洛斯·戈恩（Carlos Ghosn），日产（Nissan ）是最早为无人驾驶上路设定清晰时间点——2020年的汽车制造商之一。它的原型车在加利福尼亚的公共道路上已经进行了数千里程的测试，在日本和英国，也有额外的测试，这让它比其他汽车制造商更有经验。

虽然还不清楚公司的技术团队是否走了正确的道路，但是，至少，他们已经在思考如何实时地修正自动驾驶汽车在公路上行驶时可能会发生的错误。它正在开发的远程操作功能允许在中央位置的操作人员向汽车发送关于如何操纵，以通过不知道如何处理的施工区域的指令。缺点是很难看到这种系统如何扩展，同时帮助成千上万的司机。

10.Toyota

技术: 1.5
工程: 3
商业模式: 3

评分: 7.5 /15

人工智能≠类人智能

一、

人们对于人工智能这个热点话题仍说法各异。

像史蒂芬·霍金、伊隆·马斯克、比尔·盖茨这样的专家，最近越发看重它的潜力和威胁。在读完尼克·博斯特伦《超级人工智能》一书后，马斯克大声质问，人工智能是否是”我们现在最大的威胁”。

我们对于人工智能流行的说法被人类伦理所扭曲了。人们对于人工智能的分歧不仅仅体现在它的威胁上，对于强人工智能是否会出现也有不同的看法。一些人认为具备人类相当水平的“强人工智能”（hard A.I.）永远不可能存在，但也有人认为这种趋势将势不可挡。但在很多情况下，这些争论可能偏离了真正的含义：人工智能在存在和思想上，可能和人类自身形式有很大的不同。

简而言之，这种观点表明，一种成熟的人工智能不一定是仿人的智能，或者由我们支配。如果我们以错误的方式去寻找人工智能，它出现的形式可能就会是：难以识别、风险扩大并且延迟收益。

这不仅仅是对于未来的担忧。人工智能早已走出实验室，并且深入日常生活。“弱人工智能”（Soft A.I.），比如苹果的Siri和亚马逊的推荐引擎，以及人工智能基础设施，比如高频算法交易，智能汽车和工业机器人已成为日常生活的一部分，与我们的工具使用、城市发展、经济建设和商品贸易息息相关。

不幸的是，人工智能的主流观点，起码在无数的电影、游戏和书籍中描述的，依然假定那些与人相似的特征（愤怒、嫉妒、困惑、贪婪、骄傲、欲望,更不用说冷漠疏远）是人工智能最重要的部分。这种错误的人类中心主义也许和现在的人工智能研究相去甚远，但这也侧面反映了我们的文化如何看待自我和高级合成认知（advanced syntheticcognition）。

在斯蒂文·斯皮尔伯格2001年的电影《A.I. Artificial Intelligence》中，那个小男孩机器人想要成为真正的男孩，虽然他只有一颗小金属心灵，而天网在电影《Terminator》中则沉迷于人类毁灭。我们不假思索的假定，斯坦利·库布里克和亚瑟·查理斯·克拉克1968年的电影《2001: A Space Odyssey》里的巨石Monoliths是在和人类主人公大卫交流，而不是他宇宙飞船上的人工智能：HAL 9000。

我认为我们应该停止这样的想法：真正的人工智能必须深切考虑到人类，尤其是以人作为它的关注点和动机。也许我们真正害怕的，并非是一台杀死我们的大机器，而是它认为我们无关紧要。这比被视作敌人更加糟糕。

除非我们假设，类人智能代表了所有可能的智能形式（这当然是自欺欺人），否则为什么要根据和我们的相似性来定义先进的人工智能？毕竟“智能”非常难以定义，而人类智能又无法简单地包含所有可能性。即便在实验室它具有实用的价值，但从文化角度，它还是适得其反，是不道德甚至是危险的。

我们不需要如此狭隘和自恋的人工智能观念，所以不能仅仅把我们自身的特性映射到机器的版本中。如果把这种狭隘的观念作为人类和人工智能沟通的基础，这个前提就已经是错误的了。更不用说，历史上不同群体的“第一次接触”，即使是在人类之间，也往往是不愉快的经历

二、

从雷德利·斯科特的《银翼杀手》到斯派克·琼斯的《她》，这些无数的科幻电影在测试人工智能的能力的时候，都要看它是否能被“以人相待”。这种观点从人工智能研究开始一直伴随到现在。这最早可以回溯到1950 年，英国数学家阿兰·图灵发表了论文《计算机器与智能》，那时候他提出了“模仿游戏”测试，也就是我们今天说的“图灵测试”。虽然版本有所不同，但它揭示了我们研究人工智能文化和道德的方法论定义了人工智能本身：无论是好的还是坏的。

最让人熟悉的版本是：提问者向两个隐藏的参赛者提问，一个是人，另一个是计算机。图灵认为，如果提问者不能区分两者的身份，并且计算机能成功假扮成人，那么就成功通过测试。从实践目的来说，计算机不就是“智能”的吗？

计算机需要假装成人以通过人类的测试，而图灵需要隐藏同性恋倾向以通过“直男测试”，这真是有趣的巧合。

遗憾的是，更多的人仅仅“知道”图灵测试，而没有真正阅读过。图灵的文本是非凡、奇妙而令人惊讶的。图灵说他的测试是一种流行客厅游戏的变种：有两个藏在幕后的参赛者，一位女性（参赛者A）和一位男性（参赛者B），他们需要努力说服，让第三个人认为自己是一名女性，通过手写回答问题的方式。为了获胜，一个参赛者必须令人信服的扮演自己，而另一方需要假扮成另一种性别。图灵用计算机取代了玩家A，在字面上你可以理解为，计算机不仅仅要扮演一个人，而且得扮演成女性才能通过测试。

在其他版本的测试中，参赛者B可以是男性，也可以是女性。游戏里可以一个人假装、或者两人假装、抑或两人都不假装，也可以是完全不同的游戏。既然我们让计算机参赛，我们可以让它假扮成女性或男性，这个角色假扮成女性，让询问者分不清男女。也可以玩的更加复杂，计算机假扮成试图假装女人的男人，同时还有一个真的人也在这么做。甚至说，让计算机假扮成为这样的女性，她假扮成试图假装女人的男人。毕竟在现实生活中，这些情况都有可能发生。

莫腾·泰杜姆导演的《模仿游戏》获得了2014年奥斯卡大奖。在那个同性恋被视作犯罪的年代，即便是身为数学家的图灵也得假扮成“直男”。而当他的性倾向暴露时，不得不接受可怕的“化学阉割”治疗。最终，在巨大的身体和精神痛楚下，图灵自杀了。这是历史上荒诞的插曲，当时他对击败希特勒军队的贡献还是一个国家机密。直到最近，图灵才得到了英女王的皇家豁免，然而类似法律下被惩处的其他成千上万的英国男子却未被豁免。

计算机被要求通过测试来证明智力，和图灵被要求假扮成直男来通过测试，这里面有着讽刺的对应，既哗众取宠也极度不公平。

无论是以白人或黑人、男人或女人的身份通过测试，基本上都取决于他人的观察和解释。因为其他人都已经习惯于传统的暗示（种族，性，性别，物种等），所以无论谁想通过测试，都只有和观察者进行共谋。至于人工智能是否愿意这么做，或者仅仅被拖过来完成测试，那就是另一个问题了。无论如何，通过与否更多关乎观众，而非被测试者的表现。

我们最好这样假定，在宇宙中思考是多样化的行为，即便是外星人也会思考，人类并非是特殊的个案。相对于人类教育机器如何思考，人工智能真正的哲学问题是，机器如何教育人类在一个更完整和真实的维度里思考。

三、

过去我们总是根据模拟人类思维的能力来定义人工智能存在，在未来看来，这种想法其实只是一种奇怪的物种偏见。在这种想法下，早期人工智能研究者试图在机器中重建人类思维，但这根本行不通。相反，现代的研究者认为，如果机器能在特定领域里把事情做好，就可以被称作“智能的”，而不是它能在多大程度反映出人类思想。Stuart Russell和PeterNorvig（现任谷歌研究院主任）在他们重要的著作《人工智能》中就指出了，对生物形态的简单模仿并不足以应用于复杂精巧的现代科技：飞机并不以鸟类的方式飞行，我们在测试飞机是否是“真正的”飞行器时，当然也不会去看看鸟类是否会把飞机与同类混淆。既然如此，为什么人们对人工智能采用了这样的判断标准呢？现代务实的人工智能研究并不会把图灵测试作为成功的标准，然而在流行文化中，这种人类中心主义的测试却在长期受到重视。人们对于人工智能的想象大多数还停留在迪士尼电影中会说话的动物这一层次上，而这其实不过是一种幼稚的口技而已。

有人会说：把模仿人类形态作为人工智能的先决条件不够科学，是一种“前哥白尼”时代的观点。那么这种观点真正的问题在哪里呢？如果在未来，我们日常所见的人工智能都具有某种人性，情形会怎么样呢？好的方面是我们会与机器智慧建立一种更为真诚而清醒的关系，而坏的方面是，如果我们对生命体抱有这样的幻想，将会损失更多可能性。有些哲学家已经思考赋予有感情的机器以伦理权利了，但我想要说的不是这个，事实上，我们在思考这些人工智能体的时候，应该寻找更为真实的视角。

马斯克、盖茨和霍金关于人工智能威胁的言论引起了广泛的关注。他们的观点很重要，但是，恐怕大多数读者都误解了他们。如果我们像1942年阿西莫夫“机器人三大定律“一样，寄希望于给机器人编程，禁止它们伤害人类，首先我们就要让机器人能够理解什么是“人类”，以及什么是“伤害”。机器人并不需要做什么恶毒的行为就可以伤害到人类，一个最简单的例子就是：它们只要把人类正常含义的指令以一种机械而极端的方式执行，就足以带来一场灾难。人工智能真正的威胁不在于机械故障或者对于反人类道德的举动，而是在于它们智力强大，却对人类漠不关心。如果我们像以前那样，依据它们与人类的相似性来定义人工智能，并假定它们全心专注于人类事务，我们就更加面临着这方面的风险。

不管想象中的“强人工智能”是否真正会出现，如果我们总是坚持一种我们已经知道其错误的信念，我们将会错失发现和理解人工智能的良机。在1950年的那篇文章中，图灵提到了对他设想的人工智能的很多反驳意见，令人印象深刻的是，他把对人工智能的反对与当年天主教会反对哥白尼天文学相类比。哥白尼的发现使人们放弃了自己处于宇宙中心，具有绝对优越性的错误观点，这种发现是不可估量的巨大成就。这使得人类更清醒地认识世界，把世界实际的状态，而不是从我们这个角度能够观察到的状态，作为思想的基础。图灵把这些反驳意见作为“神学的反对意见”。另一方面，也会有人说，不管图灵测试有多么悠久，把类人智能作为人工智能的先决条件，也同样与“前哥白尼时代”的人类中心主义无异。先进的、不像人类的人工智能的到来，可能会带来一场新的觉醒，使我们对于我们自身、我们所处的环境、以及什么是真正的“智能”有更为清醒的认识。这样我们建立的世界模型就更加接近世界真实的样子，我们对于未来也会更有信心，这总是一件好的事情。

最后，这种想法延续了过去人类与技术的关系，这种关系已经把我们带到了“第六次物种大灭绝”的边缘。按理说，人类中心主义本身并不是来自走向疯狂的技术，而更多地是由于人文主义的遗产，使得我们总是幻想世界是按我们人类的设想，依人类的需要而建立的。这些幻想常常能从现代的意见领袖口中听到，他们向大家布道，勾勒了一个美好的世界，在那里机器是为人的需要和愿望而服务的。如果你真的这样认为，就上网查一下“杀猪机器人”（不要真的这样做），然后我们再来谈谈一个机器完全服从于人的需要的世界是什么样的。

有人或许在想，我们人类社会也经历了从奴隶制度、神权制度到法制社会，所以即便到了2015 年，对机器来说又何尝不可？这种情绪（更精确地说，是这种技术哲学）本质上就是带来人类中心主义困境的原因，如果继续坚持这种观点，我们也很难顺利走向人工智能。人类如果继续坚持这种妄自尊大的习俗，未来将会付出过于高昂的代价。现在，到了我们改变的时候了。

金准数据中国第三方移动支付行业研究报告

开篇摘要

2016年中国第三方移动支付快速增长，交易规模达到58.8万亿元人民币。2016年市场份额的集中度上升，财付通前三季度市场份额增长十分迅速，但伴随竞争战略调整，支付宝市场份额四季度开始出现明显反弹。

长期来看支付将成为低毛利的业务，第三方支付企业的竞争主要将围绕适用场景、数据维度的丰富展开，有价值的数据积累才是有经济效益的支付。因此不仅要看支付笔数和份额，还要看一个用户是否在多个支付场景活跃。2016年4季度，中国第三方移动支付中具有经济效益的交易规模为11.9万亿人民币，支付宝市场份额约为61.5%，财付通约为26.0%。

据估算，2016年我国非现金支付渗透率为42.2%，其中线下扫码支付的渗透率只有1.9%。未来2-3年，线下支付市场将进入加速增长阶段，市场竞争将更加激烈，竞争格局仍在动态演进中。

未来，随着金融科技与移动支付的加速结合，生物识别支付将取代手机扫码支付，成为推动无现金进程的主力。相较国外发展更为领先的中国移动支付企业，将进一步“走出去”建立全球化的移动支付网络。

一、第三方移动支付行业现状

第三方移动支付行业大观

行业规模持续增长

数据显示，中国第三方移动支付交易规模持续增长，2016年移动支付交易规模约为58.8万亿元人民币，较去年同比增长381.9%。艾瑞分析认为，这可以归因为以下三点：首先，移动设备的普及和移动互联网技术的提升为第三方移动支付提供了必要的发展环境；其次，现象级产品的出现使得移动支付用户数大幅提升；第三，移动支付对用户生活场景的覆盖度大幅提升使得用户使用频率增加。但随着移动设备渗透率和生活场景覆盖率的日趋饱和，行业规模的进一步发展需要从新的发力点进行推动。

市场份额高度集中于支付宝、财付通

2016年第四季度的数据显示，支付宝的市场份额达到了55%，财付通市场份额约为37%，其他众多支付企业的市场份额之和约为8%。值得注意的是，财付通前三季度市场份额增长十分迅速，但四季度开始行业格局趋于平稳，支付宝市场份额出现反弹。在行业整体规模增长迅速的同时，第三方移动支付行业出现了市场份额集中的现象。支付宝和财付通拥有庞大的用户群体和丰富的支付场景，占据了绝对的市场优势，并且仍在不断培养用户粘性、开拓新的支付场景以巩固行业地位。艾瑞认为，正如其他的互联网细分行业市场份额高度集中在两三家企业一样，移动支付行业形成支付宝、财付通占据主导地位也是市场选择的结果，而其他市场份额较小的企业也在积极发挥自身优势，走差异化发展道路，加之互联网行业创新速度较快，未来的行业格局对各个参与者都充满了机会与挑战。

移动支付丰富度不断提升

适用场景增加支撑众多行业发展，多维度数据增添附加价值

随着移动设备的普及和移动互联网技术的提升，移动支付以其便利性、快捷性优势覆盖了用户生活的各个场景，涵盖网络购物、转账汇款、公共缴费、手机话费、公共交通、商场购物、个人理财等诸多领域。伴随着支付场景丰富度而来的是支付数据规模与维度的扩增，对支付数据的挖掘与利用使支付的价值不仅限于其本身。支付作为标准化的服务，长期来看是低毛利业务，但核心价值在于连接和积累数据。场景越全面，客户画像更精准。因此不仅要看支付笔数和份额，还要看一个用户是否在多个场景活跃。

支付本质在于连接用户、商户和产品

具有经济效益的支付凝聚核心价值

支付的本质在于链接用户、商户和产品，正是因为这种链接的特性，支付能够更多创造商业价值，而其核心价值便在于有效的数据积累。不同类型的支付，数据价值不同，支付场景的丰富度提升，使支付核心价值得以积累。

在第三方支付业务中，单笔支付交易能否产生营收，即具有经济效益的交易额，是对企业进行估值的重要因素之一。2016Q4，中国第三方移动支付交易规模为18.5万亿元人民币，其中具有经济效益的交易规模为11.9万亿人民币，支付宝的市场规模占比最大，达到了61.5%，财付通次之，占比26.0%。

二、移动支付成为线下生态连接点

线下支付发展现状

无现金社会进程达到42.2%

2016年，线下扫码支付的迅速发展成为移动支付行业的一大亮点。艾瑞估算，2016年我国非现金支付渗透率为42.2%，其中线下扫码支付的渗透率为1.9%。随着用户线下移动支付习惯的进一步培养，线下扫码支付规模将迎来进一步地爆发，继而成为推动我国无现金社会进程的主力军。

线下支付发展现状

线下扫码支付行业进入加速发展期

随着线下扫码支付覆盖的场景不断增多，不同行业的扫码支付解决方案也不断丰富。一方面，线下扫码支付简单快捷，为用户带来了便捷的消费体验，另一方面，接入线下扫码支付的商家也享受到了数字化营销与经营所带来的收益增加。用户与商家双赢的局面极大的促进了线下扫码支付的快速拓展。不过，目前线下支付仍处于竞争的初期，尚处于胶着状态。尽管腾讯略领先，但这个市场即将进入S曲线发展最快的阶段，随着市场主要玩家加大投入，未来市场格局还需观察。而且随着支付连接越来越普遍，以后对于用户和商户来说，差异化的认知更为重要。其中微信的优势是用户活跃、便捷，而支付宝的优势是对商家和用户的综合化金融服务和信用体系。

信用应用的差异化

底层数据的属性区别导致信用应用的差异化

由于所掌握的底层数据属性存在不同，所以不同企业产生了数据的信用应用差异。以支付宝与财付通为例，支付宝掌握了大量用户的商业交易数据，正在形成线上和线下的新零售闭环，数据与金融业务的相关度较高，特别是在信贷等方向。而财付通主要掌握用户的社交数据，这意味着财付通能够更好地辨别用户身份，对用户的人际和社交关系进行梳理，这在很大程度上决定了财付通在身份识别的反欺诈具有优势。

三、移动支付促进互联网红利扁平化传播

四、围绕移动支付的生态建设

五、移动支付发展趋势

如何让AI智能体学会合作、竞争与交流？

在多智能体环境（Multiagent environments）中，智能体之间对资源的恶性竞争现象无疑是通往通用人工智能（Artificial general intelligence, AGI）路上的一块绊脚石。多智能体环境具有两大实用的特性：首先，它提供了一个原生的课程（Natural curriculum）——这里环境的困难程度取决于竞争对手的能力（而如果你是与自身的克隆进行竞争，则该环境与你的能力等级是相当匹配的）；其次，多智能体环境不具有稳定的平衡：因为无论智能体多么聪明，总是存在着更大压力使得它更加聪明。这些环境与传统环境有着非常大的不同，因此还有更多的研究有待进行。

据了解，来自OpenAI的研究员发明了一种新算法——MADDPG。该算法适用于多智能体环境下的集中式学习（Centralized learning）和分散式执行（Decentralized execution），并且允许智能体之间学会协作与竞争。

四个红色智能体通过MADDPG算法进行训练，它们的目标任务是追逐图中的两个绿色智能体。其中四个红色智能体为了获得更高的回报，学会了互相配合，共同去追捕其中一个绿色智能体。而与此同时，两个绿色智能体也学会了分开行动，其中一个智能体负责将四个红色智能体吸引开，然后另一个绿色智能体则乘机去接近水源（由蓝色圆圈表示）。

事实上，MADDPG算法并非完全原创，它扩展自一个被称为DDPG的增强学习（Reinforcement learning）算法，灵感则来源于基于Actor-Critic的增强学习技术。另外据雷锋网了解，还有许多其它团队也正在探索这些算法的变种以及并行化实现。

该算法将模拟中的每个智能体视为一个“Actor”，并且每个Actor将从“Critic”那儿获得建议，这些建议可以帮助Actor在训练过程中决定哪些行为是需要加强的。通常而言，Critic试图预测在某一特定状态下的行动所带来的价值（比如，我们期望能够获得的奖励），而这一价值将被智能体（Actor）用于更新它的行动策略。这么做比起直接使用奖励来的更加稳定，因为直接使用奖励可能出现较大的差异变动。另外，为了使训练按全局协调方式行动的多个智能体（Multiple agents that can act in a globally-coordinated way）变得可行，OpenAI的研究员还增强了Critic的级别，以便于它们可以获取所有智能体的行为和观察。

据悉，MADDPG中的智能体在测试期间不需要访问中央的Critic，智能体们将根据自己的观察和对其它代理行为的预测而行动。由于每个智能体都有各自独立的集中式Critic，该方法能被用于模拟智能体之间任意的奖励结构，包括奖励冲突的对抗性案

OpenAI的研究员已经在多项任务中测试了该方法，并且实验结果表明，MADDPG在所有任务中的表现均优于DDPG。上边的动图自左向右依次展示了：两个AI智能体（蓝色圈）尝试前往指定地点，并且它们学会分开行动，以便于向反对智能体（红色圈）隐藏自己的目标地点；其中一个智能体将地标传达给另一个智能体；最后是三个智能体通过协调共同到达各自的地标，并且途中没有发生碰撞。

通过MADDPG训练的红色智能体比起通过DDPG训练的红色智能体表现出了更加复杂的行为。在上图的动画中，通过MADDPG（左图）和DDPG（右图）训练的红色智能体试图追逐绿色智能体，这期间它们可能需要通过绿色的森林或者躲避黑色的障碍物。

传统增强学习

传统的分散式增强学习（Descentralized reinforcement learning）方法，比如DDPG，actor-critic learning，deep Q-learning等等，在多智能体环境下的学习总是显得很挣扎，这是因为在每个步骤中，每个智能体都将尝试学习预测其它智能体的行动，并且同时还要采取自己的行动，这在竞争的情况下尤为如此。MADDPG启用了一个集中式Critic来向智能体提供同类代理的观察和潜在行为的信息，从而将一个不可预测的环境转换成可以预测的环境。

当前，梯度策略方法（Policy gradient methods）面临着更多的挑战。因为当奖励不一致的时候，这些方法很难得到正确的策略，并且表现出了高度的差异。另外研究员还发现，加入了Critic之后虽然提高了稳定性，但是依然无法解决多个环境之间诸如交流合作的问题。并且对于学习合作策略问题，在训练过程中综合考虑其它智能体的行为似乎是非常重要的。

初步研究

据雷锋网了解，在开发MADDPG之前，OpenAI研究员采用分散技术（Decentralized techniques）的时候，他们注意到，如果 Speaker发送不一致的消息，Listener通常会忽略掉发言智能体。然后，后者会将所有与Speaker的消息有关的权重设置为0，从而高效地忽略掉这些信息。

然而，一旦出现了这种情况，训练过程将难以恢复，因为缺乏了有效的反馈，Speaker永远也无法知道自己是否正确。为了解决这个问题，研究员发现了一个最近提出的分层强化学习(Hierarchical Reinforcement Learning)技术，该技术强制Listener将Speaker的消息纳入其决策过程。但是这个方案没有起到作用，因为尽管它强制Listener获取Speaker的消息，但这并不能帮助后者弄清哪些是相关的。最终，OpenAI提出的集中式Critic方法帮助解决了这些挑战，它帮助 Speaker了解哪些信息可能与其它智能体的行为是有关的。如果想获取更多的结果，可以观看原文链接里的视频。

下一步

智能体建模在人工智能研究中具有丰富的历史，并且其中许多的场景已经被广泛研究过了。以前的许多研究只在拥有很短的时长和很少的状态空间的游戏中进行。但是深度学习使得研究员们可以处理复杂的视觉输入，另外增强学习为学习长时间行为提供了工具。现在，研究员可以使用这些功能来一次性训练多个智能体，而不需要了解环境的动态变化（环境在每个时间步骤中是如何变化的），并且可以在学习来自环境的高维度信息的同时，解决涉及沟通和语言的更广泛的问题。

上一页 71 72 73 74 75 76 77 78 79 80 下一页