• 项目
首页>>文章列表 >>行业研究 >>金准产业研究 人工智能产业深度研究——半导体篇(上)

金准产业研究 人工智能产业深度研究——半导体篇(上)

前言

目前人工智能芯片仍多是以GPU, 张量处理器, 或FPGA+CPU 为主, 但未来ASIC将在边缘运算及设备端遍地开花,及逐步渗透云端市场,预估全球AI云端半导体市场于2018-2025年CAGR应有 37%,边缘运算及设备端半导体市场于2018-2025年CAGR应有 249%, 远超过全球半导体市场在同时间CAGR的5%, 占整体份额从2018年的1% 到2025年的10%,超过10倍数增长可期。

一、人工智能平台到底是工具还是应用?

人工智能平台包括芯片,模组,软件在一般人看起来像是一种新型应用但在我们看来人工智能芯片在整合软硬件后将成为各种物联网应用的提升效能工具平台这就像我们常用的微软Office软件微软Office软件是我们在办公室应付各种应用的生财工具因此人工智能平台除了被广泛利用在云端大数据的深度学习训练和推断外我们认为人工智能平台也将出现在各式各样的应用端的边缘设备,从英伟达公布的数字来看,早在2016年,公司就累计了7大领域高等教育,发展工具,互联网,自驾车,金融,政府,生命科学19439客户使用其深度学习的服务工具配合软件和之前在云端大数据的深度学习训练和推断的数据成果库来达到帮助使用者或取代使用者来执行更佳的智能判断推理。

虽然目前人工智能芯片仍多是以昂贵的图形处理器GPU),张量处理器Tensor Processing Unit),或现场可编程门阵列芯片配合中央处理器FPGA+CPU为主来用在云端的深度学习训练和推理的数据中心但未来特定用途集成电路ASIC将在边缘运算及设备端所需推理及训练设备遍地开花,及逐步渗透部分云端市场,成为人工智能芯片未来的成长动能我们预估全球人工智能云端半导体市场于2018-2025年复合成长率应有37%,边缘运算及设备端半导体市场于2018-2025年复合成长率应有249%请参考图表),远超过全球半导体市场在同时间的复合成长率的5%整体约占全球半导体市场的份额从2018年的1%到2025年的10%。

二、人工智能会渗入各领域应用-无所不在

当大多数的产业研究机构把自驾车Autonomous drive vehicle),虚拟/扩增实境Virtual Reality/Augmented Reality),无人商店Unmanned store),安防智能监控Smart Surveillance System),智能医疗,智能城市,和智能亿物联网Internet of ThingsIoT分别当作半导体产业不同的驱动引擎国金半导体研究团队认为其实自驾/电动车5G虚拟/扩增实境无人商店安防智能监控智能医疗,智能城市其实都只是人工智能亿物联网的延伸。

2.1无人驾驶/电动/联网车对半导体的需求爆增10

虽然全球汽车半导体产业,目前由传统的整合元件制造商IDM掌控,但未来很难说,主要是因为先进辅助或自动驾驶系统兴起,人工智能,摄像,传感,雷达芯片公司的出现。像英伟达图形处理器Xavier,Pegasus320,谷歌张量处理器Tensor Processing Unit,英特尔/Alt era/Mobil eye的CPU/FPGA/AI解决方案,地平线L3/L4自动驾驶Matrix1.0平台,征程2.0芯片),高通,联发科,华为/海思的5G无线通信平台及毫米波雷达,索尼,豪威的传感器,博通及瑞昱的以太网络芯片。尤其是自动驾驶对雷达,摄像头,传感器及芯片的3倍增幅千倍的3D视频数据的上传及云端的存储学习推理因无人驾驶车设备及云端建制成本高昂US$150000/Way mo车),额外成本必须由广大消费者共同分摊费用较有利,乘坐共享公交服务业产品运送的后勤支援业无人驾驶应会领先乘用车市场,而Way mo/谷歌将带动出租车/公交车自动驾驶市场,领先英伟达的自驾乘用车市场请参阅国金电动,无人驾驶,车联网的三部曲驱动力的深度报告),依照美国加州DMVDepartment of Moter Vehicles最新公布的资料显示Way mo于去年测试的120万英里中,每1000英里发生解除自驾系统状况频率是0.09次,运低于前年的0.179次,及通用Cruise的0.19次,苹果的872次,及Uber的2860次自动泊车、车道偏离检测、无人驾驶的带宽需求,及车内电线费用和重量的不断增加。为了让增加数倍的电子控制单元ECU能彼此间快速地沟通数倍的以太网路节点和转换器芯片需求便随之而来。

2.2无人商店及安防智能监控

除了自动驾车联网外最近风起云涌的无人商店和智能监控不也是利用大量监控摄像头配合三维人脸辨识系统二维码/近场通讯来收集大数据资料再透过WiFi/xDSL/光纤传输将资料送到云端人工智能储存与处理来达到无需柜台人员的无人商店和能随时辨识的视频智能监控而政府机关可透过此系统来调查人口移动来重新设计城市智能公共交通系统协寻通缉犯恐怖分子失踪人口及在展场车站机场学校大型活动场地的安全监护系统整合业者除可做无人商店外也可靠着人口动向来预测消费热点商家必备),人口居住热点房地产业必备),如果再配合无人商店,线上购物系统,和政府的大数据系统业者便可更精准的投送广告发展个人信用评级。类似于自驾车联网无人店和监控联网系统需要大量并且高清晰度的三维辨识摄像头和芯片传输系统和芯片和庞大的云端,边缘运算,及设备端的储存及智能训练及推理的各式高速芯片及软件。

2.3智能医疗

智能医疗系统可利用三维脸部个人辨识来挂号减少排队时间让看诊更顺畅。医院可收集资料并整合个人在不同医疗院所的所有医疗纪录医生可利用人工智能数据平台辅助做更精准的医疗判断减少重复用药的浪费和对病人的副作用医院可利用此大数据资料做更深入的医学研究数家政府医院应先抛砖引玉带头做整合。

2.4智能亿物联网

(1) 空污,水污染化学感测物联网政府是否应利用强制安装并定期检验各式气体/液体的物联网化学感测器在每部汽、机车和工厂排污管道上再透过大量的低耗能无线通讯将资料上传到云端储存和处理并透过人工智能来监测空污水污来收取空污或水污税

(2) 身份识别证明联网大型互联网企业像谷歌Googl US),百度Baidu US),腾讯00700.HK),或海康威视002415.SZ为何不能发展三维脸部个人辨识智能系统来整合所有的线上线下购物启动驾驶银行转帐/汇款/提款进入手机/电脑/应用App和政府机关办事所需要的身份证明。您可否想过你现在要纪录多少密码多少使用者名称身上带着多少付款软体银行卡,信用卡钞票居民身分证交通卡,驾照护照居民健康卡电梯卡加油卡金融社保卡大卖场会员证和各式通行卡

(3) 同步翻译连网目前先进智能芯片/软体的语音辨识速度太慢和不够精准的理解与翻译应是语言同步翻译机仍未大卖的主因但透过更高速的智能芯片无线通讯芯片和更庞大的语音数据库来训练云和端的人工智能的推理反应相信未来国际多种语言的零障碍沟通将指日可待

(4) 人工智能教师和消费机器人当把强大的人工智能导入到人工智能教师和消费机器人联网物中透过不断的反覆学习这不但可提升学生的教育水平和兴趣未来都能解决老人及残障人士的健康照顾清洁饮食娱乐保全等需求减少后代的负担及外佣虐老事件也明显能提升老人和残障人士的寿命和生活品质。

三、三种主流人工智能演算法

最早的人工智能出现及运用在1950-1980年代,接着转换到1980-2010年机器学习,从2010年以后,随着各种演算法CNNsRNNsDNNs等图影像视觉学习,辨识,推理的普及,让深入人工智能深入学习的突飞猛进。深度学习是人工智能和机器学习的一个子集,它使用多层人工神经网络在诸如对象检测,语音识别,语言翻译等任务中提供最先进的准确性。深度学习与传统的机器学习技术的不同之处在于,它们可以自动学习图像,视频或文本等数据的表示,而无需引入手工编码规则或人类领域知识。它们高度灵活的架构可以直接从原始数据中学习,并在提供更多数据时提高其预测准确性。人工智能的深度学习最近取得的许多突破,例如谷歌Deep Mind的AlphaGo及更强大的Alpha Zero陆续在围棋,西洋棋类比赛夺冠,谷歌Waymo英伟达的Xavier/Pegasus320Intel/Mobil eye的Eye4/5自动驾驶汽车解决方案,亚马逊的Alexa谷歌的Google Assistant苹果Siri,微软的Cortana及三星的Bixby智能语音助手等等。借助加速的深度学习框架,研究人员和数据科学家可以显着加快深度学习培训,可以从数天或数周的学习缩短到数小时。当模型可以部署时,开发人员可以依靠人工智能芯片加速的推理平台来实现云,边缘运算设备或自动驾驶汽车,为大多数计算密集型深度神经网络提供高性能,低延迟的推理。

3.1卷积神经网络CNNsConvolutional Neural Networks

卷积神经网络CNN是建立在模拟人类的视觉系统,并透过图影像分类模型的突破,也将是,主要来自于发现可以用于逐步提取图影像内容的更高和更高级别的表示。CNN是将图像的原始像素数据作为输入,并‚学习‛如何提取这些特征,并最终推断它们构成的对象。首先,CNN接收输入特征图三维矩阵,其中前两个维度的大小对应于图像的长度和宽度以像素为单位,第三维的大小为3对应于彩色图像的3个通道红色,绿色和蓝色CNN包括一堆模块,每个模块执行三个操作。举例而言,卷积将3x3过滤贴图的9个条件0,1套用先乘后求和以获得单个值5x5输入特征贴图的9个像素特征上,而得出3x3全新的卷积输出特征贴图。在每次卷积操作之后,会采用最大池演算法Max poolingCNN对卷积特征贴图进行下采样以节省处理时间,同时仍保留最关键的特征信息,最大池化是要从特征贴图上滑动并提取指定大小的图块2x2,对于每个图块,最大值将输出到新的特征贴图,并丢弃所有其他值。在卷积神经网络的末端是一个或多个完全连接的层,完全连接的层将一层中的每个神经元连接到另一层中的每个神经元。它原则上与多层感知器神经网络multi-layer perceptron neural networkMLP类似,他们的工作是根据卷积提取的特征进行分类,CNN可以包含更多或更少数量的卷积模块,以及更多或更少的完全连接层,工程师经常试验要找出能够为他们的模型产生最佳结果的配置。总之,CNN专门于图影像处理如自动驾驶汽车,安防,人脸辨识,及疾病图像辨识解决方案。

3.2循环神经网络RNNsRecurrent Neural Network

RNN是一类人工听觉及说话的神经网络,具有记忆或反馈回路,可以更好地识别数据中的模式。RNN是常规人工神经网络的扩展,它增加了将神经网络的隐藏层送回自身的连接-这些被称为循环连接。循环连接提供了一个循环网络,不仅可以看到它提供的当前数据样本,还可以看到它以前的隐藏状态。具有反馈回路的循环网络可以被视为神经网络的多个副本,其中一个的输出用作下一个的输入。与传统的神经网络不同,循环网络使用他们对过去事件的理解来处理输入向量,而不是每次都从头开始。当正在处理数据序列以进行分类决策或回归估计时,RNN特别有用,循环神经网络通常用于解决与时间序列数据相关的任务。不同于CNN专门于图影像处理,循环神经网络的应用包括自然语言处理,语音识别,机器翻译,字符级语言建模,图像分类,图像字幕,股票预测和金融工程。机器翻译是指使用机器将一种语言的源序列句子,段落,文档翻译成相应的目标序列或另一种语言的矢量。由于一个源句可以以许多不同的方式翻译,因此翻译基本上是一对多的,并且翻译功能被建模为有条件而非确定性。在神经机器翻译NMT中,我们让神经网络学习如何从数据而不是从一组设计规则进行翻译。由于我们处理时间序列数据,其中语境的上下文和顺序很重要,因此NMT的首选网络是递循环神经网络。可以使用称为注意的技术来增强NMT,这有助于模型将其焦点转移到输入的重要部分并改进预测过程。举两RNN的例子,为了跟踪你的自助餐厅主菜的哪一天,每周在同一天运行同一菜的严格时间表。如周一的汉堡包,周二的咖喱饭,周三的披萨,周四的生鱼片寿司和周五的意大利面。使用RNN,如果输出‚生鱼片寿司‛被反馈到网络中以确定星期五的菜肴,那么RNN将知道序列中的下一个主菜是意大利面因为它已经知道有订单而周四的菜刚刚发生,所以星期五的菜是下一个。另一个例子是如果我跑了10英里,需要喝一杯什么?人类可以根据过去的经验想出如何填补空白。由于RNN的记忆功能,可以预测接下来会发生什么,因为它可能有足够的训练记忆,类似这样的句子以‚水‛结束以完成答案。

3.3深度神经网络DNNsDeep Neural Network

DNN在视觉,语言理解和语音识别等领域取得了关键突破。为了实现高精度,需要大量数据和以后的计算能力来训练这些网络,但这些也带来了新的挑战。特别是DNN可能容易受到分类中的对抗性示例,强化学习中遗忘任务,生成建模中的模式崩溃的影响以及过长的运算时间。为了构建更好,更强大的基于DNN的系统,是能否有效地确定两个神经网络学习的表示何时相同?我们看到的两个具体应用是比较不同网络学习的表示,并解释DNN中隐藏层所学习的表示。设置的关键是将DNN中的每个神经元解释为激活向量,神经元的激活矢量是它在输入数据上产生的标量输出。例如,对于50个输入图像,DNN中的神经元将输出50个标量值,编码它对每个输入的响应量。然后,这50个标量值构成神经元的激活矢量。因为深度神经网路的规模即层数和每层的节点数,学习率,初始权重等众多参数都需要考虑。扫描所有参数由于时间代价的原因并不可行,因而小批次训练微型配料,即将多个训练样本组合进行训练而不是每次只使用一个样本进行训练,被用于加速模型训练。而最显著地速度提升来自GPU,因为矩阵和向量计算非常适合使用GPU实现。但使用大规模集群进行深度神经网路训练仍然存在困难,因而深度神经网路在训练并列化方面仍有提升的空间。

四、到底哪种人工智能芯片将成云计算的主流?

深度学习是一种需要训练的多层次大型神经网络结构请参考图表,其每层节点相当于一个可以解决不同问题的机器学习。利用这种深层非线性的网络结构,深度学习可以从少数样本展现强大的学习数据集本质特征的能力。简单来说,深度学习神经网络对数据的处理方式和学习方式与人类大脑的神经元更加相似和准确。谷歌的阿法狗也是先学会了如何下围棋,然后不断地与自己下棋,训练自己的深度学习神经网络更厉害的阿法零Alpha Zero透过更精准的节点参数不用先进行预先学习就能自我演化训练学习。深度学习模型需要通过大量的数据训练才能获得理想的效果训练数据的稀缺使得深度学习人工智能在过去没能成为人工智能应用领域的主流算法。但随着技术的成熟,加上各种行动、固定通讯设备、无人驾驶交通工具可穿戴科技各式行动、固定监控感测系统能互相连接与沟通的亿物联网,骤然爆发的大数据满足了深度学习算法对于训练数据量的要求。

训练和推理所需要的神经网络运算类型不同。神经网络分为前向传播Forward algorithm其中包括输入层隠藏层输出层和后向传播Backward algorithm主要指的是梯度运算两者都包含大量并行运算。训练同时需要前向和后向传播推理则主要是前向传播。一般而言训练过程相比于推理过程计算量体更大。云端人工智能系统透过海量的数据集和调整参数优化来负责训练和推理,边缘运算终端人工智能设备负责推理。推理可在云端进行,也可以在边缘运算端或设备端进行。等待模型训练完成后,将训练完成的模型主要是各种通过训练得到的参数用于各种应用。应用过程主要包含大量的乘累加矩阵运算,并行计算量很大,但和训练过程比参数相对固定,不需要大数据支撑,除在云端实现外,也可以在边缘运算端实现。推理所需参数可由云端训练完毕后,定期下载更新到应用终端。

4.1在深度学习半导体领域里,最重要的是数据和运算

谁的晶体管数量多,芯片面积大谁就会运算快和占据优势。因此,在处理器的选择上,可以用于通用基础计算且运算速率更快的GPU迅速成为人工智能计算的主流芯片根据美国应用材料的公开资料请参考图表),英伟达的人工智能逻辑芯片配合英特尔的中央处理器服务器芯片面积达7432mm2,是不具人工智能的企业用和大数据服务器的八倍或谷歌专用张量处理器人工智能服务器的三倍多存储器耗用面积32512mm2是其他服务器的三倍以上。可以说,在过去的几年,尤其是2015年以来,人工智能大爆发就是由于英伟达公司的图形处理器得到云端主流人工智能的应用。但未来因为各个处理器的特性不同我们认为英伟达的图形处理器GPU和谷歌的张量处理器仍能主导通用性云端人工智能深度学习系统的训练可编程芯片FPGA的低功耗及低延迟性应有利于主导云端人工智能深度学习系统的推理,而特殊用途集成电路ASIC未来将主导边缘运算及设备端的训练及推理,但因为成本,运算速度,及耗电优势,也会逐步侵入某些特殊应用人工智能云端服务器市场,抢下训练及推理运算的一席之地以下就先列出各种处理器在云端人工智能系统的优缺点

4.2中央处理器CPU

X86和ARM在内的传统CPU处理器架构往往需要数百甚至上千条指令才能完成一个神经元的处理,但对于并不需要太多的程序指令,却需要海量数据运算的深度学习的计算需求,这种结构就显得不佳。中央处理器CPU需要很强的处理不同类型数据的计算能力以及处理分支与跳转的逻辑判断能力,这些都使得CPU的内部结构异常复杂现在CPU可以达到64bit双精度,执行双精度浮点源计算加法和乘法只需要1~3个时钟周期,时钟周期频率达到1.532~3gigahertz。CPU拥有专为顺序逻辑处理而优化的几个核心组成的串行架构,这决定了其更擅长逻辑控制、串行运算与通用类型数据运算当前最顶级的CPU只有6核或者8核,但是普通级别的GPU就包含了成百上千个处理单元,因此CPU对于影像,视频计算中大量的重复处理过程有着天生的弱势。

4.3图形处理器GPU仍主导云端人工智能深入学习及训练

最初是用在计算机、工作站、游戏机和一些移动设备上运行绘图运算工作的微处理器但其海量数据并行运算的能力与深度学习需求不谋而合,因此,被最先引入深度学习。GPU只需要进行高速运算而不需要逻辑判断。GPU具备高效的浮点算数运算单元和简化的逻辑控制单元,把串行访问拆分成多个简单的并行访问,并同时运算。例如,在CPU上只有20-30%的晶体管内存存储器DRAM dynamic random access memory缓存静态随机存储器Cache SRAM控制器controller占了其余的70-80%晶体管是用作计算的,但反过来说GPU上有70-80%的晶体管是由上千个高效小核心组成的大规模并行计算架构DRAM和微小的Cache SRAMcontroller占了剩下的20-30%晶体管。大部分控制电路相对简单,且对Cache的需求小,只有小部分晶体管来完成实际的运算工作,至于其他的晶体管可以组成各类专用电路、多条流水线,使得GPU拥有了更强大的处理浮点运算的能力。这决定了其更擅长处理多重任务,尤其是没有技术含量的重复性工作。不同于超威及英特尔的GPU芯片,英伟达的人工智能芯片具有CUDA的配合软件是其领先人工智能市场的主要因素。CUDA编程工具包让开发者可以轻松编程屏幕上的每一个像素。在CUDA发布之前,GPU编程对程序员来说是一件苦差事,因为这涉及到编写大量低层面的机器码。CUDA在经过了英伟达的多年开发和改善之后,成功将Java或C++这样的高级语言开放给了GPU编程,从而让GPU编程变得更加轻松简单,研究者也可以更快更便宜地开发他们的深度学习模型。因此我们认为目前英伟达价值6000/7500-9300/10500美元的图形处理器加速卡TeslaV100PCIe/SXM2640Tensor核心5120CUDA核心或配备8/16颗V100的DGX-1/H-2系统180000-360000美元,配合其CUDA软件及NV Link快速通道,能达到近125兆次深入学习的浮点运算训练速度TERAFLOPS),16bit的半精度浮点性能来看,可达到31TeraFLOPS32bit的单精度浮点性能可达到15.7TeraFLOPS64bit的双精度可达到7.8TeraFLOPS,210亿个晶体管台积电12纳米制程工艺,815mm2芯片大小,仍然是目前云端人工智能深入学习及训练的最佳通用型解决方案但未来会受到类似于华为海思Ascend-Max910ASIC芯片及Ascend Cluster系统的挑战。

4.4现场可编程门阵列芯片FPGA的优势在低功耗,低延迟性

CPU内核并不擅长浮点运算以及信号处理等工作,将由集成在同一块芯片上的其它可编程内核执行,而GPU与FPGA都以擅长浮点运算着称。FPGA和GPU内都有大量的计算单元,它们的计算能力都很强。在进行人工智能神经网络CNNRNNDNN运算的时候,两者的速度会比CPU快上数十倍以上。但是GPU由于架构固定,硬件原来支持的指令也就固定了,而FPGA则是可编程的,因为它让软件与应用公司能够提供与其竞争对手不同的解决方案,并且能够灵活地针对自己所用的算法修改电路。虽然FPGA比较灵活但其设计资源比GPU受到较大的限制,例如GPU如果想多加几个核心只要增加芯片面积就行,但FPGA一旦型号选定了逻辑资源上限就确定了。而且,FPGA的布线资源也受限制,因为有些线必须要绕很远,不像GPU这样走ASICflow可以随意布线,这也会限制性能。FPGA虽然在浮点运算速度增加芯片面积,及布线的通用性比GPU来得差,却在延迟性及功耗上对GPU有着显着优势。英特尔斥巨资收购Altera是要让FPGA技术为英特尔的发展做贡献。表现在技术路线图上,那就是从现在分立的CPU芯片+分立的FPGA加速芯片20nmArria10GX,过渡到同一封装内的CPU晶片+FPGA晶片,到最终的集成CPU+FPGA系统芯片。预计这几种产品形式将会长期共存,因为CPU和FPGA的分立虽然性能稍差,但灵活性更高。目前来看用于云端的人工智能解决方案是用Xeon CPU来配合Nervana用于云端中间层和边缘运算端设备的低功耗推断解决方案是用Xeon CPU来配合FPGA可编程加速卡。赛灵思Xilinx2018年底推出以低成本,低延迟,高耗能效率的深度神经网络DNN演算法为基础的Alveo加速卡采用台积电16nm制程工艺的Ultra Scale FPGA,预期将拿下不少人工智能数据中心云端推理芯片市场不少的份额。

4.5谷歌张量处理器TPU3强势突围,博通/台积电受惠,可惜不外卖

因为它能加速其人工智能系统Tensor Flow的运行,而且效率也大大超过GPU―Google的深层神经网络就是由Tensor Flow引擎驱动的。谷歌第三代张量处理器TPUTensor Processing Unit大约超过100TeraFLOPS/hp-16bit是专为机器学习由谷歌提供系统设计,博通提供ASIC芯片设计及智财权专利区块,台积电提供16/12纳米制程工艺量身定做的,执行每个操作所需的晶体管数量更少,自然效率更高。TPU每瓦能为机器学习提供比所有商用GPU和FPGA更高的量级指令。TPU是为机器学习应用特别开发,以使芯片在计算精度降低的情况下更耐用,这意味每一个操作只需要更少的晶体管,用更多精密且大功率的机器学习模型,并快速应用这些模型,因此用户便能得到更正确的结果。以谷歌子公司深度思考的阿尔法狗及零AlphaGoAlpha Zero/Deep Mind利用人工智能深度学习训练和推理来打败世界各国排名第一的围棋高手世界排名第一的西洋棋AI程式Stockfish8世界排名第一的日本棋Shogi AI专家,但我们估计Alpha Zero系统使用至少近5大排人工智能主机,5000个张量处理器1280个中央处理单元而让云端的设备异常昂贵且无提供任何的边缘运算端设备。

4.6 ASIC特定用途IC需求即将爆发

即使研发期长初期开发成本高通用性差,但国内芯片业者因缺乏先进x86CPUGPUFPGA的基础设计智慧财产权IPs,可完全客制化,耗电量低,性能强的特定用途ICASIC Application-specific integrated circuit设计就立刻成为国内进入人工智能云端及边缘运算及设备端芯片半导体市场的唯一途径。但因为起步较晚,除了比特大陆的算丰SOPHONBM1680及BM1682云端安防及大数据人工智能推理系列产品已经上市之外,其他公司在云端人工智能训练及推理芯片设计都还停留在纸上谈兵阶段。举例而言,华为海思使用台积电7纳米制程工艺设计的昇腾Ascend910ASIC系列,号称在16bit半精度下能达到256兆次的浮点运算,倍数于英伟达目前最先进的Volta100解决方案台积电12纳米也要等到2H19量产及谷歌最新推出的张量处理器3台积电16/12纳米,。而从智能手机端IP事业切入设计云端芯片的寒武纪,将于2019首发的产品MLU100PCIe智能推理加速卡台积电16纳米在打开稀疏模式时的峰值也可达到64兆次浮点运算16bit半精度。最后可惜的是国内搜寻引擎龙头百度的昆仑芯片818-300采用Samsung14纳米,阿里巴巴的Ali-NPU及亚马逊的Inferentia目前都还没有提供更确实的芯片速度,耗电量,应用,价格,量产时点,及软件框架规格让我们做出更好的比较图表。

五、哪种人工智能芯片将成边缘运算及设备端的主流?

从算法,IP,边缘运算及设备端芯片转换到模块,平台或生态系的战争

谷歌在GoogleCloudNEXT2018活动中首次推出人工智能推断用边缘运算张量处理器Edge Tensor Processing UnitEdge TPU<30mm2具有低功耗,低延迟,高运算效率,其开发版系统模块套件中还包括有恩智浦的CPU图芯的GPU,再配合谷歌开源简易版机器学习框架软件Open-source Tensor Flow Lite,设备端物联网核心运作Edge IoT Core和边缘运算端张量处理器来推动各种应用,像是预测性维护,异常检测,机器视觉,机器人,语音识别医疗保健,零售,智能空间,运输交通等等。

在谷歌的Waymo建立了全球最大的无人驾驶车队后,谷歌再次利用其在深度学习及云端软,硬件的技术领先优势,提供机器学习边缘运算端软件,固件,安卓物联网作业系统及专用半导体芯片整体解决方案模块,让客户对其智能物联网解决方案的黏着度提升,这不但对中国大陆人工智能芯片公司是利空,也对目前主要提供云及边缘运算物联网服务的竞争厂商亚马逊AWS,微软Azure,阿里巴巴造成市场压力。

但是,目前谷歌终端型张量处理器目前只能算是个机器学习的加速器,不能独立运作,其解决方案中还要配合其他半导体公司的芯片,像是恩智浦以安谋为核心的中央处理器,图芯Vivante CorporationGC7000Lite图形处理器请参考图表,我们认为谷歌的解决方案效能比较与量产时间未定。而且,谷歌过去还是主推软件解决方案,自有硬件及半导体的产品上市都是拿来推广其软件及生态系解决方案,其边缘运算型张量处理器硬件规格中,还是使用相对旧的28纳米晶圆代工制程工艺,TeraOPS浮点远算能力,耗电瓦特数,价格等指标都还是未知,来与其他人工智能芯片设计公司的产品来做比较。举例而言,英伟达今年推出的Jetson AGXX avier模块也是瞄准物联网应用端的解决方案,但在其高单价下规格明显胜出。华为即将推出的边缘运算模块Atlas200和Atlas300也相当有竞争力。

从英伟达,谷歌,英特尔,及华为在深入学习边缘运算端解决方案模块及软件与固件的竞争而高通及联发科陆续将人工智能专利区块透过嵌入式整合到其手机应用处理器中,可以看出未来在人工智能端的应用领域已经不再单单是人工智能算法,IP智财权到芯片设计推陈出新的竞争,中国大陆的人工智能算法/IP/芯片龙头公司像寒武纪,地平线为了存活,就必须与应用领域系统公司紧密合作,共同推出更佳的嵌入式或独立式解决方案模块及软,固件,否则就要像谷歌和英伟达一样推出自己整套的解决方案。虽然比特大陆及嘉楠耘智进入人工智能芯片领域较晚,但其在挖矿机业务及挖矿生态系的系统整合经验,反而比只具备算法/IP/芯片的人工智能设计公司还有机会。

六、谁能引领国内人工智能芯片产业突围?

未来因人工智能边缘运算推理端和云端推理Inferencing芯片及设备成本性能,耗电效率的考量以及各种处理器的特性不同我们预期特定用途集成电路ASIC或系统集成电路SoCsystem on chip未来将在设备,边缘运算,及云端推理市场和设备,边缘运算,小部分云端训练市场遍地开花百花齐放根据产业链调查,我们认为中国在处理器/芯片领域的投资有加速的迹象,AI芯片的创业企业目前已达到40家左右。

而中国的人工智能半导体公司像华为海思HiSilicon),寒武紀Cambricon),地平线Horizon Robotics),彼特大陆Bitmain),耐能Kneron),肇观Next VPU,及大数据系统公司如百度,阿里巴巴及安防龙头海康威视,大华将追随国际大厂陆续推出人工智能特定用途集成电路和系统芯片从过去的模仿和追赶模式改为提前布局的思路加上今年中国科创板融资平台的加持相信一定可以孵育出未来世界级的人工智能芯片设计龙头公司。但就未来2-3年来看,因为有强大的财物资源来支持10纳米以下先进制程工艺的电子设计自动化软件EDA tool,验证Verification,光掩膜Photo Mask成本的蹿高请参考图表,最有实力的半导体设计团队,及其对人工智能深入学习系统的知识及各种设备人工智能化的需求,我们预测华为海思将能引领国内人工智能芯片产业突围而比特大陆因为深谙IP,芯片,模块,到平台或生态系的争战,金准产业研究团队不排除比特大陆反而领先其他一些一线设计公司率先推出些云端人工智能的推理/训练芯片及解决方案模块当然,金准产业研究团队还是认为纯算法及半导体设计公司寒武纪,目前有较佳的设计团队及较充裕的估值融资能力来陆续推出边缘运算端及云端推理的人工智能芯片最后因为SAELevel4/5自动驾驶平台成本过高及生态系组成庞大及复杂,目前金准产业研究团队对地平线在自动驾驶的解决方案方面的短期营运及获利模式存疑。

6.1华为海思后发先至

在供应全球智能手机第二大厂,中国智能手机第一大厂华为超过近六成的应用处理器及基频芯片,及率先数月于高通及联发科采用台积电的7纳米制程工艺推出的麒麟980芯片,让华为的Mate20手机大卖,并让华为整体智能手机在国内的市占从2017年的20%,提高到2018年的27%,及2018年四季度的29%,预期这也将同时拉升华为海思HiSilicon在全球无晶圆设计公司的市占到6-7%或是在2019年成为前五大。而7纳米的麒麟980芯片是整合了寒武纪Cambricon设计的Cambricon-1M神经处理单元NPUNeural Processing Unit专利区块来让摄像头看得更全更清更快更久让麦克风听得更清更广识别场景推测用户行为意图和适时处理高性能或高效率任务根据华为公布的资料在人工智能性能比上,其NPU是一般CPU的25倍,GPU的6.25倍25/4,能效比上,NPU更是达到了CPU的50倍,GPU的6.25倍50/8)(请参考图表。但因为目前其边缘运算端神经处理单元架构简单金准产业研究团队估计此专利区块芯片应不超过整体芯片面积基频和应用处理器整合在一起的系统芯片面积10%。但因为金准产业研究团队预期采用台积电7纳米EUV制程工艺的华为海思麒麟990芯片,将使用海思自行设计的人工智能专利区块Ascend Lite SKU请参考图表,而苹果Neural Engine5TeraOPS高通Neural Processing Engine SDK Software Development Kit,<8TeraOPS,联发科Neuro Pilot SDKAndroid Neural Network NNAPI联发科Neuro Pilot SDK也将陆续整合其人工智能专利区块及软件到其手机应用处理器Application processor中,这将对寒武纪及其他人工智能算法及芯片公司在智能手机及联网物IoT设备端的芯片发展造成限制。

华为海思因为有这样强大的财物资源来支持7纳米以下先进制程工艺的电子设计自动化软件EDA tool,验证Verification,光掩膜Photo Mask成本的蹿高,拥有国内最强的半导体设计团队,及其庞大的系统知识及各种设备对人工智能化的需求,金准产业研究团队预测华为海思将后发先至引领国内人工智能芯片产业突围。华为海思今年将陆续问世的7纳米昇腾Ascend-Max910ASIC整合8颗芯片dies,及1024颗昇腾910芯片的Ascend Cluster256PetaFLOPS,使用12纳米昇腾Ascend-mini310),-Lite-Tiny-Nano ASIC推出的Atlas200加速模块Atlas300加速卡Atlas500智慧小站,Atlas800私有云解决方案一体机,MDC600移动数据中心Mobile Data Center金准产业研究团队预期这些AI芯片及系统,陆续将对英伟达,赛灵思,英特尔,谷歌在云端及边缘运算端人工智能芯片及平台的地位,带来挑战,但特定用途IC的专用性缺点会让华为海思切入像是外部安防等系统公司客户时,碰到些安防公司系统知识领域不愿意外泄的问题。

6.2寒武纪从设备端步入云端

寒武纪Cambricon是于2016年在北京成立,核心成员陈天石及陈云霁兄弟都曾在中科院计算所工作,专攻计算机处理器结构优化和人工智能,而后来寒武紀在拿到中关村科技园区支持资金及上海市政府对神经网络处理器,深度学习处理器IP核项目,智能处理器核项目等多项补助近6000万人民币,加上多次拉高估值的融资,于2018年5月3日发布了使用TSMC7nm工艺IP的1M,每瓦速度达3.1-3.3兆次运算,为10纳米1A智财权专利区块的10倍左右,且超越英伟达V100的每瓦速度达0.4兆次运算,其8位运算效能比达5Tops/watt每瓦5兆次运算。寒武纪提供了三种尺寸的处理器内核2Tops/4Tops/8Tops以满足不同领域下,不同量级智能处理的需求智能手机、智能音箱、摄像头、自动驾驶Cambricon也介绍以TSMC16nm工艺制程设计的MLU100及MLU200云端服务器AI芯片,具有很高的通用性,可满足计算机视觉、语音、自然语言处理和数据挖掘等多种云端推理,甚至训练的任务。在发布会上,联想ThinkSystemSR650,中科曙光Phaneron服务器,科大讯飞翻译机2.0都介绍了使用CambriconMLU100芯片相对应的云端服务器。此外,专为开发者打造的Cambricon Neu Ware人工智能软件平台,加上支持Tensor FlowCaffeMXNet等主流机器学习框架Framework,让寒武纪在尚未扭亏为盈的情况下估计2017年亏损超过1000万人民币以上2018年营收连1000万美金都达不到的状况下2016/2017年营收估计约400万人民币上下,市值已被拉高到超过25亿美元。

6.3卖人工智能解决方案模块的地平线

地平线Horizon Robotics创办人是前百度深度学习研究院负责人余凯、还有前华为芯片研发架构师周峰,地平线不是只做芯片,在软件方面,地平线已经研发出了自动驾驶的雨果神经网络OS平台及智能家居的安徒生平台。地平线的目标是做分支处理单元BPUBranch processing unit的人工智能算法架构+嵌入式芯片的Embedded ARMCPUGPUFPGA自动驾驶征程2.0处理器),智能城市智能商业旭日1.0处理器的人工智能设备终端解决方案模块具有感知,识别,理解,控制的功能给产品厂商。地平线的整个流程是根据应用场景需求,设计算法模型,在大数据情况下做充分验证,模型成熟以后,再开发一个芯片架构去实现,该芯片并不是通用的处理器,而是针对应用场景跟算法是结合在一起的人工智能算法处理器,得到芯片大小执行耗能Area、Performance、Power的综合解决方案。地平线BPU架构的解决方案只可以用在符合车规的FPGA或GPU等计算平台上,下一步地平线会将自己的BPU处理器IP授权给国际厂商,让他们生产车规级处理器。智能驾驶方面,基于高斯架构研发的ADAS产品征程1.0处理器也会作为重点推进SAEL3/L4的无人驾驶Matrix1.0平台,也会持续落实与系统厂商像是博世的技术合作,计划在年中实现特定道路的自动驾驶智能生活方面,除与美的的合作之外,地平线继续在家电、玩具、服务机器人等领域发力公共安防方面,地平线去年与英特尔在北美安防展上进行联合展示。类似于寒武纪,地平线于2018年11月27日获得近10亿美金的B轮融资,持续拉高其市值。

6.4从挖矿机转云端人工智能推理模块的比特大陆

CEO詹克团及创办人吴忌寒于2013年联合成立的挖矿机及芯片霸主比特大陆BITMAIN2017年11月正式介绍其AIASIC芯片品牌SOPHON算丰,宣布全球首款云端安防及大数据人工智能推理系列的张量加速计算芯片28nmBM1680的震撼面世,并展示了视频图像分析、人脸人体检测的演示。并同步发布了SOPHON.AI官网,并将系列产品在官网中面向全球发售。BITMAIN致力于通过强大的芯片工程、快速迭代和系统设计制造能力,提供最具性价比、最具性能功耗比的AI计算力,同时致力于为行业定制、优化全栈的硬件和系统方案,从而极大降低行业+AI的难度,促进AI普及。BM1682在2017年12月已进入流片阶段,并于2Q18量产。12nm的BM1684是预计于1Q19量产及第四代的12纳米芯片BM1686是预计于2H19量产。这两款芯片会拥有6/9TeraFlops的能力和30W的功耗。BM1880是比特大陆于2018年10月发布的一款设备端AI芯片,将主要应用于安防、互联网及园区等领域BM1880芯片可以作为深度学习推理加速的协处理器,也可以作为主处理器从以太网接口或USB接口接收视频流、图片或其它数据,执行推理和其他计算机视觉任务,其它主机也可以发送视频流或图片数据给BM1880,BM1880做推理并将结果返回主机。比特大陆将于2019年推出第二代产品BM1882,以及2020年的BM1884,按照规划,BM1882和BM1884的主要应用场景将是智能摄像机、智能机器人和智能家居等。虽然目前比特币跌破4000美元以下,占比特大陆98%的矿机销售,自营挖矿业务要是采用两年折旧几乎是无利可图除了于4Q18推出的7纳米BM1391挖矿芯片及S15挖矿机应可获利外,而AI芯片导入云端系统又遥不可期,但不同于其他新兴AI芯片设计公司大多缺乏现金,比特大陆在手现金7-8亿美元现金,4-5亿美元的加密货币应该还是有超过10亿美元,芯片研发设计资源仍然丰厚,每一代芯片代与代之间的间隔是快于摩尔定律而达到9-12个月。摩尔定律是指芯片行业每18到24个月的周期里,计算能力能翻一倍,或者在相同的单位芯片面积里,晶体管数量翻一倍。


其他分类