AI芯片需求将推动这个“老”架构复兴!

原标题:AI芯片需求将推动这个“老”架构复兴!

来源:内容来自「新电子」,谢谢。

半导体业长期以来是将存储与处理器分别设计配置,即便是芯片内的嵌入式存储,其电路区块也是与处理单元各自分立,并让两区块间透过汇流排传递存取资讯。

而所谓的存储内处理器(Processor In Memory, PIM)(图1),或称存储邻近处理器(Processor Near Memory, PNM)、存储内运算(In-Memory Compute, IMC)等,则是在芯片电路设计时即以存储的矩阵存储电路为基础,再行加搭起运算电路,使存储与运算电路几乎融为一体。

图1左图为现行处理单元与存储间有读写(Fetch提取、Store存入)的瓶颈,右图为PIM作法可消除运算与储存间的传输瓶颈。资料来源:IBM

PIM作法过去曾在上世纪90年代倡议过但未能成为潮流,但随着人工智能(AI)、机器学习(ML)、深度学习(DL)的兴起,产业界重新评估与发展PIM技术及芯片,原因主要在于现行主流技术在运算效能提升上渐遭遇多项瓶颈,难以因应日益增高的深度学习运算量。

首先是芯片设计团队逐渐难从处理单元的逻辑设计上获得更高效能,因此IBM POWER(Performance Optimization With Enhanced RISC)架构处理器于1999年首次运用持续推进的半导体制程缩密技术,于单一芯片实现双核心,以增加核心数获取显著效能提升,2005年AMD于x86架构上实现双核,自此处理器纷改以增加核数为主要效能提升手段。

多核作法之后亦遭遇瓶颈,即处理单元(核)间的资料交换不够快速,沟通协调成为运作瓶颈,因此改进芯片内外的连接传递方式成为重点,此时经常出现芯片商强调结构织法(Fabric)一词。

改善连接结构后仍有其他问题需解决,因漏电流因素芯片运作电压难以再下降,即便芯片放入更多的核,也无法让所有的核均全速运作,因供电散热之限只允许部份的核全速运作,部份之外的核须以降速、轻负荷方式运作,或暂时关闭停止运作,此称为暗矽(Dark Silicon)限制,当制程技术持续提升,芯片内的核数愈多,暗矽限制也会更严重(图2)。

图2电路运用率撞墙,暗矽效应阻碍使多核处理器无法全速运作。资料来源:Michael Bedford Taylor

另外存储与处理器间的传输通道也难以更快,存储电路区块与处理单元区块有别的结果,传递过程必然有一段电路距离,因电路上的寄生电容因素而难以更快速传递,形成冯纽曼瓶颈(Von Neumann Bottleneck),半导体制程缩密技术让存储容量愈来愈大,但进出处理单元的资料通量却没有相应的提升。

深度学习运算量大增PIM技术动向受瞩目

而如前述,深度学习需要的运算量不断提高,特别是在支援自驾车应用上,2017年NVIDIA提出自驾车运算平台DRIVE PX PEGASUS,宣称合并两张DRIVE PX PEGASUS可获得320TOPS(8位元整数)的人工智能推论运算力,目标在于支援ADAS标准最高的Level 5自驾层级,即各种路况与情境下均能全程自动化驾驶不需人为介入,然代价是500瓦功耗,对汽车电瓶亦是不小负荷。

由于传统方式提升运算(特别是深度学习运算)效能日益困难,因此产业开始尝试回望PIM技术。PIM技术因存储电路与处理电路两者紧邻,传输距离短,可快速传递运算,而深度学习所需要的「网状层次连接、节点加权运算」亦容易以PIM方式实现,存储内储存的资讯即是节点的权重(Weight,或称特征权重),运算后的结果再向更深层的节点传递,进行相同的乘积累加运算(简称乘加运算Multiply Accumulate, MAC),最终得到深度学习的运算结果。

以PIM方式实现深度学习运算,理论上可比传统作法更轻易达到效能提升,且是以省电方式提升,即TOPS/Watt表现佳(类同于每瓦效能Per Watt Performance的概念),若坚持传统作法估计只能以更大的功耗代价带来些许提升。

由于深度学习的需求增加,近年来已有数家机构与企业投入PIM技术发展,例如ISAAC、Tetris、NeuroCube、Mythic、Syntiant、IBM、PRIME、PipeLayer等。其中以2012年成立的Mythic与2017年成立的Syntiant有较接近于商业化的开发进度,同时有重量级业者资金与技术支持。另IBM(在此指IBM Research)的技术发展向来受人瞩目,以下将针对此两新创业者的技术主张及近况为主进行观察,部份项目辅以IBM的作法进行比较。

PIM技术有助于新兴/利基存储发展

首先为存储类型,PIM必须以一种存储电路为基础发展其执行处理电路,以Mythic与Syntiant而言均是以嵌入式NOR Flash电路为主,IBM则以相变存储(Phase-Change Memory , PCM)、阻忆器(Resistive)为基础(图3)。

图3 IBM运用相变存储储存神经网络中的权重。

资料来源:IBM

PIM技术并未限定使用挥发性(俗称RAM)或非挥发性存储(Non-Volatile Memory, NVM),也未限定存储类型,不过存储电路负责储存神经网络的节点权重数值,人工智能运算在推论过程中鲜少改变权重数值,因此权重数值于系统开机后一次载入到RAM存储后便不再更动。

维持存储内容,可以用定期刷新的方式,然而,刷新周期也排挤执行单元的存取时间,减少存取频繁度,或是维持频繁存取但功耗散热增加。因此,若为ROM存储则可省去刷新程序,对于需要训练模型或是频繁更新神经网络模型者,仍会以RAM为宜,反之为ROM,如NeuroCube即使用RAM。

目前Mythic使用的NOR Flash技术来自富士通(Fujitsu)的40nm制程,不过2018年富士通将厂房售予联电(UMC),此技术合作在售厂前便已进行,估计会延续至联电。Syntiant、IBM则未揭露制程相关资讯。

由于重新启动的PIM技术着重在神经网络运算,因此业者也积极尝试各种新型存储以支援执行运算设计,而不限定使用已大宗运用的存储,如考虑MRAM/STT MRAM、RRAM/ReRAM等,新兴与利基型存储于PIM领域具有发展机会。

模拟运算具更快执行效能

由于推论取向的神经网络运算不需要高精度,原有以训练为主的运算需使用32位元浮点数、16位元浮点数,然推论时只要8位元整数、4位元整数,低精度整数的执行处理电路在实现上比浮点数容易许多,其乘加运算既能以传统数字逻辑电路实现也能以模拟电路实现,甚至后者有更快的执行效能与更佳的TOPS /Watt表现。

目前无论Mythic、Syntiant或IBM均倾向使用模拟技术,使用模拟技术不代表均使用相同的模拟实现电路,例如Mythic的技术会用上模拟数字转换器(Analog-to-Digital Converter, ADC)与数字模拟转换器(Digital-to-Analog Converter, DAC),但IBM的技术不需要ADC、DAC。

Mythic以256阶的电导模拟数值来表示8位元整数,进而代表节点权重,而后以欧姆定律来实现乘法运算,输入数值以电压表示,权重以电导(电阻的倒数)表示,输出结果以电流表示(I=V×G),Syntiant则是以电路中储存的模拟电荷数值来表示权重,精度为4位元。

Mythic的作法仅是其一,其他模拟推论电路亦依据各自不同的存储结构有不同的实现手法,以不同的方式表达权重数值,也以不同的运算电路设计来实现乘法运算、加法运算,以及运算结果输出等(图4)。

图4 Mythic运用ADC、DAC构成矩阵电路,权重储存在交织处的电阻/电导中。资料来源:Mythic

Mythic与Syntiant的PIM芯片均将应用目标放在推论上,IBM则同时放在训练与推论上,IBM于2018年NeurIPS(全球最大的人工智能、机器学习研讨会)活动期间公布研究论文「Training Deep Neural Networks with 8-bit Floating Point Numbers」,该论文主张只需使用8位元浮点数也能进行训练,并适用在多种模型与运用上,模型如ResNet50、AlexNet、以及BN50_DNN等,应用则适用于影像、语音、文字资料库等。

权重数目为PIM模拟推论评量基准

PIM模拟推论技术的发展,现阶段一项评量基准为权重数目,权重数目愈多,通常也意味着较大较快的模拟运算力。依据Mythic于2018年8月透过MPR(Microprocessor Report)揭露的报告所言,Mythic预计于2019年第四季推出第一颗商业化芯片,预计可同时储存运算5,000万个权重;而2019年2月Syntiant官方发布的资讯,其模拟PIM芯片可同时储存运算50万个权重。

Syntiant的权重数明显少于Mythic,而两业者的PIM芯片定位也截然不同。Syntiant由于初期芯片运算力较为有限,因此只诉求语音、音讯相关的推论应用。另外,由于PIM技术使得芯片相当省电,宣称不到200微瓦(uW),甚至只有150uW。

因此诉求用于极低功耗要求的应用情境上,如手机、助听器、蓝牙耳机或苹果AirPods类似产品、智能手表、物联网端点、智能喇叭、遥控器,Syntiant规划后续芯片具备更大量节点,以支援影像推论应用。

至于Mythic发展之初便锁定影像应用,目前尚未公布芯片接脚数目、封装方式、功耗等细节,但想定的系统组态中已有单颗Mythic芯片、4颗、8颗、16颗等多种组合,期望在单一系统内使用多颗芯片来达到更高推论效能,以较充沛电力运作的情境为设想,如视讯监控、产业机器人、资料中心等,与Syntiant的电池电力应用不同。由此可知虽然PIM技术能有较佳的TOPS/Watt表现,但并非所有芯片商均选择低功耗需求市场,亦可能着眼于高效能需求领域。

另外,由于过去Intel中央处理器(CPU)一词过红,导致许多芯片商也倾向将自己的芯片产品冠上与PU(Processing Unit)、P(Processor)关连的字词,以利行销。如1999年NVIDIA推出GeForce绘图芯片便称为GPU(Graphics),2016年Movidius的Myriad 2人工智能芯片则称为VPU(Vision)。

同理,Mythic推出的PIM芯片称为智能处理单元(IPU),IBM则称为阻忆器处理单元RPU(RPU),Syntiant则称为神经决策处理器(NDP)。

模拟/数字电路仍须合作搭配

PIM推论芯片内并非全然是模拟电路,依然需要模拟数字转换,以及透过数字介面系统中的数字主控芯片协同运作,因此芯片内的主体是模拟推论电路,但周遭的周边电路区块仍为数字,甚至需要就近的数字控制单元(MCU Core)、数字储存辅助其运作。

Mythic此方面使用RISC-V核心,采行理由如常见的客制弹性、免授权成本,并运用该核心支援一专属设计的SIMD指令集,运用此指令集加强支援其模拟PIM推论运算,另内有5MB SRAM、PCIe 2.1介面。Syntiant方面则使用Cortex-M0核心、112KB SRAM、SPI介面,显见两业者的差异(图5)。

图5 Syntiant NDP100芯片功能方块示意图,灰色方块均为数字电路,仅神经网络部份为模拟电路。资料来源:Syntiant

除了以权重数目为现阶段效能衡量外,省电亦是PIM另一大诉求,Mythic目前约为4TOPS/Watt,Syntiant方面则宣称目标在20TOPS/Watt。采行PIM路线提供推论运算方案者,自然要挑战现行主流人工智能加速芯片,如NVIDIA Volta V100 GPU估约0.4TOPS/Watt,Syntiant认为其技术可在相同推论效能需求下比GPU省50倍电能(图6)。

图6 Mythic揭露其测试,以224 x 224解析度跑ResNet-50模型,Mythic效能胜GPU且用电远低于GPU。资料来源:Mythic

PIM架构站稳市场仍须克服多种限制

有关PIM架构的再兴、模拟运算的再兴,许多科技界领域的重量级业者早已洞见,并在先期挹注资金支持,如Mythic即获得Micron、SoftBank、Lockheed Martin等十余家业者的投资,Syntiant也获得Amazon Alexa Fund、Intel Capital、微星科技(MSI)、M12(前身为微软创投)、Motorola Solutions Venture Capital等的投资。

投资者也看上技术合作,如Mythic与Lockheed Martin合作,将在其无人机上配置Mythic的模拟影像推论芯片IPU,而Amazon Alexa Fund投资Syntiant估计亦期望其音讯推论技术能与Alexa技术相辅相成。

有关音讯推论技术的合作Syntiant已与Infineon有初步成果,Syntiant NDP芯片与Infineon的微机电系统(MEMS)麦克风IM69D130 XSENSIV搭配,不需要联网云端也不需要数字讯号处理器(DSP)即可完成语音相关推论。

PIM架构的模拟推论虽有效能佳、功耗低等优点,然现阶段亦有其限制与缺点,例如在电路实现上其网络阶层数、节点数不易大规模扩展,或模拟电路可表达的精度有限(4位元或8位元)因而多用于推论,支援训练运算仍属少数。

此外模拟电路也容易因电压、温度等物理因素影响其表达精度,对此必须时时校准以保精确,或必须运用配套软体演算对物理偏差进行补偿,反之数字电路较无此顾虑,但数字在推论效能与省电表现上不易超越模拟。

归结而言,PIM方案即便仅诉求于推论运算,亦会与GPU、FPGA、ASIC等实现手法于市场上竞争,PIM阵营若能在网络规模上突破,并维持高效能、低功耗,如此无论在端缘(Edge)或资料中心的推论需求市场上均能有斩获,若无法突破估仅能在利基市场中运用。返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
免费获取
今日搜狐热点
今日推荐