>科技>>正文

谷歌TPU只租不卖

原标题:谷歌TPU只租不卖

整理 | 都保杰

本文的开篇,想引用一位对TPU和GPU有所研究的网友原话。

“这个世界是一个罗生门,每个人都在自说自话,学术圈的一小部分人不能完全免俗,而科技圈 99% 的人都不免俗,每一套话语背后都有一个隐含的框框,只有掌握全部事实,才有可能跳出框框,获得真相。”

2月13日,谷歌通过一篇博客文章中正式宣布,向谷歌云客户开放张量处理器(Tensor Processing Unit,简称TPU)beta版服务。

对于选择在谷歌云平台上运行机器学习模型的客户来说,这算是个好消息,但谷歌这次开放的TPU数量有限且按时收费,每小时成本为6.50美元,不少技术人士的第一反馈是:真贵。

每个 Cloud TPU 包含了 4 个定制化的 ASIC,每个 Cloud TPU 的计算能力达到每秒 180 万亿次浮点运算(180 teraflops),并提供有 64GB 的高带宽内存。另外,这些电路卡即可以单独使用,也可以通过超高速专用网络连接起来,形成一个多层次的机器学习超级计算机,谷歌将之称为“TPU pod”。谷歌预计今年晚些时候,将会开始供应这种更大的超级计算机,并表示训练的时间-精度比将得到显著提升。

提到谷歌TPU,就不能避免要说说英伟达的GPU,目前市面上广泛试用的英伟达Tesla P100 GPU性能是每秒21teraflops,最新发布的V100也只是突破100 teraflops的水平。

谷歌传奇工程师 Jeff Dean 在推特上连发 10 条消息介绍 Cloud TPU的这一动作:“我们对此感到非常兴奋,因为许多研究人员和工程师在进行机器学习时都遇见了计算力不足的问题,而我们认为这 Cloud TPU将是一个很好的解决方案。举例来说,我们一个 Cloud TPU 设备可以在 24 小时内将运行在 resnet-50 上的模型的识别精度训练到 75%。”

另一方面谷歌在加速计算方面的优势是,通常情况下为定制 ASIC 和超级计算机编写程序需要专业知识技能,相比之下,只需要使用自家高级 TensorFlow API 就可以对 Cloud TPU 进行编程了。

谷歌表示,几乎无需改动,Tensorflow的代码就可以被TPU加速运行。此外,Google还开源了几款图像分类、物体识别和机器翻译的高效模型,包括ResNet-50、Transformer和RetinaNet等,只需提供数据,这些模型可以使用TPU在Tensorflow上即刻运行。

谷歌在博客中提到,在Google Cloud上,不仅会为客户提供每个ML工作负载最适合的云端TPU,同时也提供各种高性能CPU(包括英特尔Skylake)和GPU(包括NVIDIA Tesla V100)的能力支持。

在2016年5月的Google I/O开发者大会上,谷歌官方首次对外公布了TPU的存在,Google方面也曾透露,其实从2015年开始就一直在内部使用TPU,但是关于TPU的商业化,谷歌其实并不高调和积极。谷歌曾在很多场合公开表示过TPU不会进入市场售卖,这就证明谷歌不会像英特尔或者英伟达那样去开发布会去推产品来获得更大的AI芯片市场份额。

究其原因还是要回到谷歌为何要研发TPU,谷歌之所以搞一个专用加速芯片,是因为自己越来越多的产品开始使用非常复杂的深度学习模型,从而产生了迫切的算力提升需求,这也是谷歌同英特尔和英伟达这两家拼杀AI芯片的本质不同:后者是看到了市场上的激增需求,于是自己针对这种需求设计了芯片产品,以期获得更好的销量和市场份额,而谷歌是自己有这种需求,出发点是满足内需,别人想用TPU,只能寄希望于谷歌的云服务能开放对TPU的使用权限,就像是现在的这种做法。

那谷歌Cloud TPU会成为英特尔或者英伟达的直接竞争对手么?现在看也未必会,只是面对AI加速计算领域的红利,谷歌在尝试一种巧妙的商业尝试。

英伟达CEO 黄仁勋曾在一次采访中披露,两年前谷歌就意识到 GPU 更适合训练,而不善于做训练后的分析决策,也就是推理。由此可知,谷歌打造 TPU 的动机只是想要一款更适合做分析决策的芯片,类似于阿尔法狗战胜人类围棋冠军就十分需要TPU了。英伟达工程架构副总裁 Marc Hamilton也曾表示TPU 只在特定应用中作为辅助使用,公司仍将继续使用 CPU 和 GPU。

可为什么要跟跟英伟达较劲几倍还是几十倍性能这种事呢,没办法,可能观众愿意看吧。TPU和GPU其实不是谁取代谁的问题,而是各自都有生存的空间,大概谁也不能取代谁,不同层面和阶段的性能PK只是可以看作是互相激励和参照吧。

另一方面,谷歌CloudTPU服务开放的最终价值,对于广大开发者来说可能还是需要考虑够不够划算够不够好用的问题。在实际的开发中,知道如何用最简洁的方法编写代码、如何使用才能发挥出硬件的最大实力和使用多强的硬件一样重要甚至要更重要。

如果代码写的不好,计算机总是要在重复的步骤上浪费很多时间,那用再强的硬件或者云端计算也没有多大意义,而高水平的的开发者会知道如何把这些个硬件的性能榨干到一丝不剩,发挥到极致,满足需求即可,所以,关于TPU和GPU的对比,以及一些争吵还是要看各自在通用和专用领域的能发挥的实际效果和用途,归根到底或许就是对性能、功能以及场景的综合把控。

就目前来看,凭借强大的并行计算能力,在机器学习快速发展的潮流下,GPU目前在深度学习芯片市场非常受欢迎,正在成为一种主流的趋势。包括谷歌、Facebook、微软、Twitter 和百度等公司都在使用GPU训练分析图片、视频和音频文件,改进搜索和图像标签等应用功能,GPU 也被大量应用于 VR/AR 相关产业,此外,很多汽车生产商也在使用 GPU 芯片发展无人车和自动驾驶技术,可以说GPU 是眼下智能产品市场用户覆盖率最广泛的芯片。

而TPU专用于人工智能和机器学习,逐步开放可为谷歌带来两大好处:首先,利用自主研发的芯片,谷歌可以在核心的计算基础设施方面更便宜、更有效地减少对英特尔、英伟达等芯片制造商的依赖,拥有自己的硬件使谷歌能够更快地进行实验。其次,现在谷歌云平台(GCP)和谷歌的业务应用程序GSuite每季度可超过10亿美元收入,新的TPU服务作为亮点会为谷歌的云计算业务带来额外收入。

众所周知,通用处理器(CPU)的摩尔定律时代已结束,而机器学习和 Web 服务的规模却在指数级增长。人们使用定制硬件来加速常见的计算任务,然而日新月异的行业又要求这些定制的硬件可被重新编程来执行新类型的计算任务。除TPU和GPU,我们也能看到FPGA 和异构计算的技术潮流,其实目的只有一个,如何合理搭配来更好的执行计算任务,而不是谁能取代谁。

返回搜狐,查看更多

责任编辑:

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()
投诉
免费获取
今日推荐