Nvidia投资分析 3:GPU

前言:(2022/2/10)

这是我2020/7写的一系列关于Nvidia的投资分析。过了一年多我回过头来再读这几篇文章,觉得还是有可读性。我原来是把它放在微信公众号上的,后来被永久封号了。我决定再把它贴出来,跟大家分享一下。

投资分析– 技术篇3:GPU

林以(ylin30@gmail.com,2020/07/19)

引言

我们需要提出的质疑是:

1. 除了GPU,还有哪种选择给AI提供算力?GPU是最佳选择吗?

2. 如果GPU是最佳选择,它的生态圈如何?哪家GPU公司是最佳选择?

这篇文章我们主要看第一个问题:GPU是给AI提供算力的最佳选择吗?第二个问题也在文章中有所回答。

1、摩尔定律的失效

图一、摩尔于1965年电子时报上第一次提出摩尔定律

然而近年来随着transistor越来越小,接近单个原子的规模,制造工艺越来越难,要跟上摩尔定律越来越难。虽然台积电和三星成功突破7纳米的制造工艺,CPU龙头Intel一直卡在10纳米上。很多专家开始质疑摩尔定律是否已经失效,随便在互联网上都可以搜到很多这样的报道。其中最坚定的是Nvidia(英伟达)的CEO黄仁勋。他在CES2019年上说:“摩尔定律过去是每5年增长10倍,每10年增长100倍。而如今,摩尔定律每年只能增长几个百分点,每10年可能只有2倍。因此,摩尔定律结束了。”图二是英伟达2020Q1财报ppt上提供的一个图。传统的芯片CPU的算力已经增长缓慢,不能保持线性。而GPU还有这个可能性。

我个人还是认可这个观点的。读者可以自己判断。

图二、摩尔定律的失效(Nvidia 2020Q1 presentation【5】)

2、硬件加速技术的对比

为深度学习提供特殊芯片也叫硬件加速(hardware acceleration)技术,有4种选择【7】:

· CPU

· FPGA(Field-Programmable Gate Array)

· GPU(Graphic Processor Unit)

· ASIC(Application-Specific Integrated Circuit)

它们一般都是跟CPU合起来用。相当于一部分需要高强度计算的就分配给这些特殊芯片(GPU/ASIC/FPGA)来算,然后跟CPU整合,见图三。

图三、How GPU acceleration works

我在这不必要过多描述它们技术上有多大的区别,只是想给大家阐述一下它们各自的有代表性项目和产品的流行接受程度。从通用性上来说,CPU是最通用的。ASIC是最不通用的。从性能上说(针对深度学习而言),ASIC是性能最好的,CPU是最差的。

2.1、CPU

2.2、FPGA

2022/2/10补:AMD最近被批准了收购FPGA的鼻祖Xlinx,打算进入这个领域。目前受到苹果M1芯片的成功带动,定制化IC形成潮流。

2.3、GPU

表一、CPU vs GPU 例子

搞GPU的公司其实就3家,Nvidia,AMD,和Intel。GPU分为独立显卡(Discrete GPU)和非独立显卡(Integrated GPU)。AI所需的是独立显卡,这是因为独立显卡有单独的内存,满足AI计算所用。非独立显卡是跟CPU等共享内存的,不适合AI。Intel产的GPU就是非独立显卡,所以我们只需要关注Nvidia和AMD两家公司。它们两家占的独立显卡的市场份额如图四。两家加起来是100%。Nvidia占了70%左右。最近两个季度的数据在表二里。Nvidia仍然是大头。业内玩主一般把Nvidia称为绿军,AMD为红军,因为它们的商标颜色一个是绿的,一个是红的。AMD的显卡业务其实是2006年买了ATI得到的。要不是这笔交易带来生机,AMD估计都熬不到现在。

图四、独立显卡市场份额(15Q1–19Q3)

Nvidia和AMD这两家只是GPU设计公司,它们没有晶圆厂,主要靠台积电(TSMC)和三星(Samsung)给它们生产。AMD于2018年4月最先用到了台积电的7纳米的工艺,Nvidia刚于2020Q1在最新的芯片Ampere A100上用到7纳米的工艺。这也是图四上AMD在2018年Q3和Q4有所爬升的原因。

2.4、ASIC

【9】对比了2019年初最新的Google的TPU和Nvidia的GPU。对深度学习来说,TPU比GPU会快一点(training time 190s vs 208s),但是费用TPU是GPU的1/3左右。网上有很多比较,基本上都同意TPU比GPU会快和便宜。但是快和便宜的量不一致。

值得指出的是TPU是特殊定制的,需要大量的金钱和人力,目前也只有谷歌一家公司有这个实力能做这个事。从软件人才到硬件人才,都需要储备。有专门搞硬件的人评价TPU硬件框架其实也比较简单,没有突破性的技术,用的核心技术Systolic也是别人的。有人计算了一下,要想投入做定制的TPU,姑且先不说有没有这么牛B的团队能做,如果最后没有成千上万的产量需求,根本收不回成本。而且由于ASIC是定制的,如果深度学习的技术有所改变,原来的芯片设计就会过时跟不上。

还有一个问题是TPU的软件支持。谷歌的TPU虽然被它的TensorFlow框架支持,只是内部在用。谷歌已经宣布不打算把TPU芯片商业化,但是它会在它的云计算平台上提供TPU算力。谷歌当初搞这个TPU是因为它all in AI,规模够大,另外它当时搞的时候GPU还没有那么的成熟,最后一个原因就是谷歌就是想跟别人不一样。

3、小结

GPU这个方向不会错。

References:

2、林以,投资分析-技术篇2-AI的发展

3、Jon Peddie,Global GPU market’s growth blunted by COVID-19 in Q1’20, 6/1/2020

4、Wikipedia,Moore’s Law

5、Nvidia 2020Q1 presentation slides

6、Neil Thompson,The decline of computers as a general purpose technology:Why deep learning and the end of Moore’s Law are fragmenting computing,MIT working paper,Nov 2018

7、Arrow.com,FPGA vs CPU vs GPU vs Microcontroller: How do they fit into the processing jigsaw puzzle?10/5/2018

8、extremetech.com,Intel quietly kills off Xeon Phi,5/8/2019

9、Steven Reitsma,Cost comparison of deep learning hardware:Google TPUv2 vs Nvidia Tesla V100,1/21/2019

--

--

Interested in investment, databases, coding

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store