色黄久久久久久_日韩人妻精品一区二区三区_一道本在线观看视频_北条麻妃在线视频观看

首頁(yè) > 科技新聞 > 英偉達(dá)帝國(guó)的一道裂縫
英偉達(dá)帝國(guó)的一道裂縫
查看次數(shù):759 次 發(fā)布日期:2023-05-17 來(lái)源:市場(chǎng)資訊

硅基研習(xí)社

2012年,AI圈發(fā)生了兩件大事,按時(shí)間順序,第一件是谷歌組團(tuán)已久的Google Brain發(fā)布“出道作”——一個(gè)能夠識(shí)別貓的深度學(xué)習(xí)網(wǎng)絡(luò)“谷歌貓”,74.8%的識(shí)別準(zhǔn)確率,比知名識(shí)別圖像大賽ImageNet前一年獲勝算法的74%還要高出0.8%。

但谷歌的高光時(shí)刻只持續(xù)了幾個(gè)月。2012年12月,最新一屆ImageNet的獲勝者出爐,深度學(xué)習(xí)大神Hinton及其弟子帶著卷積神經(jīng)網(wǎng)絡(luò)AlexNet,將識(shí)別正確率一舉提高到了84%,由此開(kāi)啟了之后十年的AI革命,谷歌貓則被埋進(jìn)了歷史的塵埃之中。

讓業(yè)內(nèi)震驚的不只是ImageNet模型本身。這個(gè)需要1400萬(wàn)張圖片、總計(jì)262千萬(wàn)億次浮點(diǎn)運(yùn)算訓(xùn)練的神經(jīng)網(wǎng)絡(luò),一個(gè)星期的訓(xùn)練過(guò)程中僅用了四顆英偉達(dá)Geforce GTX 580。作為參考,谷歌貓用了1000萬(wàn)張圖片、16000顆CPU、1000臺(tái)計(jì)算機(jī)[1]。

傳言Google在這一年也秘密參加了比賽,其受到的震撼直接體現(xiàn)在接下來(lái)的行動(dòng)上:Google一邊豪擲了4400萬(wàn)美元收購(gòu)了Hinton團(tuán)隊(duì),一邊馬上向英偉達(dá)下單大量GPU用來(lái)人工智能訓(xùn)練,而且同時(shí)“掃貨”的還有微軟、Facebook等一眾巨頭。

英偉達(dá)成為最大的贏家,股價(jià)在接下10年里最高漲了121倍。一個(gè)帝國(guó)誕生了。

但帝國(guó)的上空,逐漸聚攏了兩朵烏云。當(dāng)年向英偉達(dá)掃貨的Google,在三年后攜AlphaGo驚艷亮相,并在2017年擊敗了人類冠軍柯潔。敏銳的人發(fā)現(xiàn),驅(qū)動(dòng)AlphaGo的芯片不再是英偉達(dá)的GPU,而是Google自研的TPU芯片。

再過(guò)三年,相似劇情重演。曾經(jīng)被黃仁勛一度視為標(biāo)桿客戶的特斯拉也告別英偉達(dá)GPU,先是推出了以NPU為核心的FSD車載芯片,然后又拿出了用來(lái)搭建AI訓(xùn)練集群的D1芯片——這意味著英偉達(dá)接連里失去了AI時(shí)代里兩個(gè)最重要的客戶。

到了2022年,全球IT周期進(jìn)入下行階段,云計(jì)算大廠紛紛削減數(shù)據(jù)中心的GPU采購(gòu)預(yù)算,區(qū)塊鏈挖礦大潮也逐漸冷卻,加上美國(guó)對(duì)華芯片禁令導(dǎo)致無(wú)法向國(guó)內(nèi)出售A100/H100等高端顯卡,英偉達(dá)庫(kù)存暴增,股價(jià)從最高點(diǎn)一度跌去了2/3。

2022年底ChatGPT橫空出世,GPU作為大模型“煉丹”的燃料再次遭到哄搶,英偉達(dá)獲得喘息,但第三朵烏云隨之而來(lái):2023年4月18號(hào),著名科技媒體The Information爆料:本輪AI浪潮的發(fā)起者微軟,正在秘密研發(fā)自己的AI芯片[2]。

這款名叫Athena的芯片由臺(tái)積電代工,采用5nm先進(jìn)制程,微軟研發(fā)團(tuán)隊(duì)人數(shù)已經(jīng)接近300人。很明顯,這款芯片目標(biāo)就是替代昂貴的A100/H100,給OpenAI提供算力引擎,并最終一定會(huì)通過(guò)微軟的Azure云服務(wù)來(lái)?yè)寠Z英偉達(dá)的蛋糕。

微軟目前是英偉達(dá)H100最大的采購(gòu)方,甚至一度傳出要“包圓”H100全年的產(chǎn)能。來(lái)自微軟的分手信號(hào)無(wú)疑是一道晴天霹靂,要知道,即使在Intel最灰暗的時(shí)候,其客戶也沒(méi)有一家“敢于”自造CPU芯片(除了蘋果,但蘋果并不對(duì)外銷售)。

盡管英偉達(dá)目前憑借GPU+NVlink+CUDA壟斷了AI算力90%的市場(chǎng),但帝國(guó)已經(jīng)出現(xiàn)了第一道裂縫。

01

本不為AI而生的GPU

打從一開(kāi)始,GPU就不是為AI所生。

1999年10月英偉達(dá)發(fā)布了GeForce 256,這是一款基于臺(tái)積電220納米工藝、集成了2300萬(wàn)個(gè)晶體管的圖形處理芯片。英偉達(dá)把Graphics Processing Unit的首字母‘GPU’提煉出來(lái),把GeForce 256冠以“世界上第一塊GPU”稱號(hào),巧妙地定義了GPU這個(gè)新品類,并占據(jù)這個(gè)詞的用戶心智直到今天。

而此時(shí)人工智能已經(jīng)沉寂多年,尤其是深度神經(jīng)網(wǎng)絡(luò)領(lǐng)域,Geoffery Hinton和Yann LeCun等未來(lái)的圖靈獎(jiǎng)獲得者們還在學(xué)術(shù)的冷板凳上坐著,他們?nèi)f萬(wàn)不會(huì)想到自己的職業(yè)生涯,會(huì)被一塊本來(lái)為游戲玩家開(kāi)發(fā)的GPU所徹底改變。

GPU為誰(shuí)所生?圖像。更準(zhǔn)確地說(shuō),是為CPU從圖像顯示的苦力活中解放出來(lái)而生。圖像顯示的基本原理是將每一幀的圖像分割成一顆顆像素,再對(duì)其進(jìn)行頂點(diǎn)處理,圖元處理,柵格化、片段處理、像素操作等多個(gè)渲染處理,最終得以顯示在屏幕上。

為什么說(shuō)這是苦力活呢?做一個(gè)簡(jiǎn)單的算術(shù)題:

假定屏幕上有30萬(wàn)顆像素,以60fps幀率計(jì)算,每秒需要完成1800萬(wàn)次渲染,每次包含上述五個(gè)步驟,對(duì)應(yīng)五條指令,也就是說(shuō),CPU每秒要完成9000萬(wàn)條指令才能實(shí)現(xiàn)一秒的畫面呈現(xiàn),作為參考,當(dāng)時(shí)英特爾性能最高的CPU每秒算力才6000萬(wàn)次。

不怪CPU弱,而是其本就以線程調(diào)度見(jiàn)長(zhǎng),為此將更多的空間讓渡給了控制單元和存儲(chǔ)單元,用于計(jì)算的計(jì)算單元只占據(jù)20%的空間。GPU則相反,80%以上空間是計(jì)算單元,帶來(lái)了超強(qiáng)并行計(jì)算能力,更適合圖片顯示這種步驟固定、重復(fù)枯燥的工作。

直到幾年后,一些人工智能學(xué)者才意識(shí)到,具備這樣特性的GPU也適用于深度學(xué)習(xí)的訓(xùn)練。很多經(jīng)典的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)早在20世紀(jì)下半葉就已經(jīng)被提出,但因?yàn)槿狈τ?xùn)練它們的計(jì)算硬件,很多研究只能“紙上談兵”,發(fā)展長(zhǎng)期停滯。

1999年10月的一聲炮響,給人工智能送來(lái)了GPU。深度學(xué)習(xí)的訓(xùn)練過(guò)程是對(duì)每個(gè)輸入值根據(jù)神經(jīng)網(wǎng)絡(luò)每層的函數(shù)和參數(shù)進(jìn)行分層運(yùn)算,最終得到一個(gè)輸出值,跟圖形渲染一樣都需要大量的矩陣運(yùn)算——這恰巧就是GPU最擅長(zhǎng)的東西。

不過(guò)圖像顯示雖然數(shù)據(jù)處理量龐大,但大部分步驟是固定的,而深度神經(jīng)網(wǎng)絡(luò)一旦運(yùn)用至決策領(lǐng)域,會(huì)涉及到分支結(jié)構(gòu)等復(fù)雜情況,每層的參數(shù)又需要基于海量數(shù)據(jù)正負(fù)反饋訓(xùn)練來(lái)不斷修正。這些差別為日后GPU對(duì)于AI的適應(yīng)性埋下了隱患。

如今的亞馬遜AI/ML總經(jīng)理Kumar Chellapilla是最早吃到GPU螃蟹的學(xué)者。2006年他使用英偉達(dá)的GeForce 7800顯卡第一次實(shí)現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)(CNN),發(fā)現(xiàn)比使用CPU要快4倍。這是已知最早將GPU用于深度學(xué)習(xí)的嘗試[3]。

Kumar的工作并未引起廣泛的注意,很重要的原因是基于GPU編寫程序的復(fù)雜度很高。但恰在此時(shí),英偉達(dá)于2007年推出了CUDA平臺(tái),開(kāi)發(fā)者利用GPU來(lái)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的難度大幅度降低,這讓深度學(xué)習(xí)教徒們看到了更多希望。

隨后便是2009年,斯坦福的吳恩達(dá)等人發(fā)表了突破性的一篇論文[6],GPU憑借超過(guò)CPU 70倍的算力將AI訓(xùn)練時(shí)間從幾周縮短到了幾小時(shí)。這篇論文為人工智能的硬件實(shí)現(xiàn)指明了方向。GPU大大加速了AI從論文走向現(xiàn)實(shí)的過(guò)程。

值得一提的是,吳恩達(dá)于2011年加入Google Brain,是開(kāi)篇提到的谷歌貓項(xiàng)目領(lǐng)導(dǎo)者之一。Google Brain最終沒(méi)能用上GPU的原因,外人不得而知,但之后吳恩達(dá)離開(kāi)谷歌加入百度前后,便一直有傳聞稱是因?yàn)楣雀鑼?duì)GPU的態(tài)度不明。

經(jīng)過(guò)無(wú)數(shù)人的探索,接力棒終于交到了深度學(xué)習(xí)大師Hinton的手上,此時(shí)時(shí)間已經(jīng)指向了2012年。

2012年,Hinton和Alex Krizhevsky、Ilya Sutskeverz這兩位學(xué)生一起設(shè)計(jì)了一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet,計(jì)劃參加這一年的ImageNet大賽。但問(wèn)題是如果用CPU來(lái)訓(xùn)練AlexNet可能需要幾個(gè)月的時(shí)間,于是他們把目光轉(zhuǎn)向了GPU。

這顆在深度學(xué)習(xí)的發(fā)展歷史中至關(guān)重要的GPU,便是著名的“核彈顯卡”GTX 580。作為英偉達(dá)最新Fermi架構(gòu)的旗艦產(chǎn)品,GTX 580被塞入512顆CUDA核心(上一代為108顆),算力飛躍的同時(shí),夸張的功耗和發(fā)熱問(wèn)題也讓英偉達(dá)被賜名“核彈工廠”。

甲之砒霜,乙之蜜糖。跟用GPU訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)的“順滑”相比,散熱問(wèn)題簡(jiǎn)直不值一提。Hinton團(tuán)隊(duì)用英偉達(dá)的CUDA平臺(tái)順利地完成了編程,在兩張GTX 580顯卡的支持下,1400萬(wàn)張圖片的訓(xùn)練只花了一個(gè)周,AlexNet順利奪冠。

由于ImageNet比賽和Hinton本人的影響力,所有人工智能學(xué)者都在一瞬間意識(shí)到了GPU的重要性。

兩年后,谷歌攜GoogLeNet模型參加ImageNet,以93%的準(zhǔn)確率奪冠,采用的正是英偉達(dá)GPU,這一年所有參賽團(tuán)隊(duì)GPU的使用數(shù)量飆升到了110塊。在比賽之外,GPU已經(jīng)成為深度學(xué)習(xí)的“必選消費(fèi)”,給黃仁勛送來(lái)源源不斷的訂單。

這讓英偉達(dá)擺脫了移動(dòng)端市場(chǎng)慘敗的陰影——2007年iPhone發(fā)布后,智能手機(jī)芯片的蛋糕迅速膨脹,英偉達(dá)也試圖從三星、高通、聯(lián)發(fā)科等碗里分一杯羹,但推出的Tegra處理器因?yàn)樯釂?wèn)題鎩羽而歸。最后反而是被GPU拯救的人工智能領(lǐng)域,反哺給了英偉達(dá)一條第二增長(zhǎng)曲線。

但GPU畢竟不是為了訓(xùn)練神經(jīng)網(wǎng)絡(luò)而生,人工智能發(fā)展的越快,這些問(wèn)題暴露地就越多。

例如,雖然GPU跟CPU差異顯著,但兩者根子上都遵循馮·諾伊曼結(jié)構(gòu),存儲(chǔ)和運(yùn)算是分離的。這種分離帶來(lái)的效率瓶頸,圖像處理畢竟步驟相對(duì)固定,可以通過(guò)更多的并行運(yùn)算來(lái)解決,但在分支結(jié)構(gòu)眾多的神經(jīng)網(wǎng)絡(luò)中很是要命。

神經(jīng)網(wǎng)絡(luò)每增加一層或一個(gè)分支,就要增加一次內(nèi)存的訪問(wèn),存儲(chǔ)數(shù)據(jù)以供回溯,花費(fèi)在這上面的時(shí)間不可避免。尤其在大模型時(shí)代,模型越大需要執(zhí)行的內(nèi)存訪問(wèn)操作就越多——最后消耗在內(nèi)存訪問(wèn)上的能耗要遠(yuǎn)比運(yùn)算要高很多倍。

簡(jiǎn)單比喻就是,GPU是一個(gè)肌肉發(fā)達(dá)(計(jì)算單元眾多)的猛男,但對(duì)于收到的每條指令,都得回過(guò)頭去翻指導(dǎo)手冊(cè)(內(nèi)存),最后隨著模型大小和復(fù)雜度的提升,猛男真正干活的時(shí)間很有限,反而被頻繁地翻手冊(cè)累到口吐白沫。

內(nèi)存問(wèn)題只是GPU在深度神經(jīng)網(wǎng)絡(luò)應(yīng)用中的諸多“不適”之一。英偉達(dá)從一開(kāi)始就意識(shí)到這些問(wèn)題,迅速著手“魔改”GPU,讓其更適應(yīng)人工智能應(yīng)用場(chǎng)景;而洞若觀火的AI玩家們也在暗渡陳倉(cāng),試圖利用GPU的缺陷來(lái)撬開(kāi)黃仁勛帝國(guó)的墻角。

一場(chǎng)攻防戰(zhàn)就開(kāi)始了。

02

Google和Nvidia的暗戰(zhàn)

面對(duì)排山倒海的AI算力需求和GPU的先天缺陷,黃仁勛祭出兩套應(yīng)對(duì)方案,齊頭并進(jìn)。

第一套,就是沿著“算力老仙,法力無(wú)邊”的路子,繼續(xù)暴力堆砌算力。在AI算力需求每隔3.5個(gè)月就翻倍的時(shí)代,算力就是吊在人工智能公司眼前的那根胡蘿卜,讓他們一邊痛罵黃仁勛的刀法精湛,一邊像舔狗一樣搶光英偉達(dá)所有的產(chǎn)能。

第二套,則是通過(guò)“改良式創(chuàng)新”,來(lái)逐步解決GPU跟人工智能場(chǎng)景的不匹配問(wèn)題。這些問(wèn)題包括但不限于功耗、內(nèi)存墻、帶寬瓶頸、低精度計(jì)算、高速連接、特定模型優(yōu)化……從2012年開(kāi)始,英偉達(dá)驟然加快了架構(gòu)更新的速度。

英偉達(dá)發(fā)布CUDA后,用統(tǒng)一的架構(gòu)來(lái)支撐Graphics和Computing這兩大場(chǎng)景。2007年第一代架構(gòu)登場(chǎng),取名Tesla,這并非是黃仁勛想示好馬斯克,而是致敬物理學(xué)家尼古拉·特斯拉(最早還有一代是居里架構(gòu))。

之后,英偉達(dá)每一代GPU架構(gòu)都以著名科學(xué)家來(lái)命名,如下圖所示。在每一次的架構(gòu)迭代中,英偉達(dá)一邊繼續(xù)堆算力,一邊在不“傷筋動(dòng)骨”的前提下改良。

比如2011年的第二代Fermi架構(gòu),缺點(diǎn)是散熱拉胯,而2012年的第三代架構(gòu)Kepler就把整體設(shè)計(jì)思路從high-perfermance轉(zhuǎn)向power-efficient,改善散熱問(wèn)題;而為了解決前文提到的“肌肉傻瓜”的問(wèn)題,2014年的第四代Maxwell架構(gòu)又在內(nèi)部增加更多的邏輯控制電路,便于精準(zhǔn)控制。

為了適應(yīng)AI場(chǎng)景,英偉達(dá)“魔改”后的GPU某種程度上越來(lái)越像CPU——正如CPU優(yōu)秀的調(diào)度能力是以犧牲算力為代價(jià)一樣,英偉達(dá)不得不在計(jì)算核心的堆疊上克制起來(lái)。但身背通用性包袱的GPU再怎么改,在AI場(chǎng)景下也難敵專用芯片。

率先對(duì)英偉達(dá)發(fā)難的,是最早大規(guī)模采購(gòu)GPU來(lái)進(jìn)行AI計(jì)算的Google。

2014年憑借GoogLeNet秀完肌肉后,Google就不再公開(kāi)參加機(jī)器識(shí)別大賽,并密謀研發(fā)AI專用芯片。2016年Google憑借AlphaGo先聲奪人,贏下李世石后旋即推出自研的AI芯片TPU,以“為AI而生”的全新架構(gòu)打了英偉達(dá)一個(gè)措手不及。

TPU是Tensor Processing Unit的首字母縮寫,中文名叫做“張量處理單元”。如果說(shuō)英偉達(dá)對(duì)GPU的“魔改”是拆了東墻補(bǔ)西墻,那么TPU便是通過(guò)從根本上大幅降低存儲(chǔ)和連接的需求,將芯片空間最大程度讓渡給了計(jì)算,具體來(lái)說(shuō)兩大手段:

第一是量化技術(shù)。現(xiàn)代計(jì)算機(jī)運(yùn)算通常使用高精度數(shù)據(jù),占用內(nèi)存較多,但事實(shí)上在神經(jīng)網(wǎng)絡(luò)計(jì)算大多不需要精度達(dá)到32位或16位浮點(diǎn)計(jì)算,量化技術(shù)的本質(zhì)基本上是將32位/16位數(shù)字近似到8位整數(shù),保持適當(dāng)?shù)臏?zhǔn)確度,降低對(duì)存儲(chǔ)的需求。

第二是脈動(dòng)陣列,即矩陣乘法陣列,這也是TPU與GPU最關(guān)鍵的區(qū)別之一。簡(jiǎn)單來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)運(yùn)算需要進(jìn)行大量矩陣運(yùn)算,GPU只能按部就班將矩陣計(jì)算拆解成多個(gè)向量的計(jì)算,每完成一組都需訪問(wèn)內(nèi)存,保存這一層的結(jié)果,直到完成所有向量計(jì)算,再將每層結(jié)果組合得到輸出值。

而在TPU中,成千上萬(wàn)個(gè)計(jì)算單元被直接連接起來(lái)形成矩陣乘法陣列,作為計(jì)算核心,可以直接進(jìn)行矩陣計(jì)算,除了最開(kāi)始從加載數(shù)據(jù)和函數(shù)外無(wú)需再訪問(wèn)存儲(chǔ)單元,大大降低了訪問(wèn)頻率,使得TPU的計(jì)算速度大大加快,能耗和物理空間占用也大大降低。

Google搞TPU速度非常快,從設(shè)計(jì)、驗(yàn)證、量產(chǎn)到最后部署進(jìn)自家數(shù)據(jù)中心只花了15個(gè)月的時(shí)間。經(jīng)過(guò)測(cè)試,TPU在CNN、LSTM、MLP等AI場(chǎng)景下的性能和功耗大大勝過(guò)了英偉達(dá)同期的GPU。壓力便一下子全部給到了英偉達(dá)。

被大客戶背刺的滋味不好受,但英偉達(dá)不會(huì)站著挨打,一場(chǎng)拉鋸戰(zhàn)開(kāi)始了。

Google推出TPU的5個(gè)月后,英偉達(dá)也祭出了16nm工藝的Pascal架構(gòu)。新架構(gòu)一方面引入了著名的NVLink高速雙向互聯(lián)技術(shù),大幅提升連接帶寬;一方面模仿TPU的量化技術(shù),通過(guò)降低數(shù)據(jù)精度來(lái)提升神經(jīng)網(wǎng)絡(luò)的計(jì)算效率。

2017年,英偉達(dá)又推出了首個(gè)專為深度學(xué)習(xí)設(shè)計(jì)的架構(gòu)Volta,里面第一次引入了Tensor Core,專門用于矩陣運(yùn)算的——雖然4×4的乘法陣列跟TPU 256×256的脈動(dòng)陣列相比略顯寒酸,但也是在保持靈活和通用性的基礎(chǔ)上作出的妥協(xié)。

英偉達(dá)的高管對(duì)客戶宣稱:“Volta并不是Pascal的升級(jí),而是一個(gè)全新的架構(gòu)。”

Google也分秒必爭(zhēng),2016年以后TPU在五年內(nèi)更新了3代,2017年推出了TPUv2、2018年推出了TPUv3、2021年推出了TPU v4,并把數(shù)據(jù)懟到英偉達(dá)的臉上[4]:TPU v4比英偉達(dá)的A100計(jì)算速度快1.2~1.7倍,同時(shí)功耗降低1.3~1.9倍。

Google并不對(duì)外出售TPU芯片,同時(shí)繼續(xù)大批量采購(gòu)英偉達(dá)的GPU,這讓兩者的AI芯片競(jìng)賽停留在“暗斗”而非“明爭(zhēng)”上。但畢竟Google把TPU其部署到自家的云服務(wù)系統(tǒng)中,對(duì)外提供AI算力服務(wù),這無(wú)疑壓縮了英偉達(dá)的潛在市場(chǎng)。

在兩者“暗斗”的同時(shí),人工智能領(lǐng)域的進(jìn)展也在一日千里。2017年Google提出了革命性的Transformer模型,OpenAI隨即基于Transformer開(kāi)發(fā)了GPT-1,大模型的軍備競(jìng)賽爆發(fā),AI算力需求自2012年AlexNet出現(xiàn)之后,迎來(lái)了第二次加速。

察覺(jué)到新的風(fēng)向之后,英偉達(dá)在2022年推出Hopper架構(gòu),首次在硬件層面引入了Transformer加速引擎,宣稱可以將基于Transformer的大語(yǔ)言模型的訓(xùn)練時(shí)間提升9倍。基于Hopper架構(gòu),英偉達(dá)推出了“地表最強(qiáng)GPU”——H100

H100是英偉達(dá)的終極“縫合怪”,一方面引入了各種AI優(yōu)化技術(shù),如量化、矩陣計(jì)算(Tensor Core 4.0)和Transformer加速引擎;另一方面則堆滿了英偉達(dá)傳統(tǒng)強(qiáng)項(xiàng),如7296個(gè)CUDA核、80GB的HBM2顯存以及高達(dá)900GB/s的NVLink 4.0連接技術(shù)。

手握H100,英偉達(dá)暫時(shí)松一口氣,市面上尚未出現(xiàn)比H100更能打的量產(chǎn)芯片。

Google和英偉達(dá)的暗中拉鋸,同樣也是是一種相互成就:英偉達(dá)從Google舶來(lái)了不少創(chuàng)新技術(shù),Google的人工智能前沿研究也充分受益于英偉達(dá)GPU的推陳出新,兩者聯(lián)手把AI算力降低到大語(yǔ)言模型“踮著腳”能用的起的水平。風(fēng)頭正勁者如OpenAI,也是站在這兩位的肩膀之上。

但情懷歸情懷,生意歸生意。圍繞GPU的攻防大戰(zhàn),讓業(yè)界更加確定了一件事情:GPU不是AI的最優(yōu)解,定制化專用芯片(ASIC)有破解英偉達(dá)壟斷地位的可能性。裂縫已開(kāi),循味而來(lái)的自然不會(huì)只有Google一家。

尤其是算力成為AGI時(shí)代最確定的需求,誰(shuí)都想吃飯的時(shí)候跟英偉達(dá)坐一桌。

03

一道正在擴(kuò)大的裂縫

本輪AI熱潮除了OpenAI外,還有兩家出圈的公司,一家是AI繪圖公司Midjourney,其對(duì)各種畫風(fēng)的駕馭能力讓無(wú)數(shù)碳基美工心驚膽戰(zhàn);另外一家是Authropic,創(chuàng)始人來(lái)自O(shè)penAI,其對(duì)話機(jī)器人Claude跟ChatGPT打的有來(lái)有回。

但這兩家公司都沒(méi)有購(gòu)買英偉達(dá)GPU搭建超算,而是使用Google的算力服務(wù)。

為了迎接AI算力的爆發(fā),Google用4096塊TPU搭建了一套超算(TPU v4 Pod),芯片之間用自研的光電路開(kāi)關(guān) (OCS) 互連,不僅可以用來(lái)訓(xùn)練自家的LaMDA、MUM和PaLM等大語(yǔ)言模型,還能給AI初創(chuàng)公司提供價(jià)廉物美的服務(wù)。

自己DIY超算的還有特斯拉。在推出車載FSD芯片之后,特斯拉在2021年8月向外界展示了用3000塊自家D1芯片搭建的超算Dojo ExaPOD。其中D1芯片由臺(tái)積電代工,采用7nm工藝,3000塊D1芯片直接讓Dojo成為全球第五大算力規(guī)模的計(jì)算機(jī)。

不過(guò)兩者加起來(lái),都比不過(guò)微軟自研Athena芯片所帶來(lái)的沖擊。

微軟是英偉達(dá)最大的客戶之一,其自家的Azure云服務(wù)至少購(gòu)買了數(shù)萬(wàn)張A100和H100高端GPU,未來(lái)不僅要支撐ChatGPT天量的對(duì)話消耗,還要供給Bing、Microsoft 365、Teams、Github、SwiftKey等一系列要使用AI的產(chǎn)品中去。

仔細(xì)算下來(lái),微軟要繳納的“Nvidia稅”是一個(gè)天文數(shù)字,自研芯片幾乎是必然。就像阿里當(dāng)年算了一下淘寶天貓未來(lái)對(duì)云計(jì)算、數(shù)據(jù)庫(kù)、存儲(chǔ)的需求,發(fā)現(xiàn)也是一個(gè)天文數(shù)字,于是果斷開(kāi)始扶持阿里云,內(nèi)部展開(kāi)轟轟烈烈的“去IOE”運(yùn)動(dòng)。

節(jié)省成本是一方面,垂直整合打造差異化是另一方面。在手機(jī)時(shí)代,三星手機(jī)的CPU(AP)、內(nèi)存和屏幕都是自產(chǎn)自銷,為三星做到全球安卓霸主立下汗馬功勞。Google和微軟造芯,也是針對(duì)自家云服務(wù)來(lái)進(jìn)行芯片級(jí)優(yōu)化,打造差異性。

所以,跟蘋果三星不對(duì)外出售芯片不同,Google和微軟的AI芯片雖然也不會(huì)對(duì)外出售,但會(huì)通過(guò)“AI算力云服務(wù)”來(lái)消化掉英偉達(dá)一部分潛在客戶,Midjourney和Authropic就是例子,未來(lái)會(huì)有更多的小公司(尤其是AI應(yīng)用層)選擇云服務(wù)。

全球云計(jì)算市場(chǎng)的集中度很高,前五大廠商(亞馬遜AWS、微軟Azure、Google Cloud、阿里云和IBM)占比超60%,都在做自己的AI芯片,其中Google的進(jìn)度最快、IBM的儲(chǔ)備最強(qiáng)、微軟的沖擊最大、亞馬遜的保密做的最好、阿里做的困難最多。

國(guó)內(nèi)大廠自研芯片,Oppo哲庫(kù)的結(jié)局會(huì)給每個(gè)入場(chǎng)的玩家投上陰影。但海外大廠做自研,人才技術(shù)供應(yīng)鏈都可以用資金來(lái)構(gòu)建出來(lái),比如特斯拉當(dāng)年搞FSD,挖來(lái)了硅谷大神Jim Keller,而Google研發(fā)TPU,直接請(qǐng)到了圖靈獎(jiǎng)獲得者、RISC架構(gòu)發(fā)明人David Patterson教授

除了大廠外,一些中小公司也在試圖分走英偉達(dá)的蛋糕,如估值一度達(dá)到28億美金的Graphcore,國(guó)內(nèi)的寒武紀(jì)也屬于此列。下表列舉了目前全球范圍內(nèi)較為知名的初創(chuàng)AI芯片設(shè)計(jì)公司。

AI芯片初創(chuàng)公司的困難在于:沒(méi)有大廠雄厚的財(cái)力持續(xù)投入,也不能像Google那樣自產(chǎn)自銷,除非技術(shù)路線獨(dú)辟蹊徑或者優(yōu)勢(shì)特別強(qiáng)悍,否則在跟英偉達(dá)短兵相接時(shí)基本毫無(wú)勝算,后者的成本和生態(tài)優(yōu)勢(shì)幾乎可以抹平客戶一切疑慮。

Start-up公司對(duì)英偉達(dá)的沖擊有限,黃仁勛的隱憂還是在那些身體不老實(shí)的大客戶身上。

當(dāng)然,大廠現(xiàn)在還離不開(kāi)英偉達(dá)。比如即使Google的TPU已經(jīng)更新到了第4代,但仍然需要大批量采購(gòu)GPU來(lái)跟TPU協(xié)同提供算力;特斯拉即使有了性能吹上天的Dojo超算,馬斯克在籌建AI新公司時(shí)仍然選擇向英偉達(dá)采購(gòu)10000張GPU。

不過(guò)對(duì)于大廠的塑料友情,黃仁勛早就在馬斯克身上領(lǐng)略過(guò)。2018年馬斯克公開(kāi)宣稱要自研車載芯片(當(dāng)時(shí)用的是英偉達(dá)的DRIVE PX),黃仁勛在電話會(huì)議上被分析師當(dāng)場(chǎng)質(zhì)問(wèn),一度下不來(lái)臺(tái)。事后馬斯克發(fā)表了一番“澄清”,但一年之后特斯拉仍然頭也不回地離英偉達(dá)而去[5]。

大廠在省成本這方面,從來(lái)不會(huì)留情。PC機(jī)時(shí)代Intel的芯片雖然賣給B端,但消費(fèi)者具有強(qiáng)烈的選擇自主性,廠商需要標(biāo)榜“Intel Inside”;但在算力云化時(shí)代,巨頭可以屏蔽掉一切底層硬件信息,未來(lái)同樣購(gòu)買100TFlops算力,消費(fèi)者能分得清哪部分來(lái)自TPU,哪部分來(lái)自GPU嗎?

因此,英偉達(dá)最終還是要直面那個(gè)問(wèn)題:GPU的確不是為AI而生,但GPU會(huì)不會(huì)是AI的最優(yōu)解?

17年來(lái),黃仁勛把GPU從單一的游戲何圖像處理場(chǎng)景中剝離出來(lái),使其成為一種通用算力工具,礦潮來(lái)了抓礦潮,元宇宙火了跟元宇宙、AI來(lái)了抱AI,針對(duì)一個(gè)個(gè)新場(chǎng)景不斷“魔改”GPU,試圖在“通用性”和“專用性”之間找到一個(gè)平衡點(diǎn)。

復(fù)盤英偉達(dá)過(guò)去二十年,其推出了數(shù)不清的改變業(yè)界的新技術(shù):CUDA平臺(tái)、Tensor Core、RT Core(光線追蹤)、NVLink、cuLitho平臺(tái)(計(jì)算光刻)、混合精度、Omniverse、Transformer引擎……這些技術(shù)幫助英偉達(dá)從一個(gè)二線芯片公司變成了全行業(yè)市值的南波腕,不可謂不勵(lì)志。

但一代時(shí)代應(yīng)該有一個(gè)時(shí)代的計(jì)算架構(gòu),人工智能的發(fā)展一日千里,技術(shù)突破快到以小時(shí)來(lái)計(jì),如果想讓AI對(duì)人類生活的滲透像PC機(jī)/智能手機(jī)普及時(shí)那樣大幅提升,那么算力成本可能需要下降99%,GPU的確可能不是唯一的答案。

歷史告訴我們,再如日中天的帝國(guó),可能也要當(dāng)心那道不起眼的裂縫。

作者:何律衡/戴老板

本文由 導(dǎo)航巴巴-分類目錄-網(wǎng)站提交-網(wǎng)站收錄-億夢(mèng)網(wǎng)絡(luò) 發(fā)布轉(zhuǎn)載請(qǐng)保留鏈接: http://m.weilanw.com/details/6967.html
標(biāo)簽:
色黄久久久久久_日韩人妻精品一区二区三区_一道本在线观看视频_北条麻妃在线视频观看
日韩少妇中文字幕| 黄色一级片播放| 欧美精品一区二区三区四区五区| 成人国产精品日本在线| 欧美成人在线免费| 麻豆av一区二区| 国产精品日韩欧美一区二区| 日韩美女在线观看| 97精品国产97久久久久久免费| 国产精品久久久久99| 欧美牲交a欧美牲交aⅴ免费真| 国产成人精品免费视频大全最热| 亚洲熟妇无码一区二区三区导航| 国产日韩精品视频| 久久艳片www.17c.com| 欧美精品无码一区二区三区| 久久久久久久激情视频| 性色av香蕉一区二区| 91国产在线精品| 午夜精品一区二区三区在线视| 高清在线观看免费| 欧美极品欧美精品欧美视频| 国产女大学生av| 欧美xxxx18性欧美| 国产麻豆日韩| 亚洲中文字幕久久精品无码喷水| 古典武侠综合av第一页| 亚洲色精品三区二区一区| 91精品国产一区二区三区动漫| 性亚洲最疯狂xxxx高清| 国产高清自拍99| 日韩精品在线中文字幕| 精品激情国产视频| 免费亚洲一区二区| 欧美激情精品久久久久| 99视频在线免费观看| 性色av一区二区三区在线观看| 国产成人短视频| 日本精品一区二区三区在线播放视频| 久久国产亚洲精品无码| 欧美连裤袜在线视频| 欧美成人精品在线| 99精品视频播放| 日本中文字幕一级片| 国产成人三级视频| 国产三级精品网站| 亚洲精品久久久久久一区二区| 久久精品xxx| 精品日韩在线播放| 亚洲欧洲一区二区福利| 久久久噜噜噜www成人网| 国内精品久久久久久久| 亚洲伊人久久大香线蕉av| 国产精品av在线播放| 欧洲精品在线一区| 国产99久久精品一区二区 夜夜躁日日躁 | 手机看片日韩国产| 国产精品视频在线观看| 国产伦精品一区二区三区在线 | 99免费在线观看视频| 日韩国产欧美精品| 久久99青青精品免费观看| 91国产中文字幕| 免费看欧美黑人毛片| 亚洲精品免费一区二区三区| 久久精品视频va| 97精品在线视频| 精品欧美日韩| 天堂一区二区三区| 另类美女黄大片| 久久久最新网址| 国产亚洲欧美另类一区二区三区| 少妇久久久久久被弄到高潮| 久久精品国产亚洲| 9a蜜桃久久久久久免费| 精品欧美一区免费观看α√| 无码人妻精品一区二区蜜桃百度 | 午夜精品www| 精品伦精品一区二区三区视频| 91精品视频大全| 国产欧美一区二区三区四区| 欧洲一区二区在线| 亚洲欧美日韩精品在线| 精品中文字幕视频| 久久精品国产成人精品| 99在线免费视频观看| 美女日批免费视频| 日本不卡二区| 亚洲精品一区二区毛豆| 精品国产三级a∨在线| 日韩中文有码在线视频| 7777精品视频| 官网99热精品| 国产在线999| 欧美日韩福利在线| 日本高清不卡三区| 亚洲精品欧美日韩专区| 欧美日韩国产二区| 国产精品久久久对白| 日韩视频―中文字幕| 99在线高清视频在线播放| 国产日韩av高清| 免费99视频| 免费影院在线观看一区| 欧美一级大胆视频| 日韩精品久久久毛片一区二区| 亚洲不卡一卡2卡三卡4卡5卡精品| 精品国产免费久久久久久尖叫| 久久国内精品一国内精品| 久久久久九九九| 91精品国产高清自在线| 99久久综合狠狠综合久久止| 国产一级大片免费看| 国产又黄又猛视频| 韩国一区二区av| 热re99久久精品国产66热| 日韩中文字幕在线视频观看| 无码人妻丰满熟妇区96| 亚洲一区二区三区四区视频| 久久久久久国产精品久久| 欧美久久精品午夜青青大伊人| 国产精品免费看久久久香蕉| 国产精品日韩欧美综合| 国产精品美乳一区二区免费| 国产精品入口免费视频一| 北条麻妃一区二区三区中文字幕 | 粉嫩高清一区二区三区精品视频| 成人国产精品一区| www国产黄色| 99电影在线观看| 91精品免费看| 久久久久欧美| 久久精品成人动漫| 久久精品中文字幕| 国产精品国产亚洲精品看不卡15| 国产精品第七十二页| 久久97久久97精品免视看| 国产99久久精品一区二区 夜夜躁日日躁 | 亚洲视频电影| 亚洲.欧美.日本.国产综合在线 | 精品婷婷色一区二区三区蜜桃| 国产日韩精品一区二区| av日韩一区二区三区| 久久久久久国产精品mv| 色噜噜久久综合伊人一本| 国产精品男人的天堂| 久热精品视频在线观看一区| 欧美激情综合色综合啪啪五月 | 国内一区二区三区在线视频| 国产青春久久久国产毛片| 97精品视频在线观看| 久久久久久综合网天天| 国产精品流白浆视频| 尤物av无码色av无码| 日本高清不卡在线| 国产综合福利在线| 91久久精品视频| 日韩在线中文字幕| 欧美区在线播放| 日本一区二区三区四区在线观看| 欧美第一黄网| av一本久道久久波多野结衣| 久久五月天婷婷| 国产精品免费入口| 亚洲精品高清视频| 日本欧美一二三区| 国产无限制自拍| 久久亚洲精品无码va白人极品| 久久精品中文字幕| 一本久久a久久精品vr综合| 日本韩国在线不卡| 国产乱码精品一区二区三区卡| 91国产精品视频在线| 久久精品国产欧美激情| 一级黄色免费在线观看| 日韩欧美精品在线不卡| 国产在线精品自拍| 91久久精品一区| 国产精品手机播放| 亚州av一区二区| 欧美性资源免费| 91精品视频大全| 不卡中文字幕av| 日韩不卡视频一区二区| 国产亚洲黄色片| www国产精品com| 亚洲欧美99| 国产一区二区不卡视频| 国产av熟女一区二区三区| 欧美激情视频网| 欧美日韩一区二区三区电影| 91九色在线观看视频| 久久精品中文字幕免费mv| 亚洲欧洲日产国码无码久久99| 欧美日韩另类丝袜其他| 国产极品美女高潮无套久久久| 欧美精品一二区| 欧美一二三不卡| 久久人人爽爽人人爽人人片av| 国产精品久久久久久久午夜|