特斯拉備受關(guān)注的 Dojo 超算指令集結(jié)構(gòu)細(xì)節(jié)史上首次大公開!而且還大秀了一把 Dojo 的數(shù)據(jù)格式、系統(tǒng)網(wǎng)絡(luò),以及軟件系統(tǒng)繞行死節(jié)點(diǎn)的能力。
關(guān)于特斯拉自研的 AI 芯片 D1,更多細(xì)節(jié)也被披露。一切來自剛剛舉辦的硅谷芯片技術(shù)研討會 HOT CHIPS,聽特斯拉硬件工程師 Emil Talpes 怎么說。
特斯拉 Dojo 超算
所謂 Dojo,是特斯拉自研的超級計(jì)算機(jī),能夠利用海量的視頻數(shù)據(jù),做“無人監(jiān)管”的標(biāo)注和訓(xùn)練。它有高度可擴(kuò)展且完全靈活的分布式系統(tǒng),能夠訓(xùn)練神經(jīng)網(wǎng)絡(luò),還能適應(yīng)新的算法和應(yīng)用。
不僅如此,還能從頭開始構(gòu)建大系統(tǒng),而不是從現(xiàn)有的小系統(tǒng)演變而來。每個(gè) Dojo ExaPod 集成了 120 個(gè)訓(xùn)練模塊,內(nèi)置 3000 個(gè) D1 芯片,擁有超過 100 萬個(gè)訓(xùn)練節(jié)點(diǎn),算力達(dá)到 1.1EFLOP*(每秒千萬億次浮點(diǎn)運(yùn)算)。
微架構(gòu)方面,每個(gè) Dojo 節(jié)點(diǎn)都有一個(gè)內(nèi)核,是一臺具有 CPU 專用內(nèi)存和 I / O 接口的成熟計(jì)算機(jī)。
這很重要,因?yàn)槊總€(gè)內(nèi)核都可以做到獨(dú)立處理,而不依賴于共享緩存或寄存器文件。每個(gè)內(nèi)核擁有一個(gè) 1.25MB 的 SRAM,這是主存儲器。這種 SRAM 能以 400GB / 秒的速度加載,并以 270GB / 秒的速度存儲。
芯片有明確的指令,可以將數(shù)據(jù)移入或移出 Dojo 超算中其他內(nèi)核的外部 SRAM 存儲器。
嵌入 SRAM 中的是列表解析器引擎(list parser engine),諸如此類的引擎可以將信息一起發(fā)送到其他節(jié)點(diǎn)或從其他節(jié)點(diǎn)獲取信息,無需像其他 CPU 架構(gòu)一樣。
至于通信接口,每個(gè)節(jié)點(diǎn)都與 2D 網(wǎng)格相連,在節(jié)點(diǎn)邊界處每周期有八個(gè)數(shù)據(jù)包。而且每個(gè)節(jié)點(diǎn)都有獨(dú)立的網(wǎng)絡(luò)連接,能與相鄰節(jié)點(diǎn)進(jìn)行無縫連接。
關(guān)于 Dojo 的指令集,它支持 64 位標(biāo)量指令和 64B SIMD 指令,能夠處理從本地到遠(yuǎn)程內(nèi)存?zhèn)鬏敂?shù)據(jù)的原語(primitives),并支持信號量(semaphore)和屏障約束( barrier constraints)。
特斯拉自研 AI 芯片新進(jìn)展
數(shù)據(jù)格式對 AI 來說至關(guān)重要,特別是芯片所支持的數(shù)據(jù)格式。特斯拉借助 Dojo 超算來研究業(yè)界常見的芯片,例如 FP32、FP16 和 BFP16。
FP32 格式比 AI 訓(xùn)練應(yīng)用的許多部分所需的精度和范圍更廣,IEEE 指定的 FP16 格式?jīng)]有覆蓋神經(jīng)網(wǎng)絡(luò)中的所有處理層。相反,谷歌 Brain 團(tuán)隊(duì)創(chuàng)建的 Bfloat 格式應(yīng)用范圍更廣,但精度更低。
特斯拉不僅提出了用于較低精度和更高矢量處理的 8 位 FP8 格式,還提出了一組可配置的 8 位和 16 位格式,Dojo 超算可以在尾數(shù)的精度附近滑動(dòng),以涵蓋更廣泛的范圍和精度。
在給定時(shí)間內(nèi),特斯拉最多可以使用 16 種不同的矢量格式,但每個(gè) 64B 數(shù)據(jù)包必須屬于同一類型。
特斯拉自研的 D1 芯片,是 Dojo ExaPod 的核心。由臺積電制造,采用 7 納米制造工藝,擁有 500 億個(gè)晶體管,芯片面積為 645mm²,小于英偉達(dá)的 A100(826 mm²)和 AMD Arcturus(750 mm²)。
每個(gè)芯片有 354 個(gè) Dojo 處理節(jié)點(diǎn)和 440MB 的靜態(tài)隨機(jī)存儲器。D1 芯片測試完成后,隨即被封裝到 5×5 的 Dojo 訓(xùn)練瓦片(Tile)上。
這些瓦片每邊有 4.5TB / s 的帶寬,每個(gè)模組還有 15kW 的散熱能力的封蓋,減掉給 40 個(gè) I / O 的散熱,也就是說每個(gè)芯片的散熱能力接近 600W。瓦片也包含了所有的液冷散熱和機(jī)械封裝,這和 Cerebras 公司推出的 WES-2 芯片的封裝理念類似。
演講最后結(jié)束時(shí),特斯拉工程師 Emil Talpes 表達(dá)了如下觀點(diǎn):
我們最終的目標(biāo)是追求可擴(kuò)展性。我們已經(jīng)不再強(qiáng)調(diào) CPU 中常見的幾種機(jī)制,像是一致性、虛擬內(nèi)存、全局查找目錄。只因?yàn)楫?dāng)我們擴(kuò)展到非常大的系統(tǒng)時(shí),這些機(jī)制并不能很好地隨之?dāng)U展。
相反,在整個(gè)網(wǎng)格中我們依靠的是那種快速、分散的 SRAM 存儲,這樣能夠得到更高數(shù)量級的互連速度支持。
關(guān)鍵詞: 超算指令 訓(xùn)練模塊 硅谷芯片技術(shù)研討會 數(shù)據(jù)格式 系統(tǒng)網(wǎng)絡(luò)