NVIDIA百億億次超級(jí)計(jì)算芯片更深入細(xì)節(jié)

2010-11-26 作者:搜狐IT 來源:搜狐IT

　　今年八月初，NVIDIA獲得了美國國防部下屬國防高級(jí)研究規(guī)劃局(DARPA)的2500萬美元專款支持，用于聯(lián)合Cray、橡樹嶺國家實(shí)驗(yàn)室、六所美國頂尖大學(xué)共同研究基于GPU的百億億次(Exascale)高性能計(jì)算技術(shù)，速度千倍于目前最快的超級(jí)計(jì)算機(jī)系統(tǒng)。很快，NVIDIA>披露了他們的相關(guān)規(guī)劃，項(xiàng)目代號(hào)“Echelon”。

　　NVIDIA架構(gòu)研發(fā)主管Steve Keckler解釋說，Echelon芯片的基本組成單位仍是流處理器(SP)，每八個(gè)組成一個(gè)流式多處理器陣列(SM)，雙精度浮點(diǎn)性能大約160GFlops(每秒十億次運(yùn)算)；然后128個(gè)SM陣列并排，總計(jì)就是1024個(gè)=處理器，再輔以八個(gè)類似CPU的延遲優(yōu)化核心，共同組成一顆大規(guī)模高性能計(jì)算芯片。

　　按照NVIDIA的設(shè)計(jì)，這樣的一顆芯片能夠帶來20.48TFlops(每秒萬億次運(yùn)算)的雙精度浮點(diǎn)性能，可搭配256GB內(nèi)存，帶寬1.6TB/s。

　　相比之下，現(xiàn)在的Fermi(費(fèi)米)架構(gòu)在512個(gè)=理器、1544MHz頻率下只有0.79TFlops的雙精度浮點(diǎn)性能，這就意味著Echelon芯片必須實(shí)現(xiàn)25倍的浮點(diǎn)性能提升。再加上相應(yīng)原型系統(tǒng)預(yù)計(jì)2018-2010年才能問世，其核心架構(gòu)應(yīng)該是下兩代Kepler(開普勒)、Maxwell(麥克斯韋)之后的事兒了。

　　每顆Echelon芯片可以視為一個(gè)節(jié)點(diǎn)，進(jìn)而四顆組成一個(gè)模塊，然后32個(gè)模塊再加上路由模塊就組成一個(gè)機(jī)柜，合計(jì)性能高達(dá)2.56PFlops(每秒千萬億次運(yùn)算)，內(nèi)存容量32TB、帶寬205TB/s。更進(jìn)一步，這種機(jī)柜還可以繼續(xù)多個(gè)并聯(lián)，浮點(diǎn)性能自然也是繼續(xù)直線上升。

　　NVIDIA同時(shí)表示，為了降低如此超大規(guī)模芯片的功耗，流處理器必須以不到10皮焦的耗電量處理一次雙精度浮點(diǎn)操作，相當(dāng)于費(fèi)米架構(gòu)的二十分之一，同時(shí)每個(gè)流處理器必須在單個(gè)時(shí)鐘周期內(nèi)完成四次浮點(diǎn)操作。

　　更進(jìn)一步地，NVIDIA計(jì)劃在芯片內(nèi)集成1024個(gè)可配置的256KB SRAM Bank。如此大容量的片上內(nèi)存能夠盡可能地將數(shù)據(jù)保留在芯片內(nèi)部，距離處理單元也盡可能的近，從而避免非常耗電的拾取操作。這些SRAM Bank既可以配置為通用內(nèi)存池，也可以作為專用緩存。

　　Echelon現(xiàn)在還只是NVIDIA遠(yuǎn)景規(guī)劃圖上的一個(gè)設(shè)想，實(shí)現(xiàn)起來還有太多難題要解決，不止有硬件設(shè)計(jì)上的麻煩，還需要自我感應(yīng)操作系統(tǒng)、自我感應(yīng)運(yùn)行時(shí)、位置感應(yīng)編譯器和調(diào)試器的軟性配合。

　　有趣的是，美國國防部DARPA也同樣找上了Intel，希望其能夠從傳統(tǒng)CPU的角度出發(fā)l同樣實(shí)現(xiàn)百億億次高性能計(jì)算。Intel的計(jì)劃是利用其正在研發(fā)的超多核心(MIC)架構(gòu)，而且已經(jīng)有了測(cè)試樣品，甚至?xí)诮衲陜?nèi)推出相應(yīng)的商用產(chǎn)品，似乎更快一步。

　　很顯然，這是CPU、GPU之間的一場終極對(duì)決。

(責(zé)任編輯：李志宇)

閱讀:562 評(píng)論:0