作為我國(guó)高性能計(jì)算領(lǐng)域里一年一度的盛會(huì),高性能計(jì)算學(xué)術(shù)年會(huì)總會(huì)給業(yè)界乃至世界帶來(lái)一些驚喜。
去年年會(huì)上公布的國(guó)內(nèi)高性能計(jì)算百?gòu)?qiáng)中,國(guó)產(chǎn)系統(tǒng)已經(jīng)雄踞前三名,而且第一名的天河一號(hào)系統(tǒng)位列當(dāng)年發(fā)布的全球高性能計(jì)算500強(qiáng)的第5位。在今年10月28日~29日舉辦的年會(huì)上,國(guó)產(chǎn)系統(tǒng)已經(jīng)囊括了前7名,而經(jīng)過(guò)優(yōu)化升級(jí)后的天河一號(hào)奪得將于今年11月發(fā)布的全球500強(qiáng)桂冠幾無(wú)懸念。
年會(huì)也給我們帶來(lái)一些思考。作為國(guó)家競(jìng)爭(zhēng)力組成部分,高性能計(jì)算不僅面臨著在性能上不斷突破的挑戰(zhàn),還面臨著把這種超級(jí)計(jì)G的能量在更多的應(yīng)用領(lǐng)域釋放出來(lái),以滿足各行各業(yè)用戶需求的壓力。
超級(jí)摩爾定律
在過(guò)去的30多年里,高性能計(jì)算的每秒浮點(diǎn)運(yùn)算性能以每10年提高1000倍的速度,幾近線性地完成了從百萬(wàn)億次(106)、10億次(109)、萬(wàn)億次(1012)到千萬(wàn)億次(1015)的跨越,預(yù)計(jì)在2020年之前,高性能計(jì)算將會(huì)再提高1000倍,從而突破百萬(wàn)萬(wàn)億次(1018)大關(guān)。
在高速發(fā)展中,高性能計(jì)算完成了從專用CPU到以x86通用CPU為主、從單核到多核、從向量機(jī)到集群、從由CPU組成的同構(gòu)系統(tǒng)到以CPU和GPU共同組成的異構(gòu)系統(tǒng)的提升。如今,系統(tǒng)中各節(jié)點(diǎn)間的通信網(wǎng)絡(luò)也正在完成從局域網(wǎng)向InfiniBand的過(guò)渡。
功耗問(wèn)題在性能不斷提高過(guò)程中變得日益突出,令普通的PC用戶難以想象。以天河一號(hào)為例,如果采用CPU的同構(gòu)架構(gòu),每天僅電費(fèi)開(kāi)支就會(huì)超過(guò)15萬(wàn)元,而如果采用CPU+GPU的混合架構(gòu),在同樣性能指標(biāo)下可以節(jié)省2/3的功耗。
作為混合架構(gòu)的新貴,GPU無(wú)疑成為本次年會(huì)報(bào)告中涉及范圍最廣的熱門技術(shù)。雖然GPU的浮點(diǎn)運(yùn)算能力是CPU的數(shù)十倍,但功耗相當(dāng),因此同樣存在因?yàn)榘l(fā)熱而引發(fā)的“0”“1”翻轉(zhuǎn)問(wèn)題。這在GPU圖形應(yīng)用中只是暫時(shí)影響一個(gè)像素,而在高性能計(jì)算敢馕蹲耪個(gè)計(jì)算的失敗,甚至用戶無(wú)法確認(rèn)每次運(yùn)算結(jié)果是否正確。記者注意到天河一號(hào)、星云等國(guó)產(chǎn)高端系統(tǒng)都采用了具有糾錯(cuò)功能(ECC)的GPU,從而確保了計(jì)算結(jié)果的可靠性。
高性能計(jì)算高速發(fā)展的背后是美、日、中三個(gè)高性能計(jì)算機(jī)強(qiáng)國(guó)之間的激烈競(jìng)爭(zhēng)。
浮拔夜在高性能計(jì)算機(jī)研制方面取得了長(zhǎng)足進(jìn)展,在性能指標(biāo)上達(dá)到世界領(lǐng)先,但競(jìng)爭(zhēng)還是非常激烈。今后兩年,美國(guó)和日本將會(huì)有若干萬(wàn)萬(wàn)億次高性能計(jì)算系統(tǒng)投入使用,這將拉開(kāi)美日與我國(guó)的距離?!北本┖娇蘸教齑髮W(xué)教授錢德沛在談到我國(guó)高性能計(jì)算面臨的挑戰(zhàn)時(shí)表示:“我國(guó)在CPU、互連、I/O、系統(tǒng)軟件、算法等核心關(guān)鍵技術(shù)上還有很大差距,缺少跨學(xué)科的人才,多學(xué)科協(xié)作研發(fā)尚未形成風(fēng)氣,應(yīng)用與世界先進(jìn)水平差距較大,在可持續(xù)發(fā)展上需要政府持續(xù)投入和科技界與工業(yè)界的持續(xù)努力。”
應(yīng)用應(yīng)該無(wú)處不有
“高U能仿真技術(shù)可以研究已發(fā)生、尚未發(fā)生或設(shè)想的現(xiàn)象,可以研究難以達(dá)到的微觀、中觀或宏觀的世界,具有綜合、協(xié)同、繼承和互操作的特性,因而成為現(xiàn)代科學(xué)研究中求解高度復(fù)雜問(wèn)題的重要科學(xué)手段,并與理論研究、實(shí)驗(yàn)研究并列為認(rèn)識(shí)與改造世界的三種重要的科學(xué)研究手段?!敝袊?guó)U程院院士李伯虎表示。
高性能計(jì)算不僅在像宇宙起源這樣超長(zhǎng)超大時(shí)空環(huán)境下的模擬、深空探測(cè)這樣在地面無(wú)法進(jìn)行的模擬中發(fā)揮著獨(dú)到的作用,而且能用更少的時(shí)間與金錢代價(jià)和更高的效率來(lái)替代或者驗(yàn)證現(xiàn)實(shí)過(guò)程中的模擬和實(shí)驗(yàn)。
我國(guó)西部不僅蘊(yùn)藏著全國(guó)U80%的水力資源,同時(shí),近代82%的強(qiáng)震也集中在該地區(qū)。中國(guó)水利水電科學(xué)研究院不僅成功地將高性能計(jì)算用于高壩地震相應(yīng)分析,而且有的計(jì)算結(jié)果還修正了以往小尺度實(shí)物模擬時(shí)出現(xiàn)的較大偏差。
化工、制藥、冶金乃至沙塵暴這些風(fēng)馬牛不相及的領(lǐng)域,在中科院過(guò)程工程研究所研究員葛蔚看來(lái),在算法上同屬于多尺度數(shù)值模擬問(wèn)題,即在仿真模擬中既要研究可能小至分子原子個(gè)體的微小顆粒的運(yùn)動(dòng)規(guī)律,又要在數(shù)米乃至數(shù)千米尺度上研究微小顆粒個(gè)體之間的相互作用。這種多尺度的問(wèn)題沒(méi)有高性能計(jì)算是不可想象的,而高性能計(jì)算在過(guò)程工程上的應(yīng)用卻倘肆糲魯浞值南胂罌占洌翰槐匾宦接一爐地冶煉來(lái)獲取新的合金配方,也不必像神農(nóng)嘗百草那樣去尋找新的藥品,化學(xué)家也會(huì)用計(jì)算機(jī)取代實(shí)驗(yàn)室的瓶瓶罐罐和各色試劑。
美國(guó)應(yīng)用數(shù)學(xué)家Phillip Colell曾將涵蓋工程模擬問(wèn)題的算法歸納為7種。如今這些算法都可以移植到GPU上,區(qū)別只是移植難度和程度。換言之,高性能計(jì)算應(yīng)該或者說(shuō)未來(lái)應(yīng)該無(wú)處不在。
“1998年,美國(guó)一個(gè)化學(xué)家因計(jì)算化學(xué)的研究而獲得諾貝爾獎(jiǎng)。我國(guó)的化學(xué)界還比較扭捏,到現(xiàn)在還稱之為理論化學(xué),而不叫計(jì)算化學(xué),”中科院軟件所首席研究員孫家昶說(shuō),“我們與物理學(xué)家已經(jīng)很好地合作了,但與化學(xué)家的合作才剛剛開(kāi)始?!?/P>
只有相關(guān)行業(yè)的專家參與,高性能計(jì)算的應(yīng)用才能推廣,高性能計(jì)算自身進(jìn)而才能得到持續(xù)發(fā)展。
百萬(wàn)萬(wàn)億次的挑戰(zhàn)
按照高性能計(jì)算過(guò)去30多年的發(fā)展規(guī)律,每秒浮點(diǎn)運(yùn)性能將在未來(lái)十年內(nèi)迎來(lái)百萬(wàn)萬(wàn)億次。這1000倍性能的提升帶來(lái)的挑戰(zhàn)是空前的。
聯(lián)想集團(tuán)首席科學(xué)家祝明發(fā)認(rèn)為,功耗將成為最大的挑戰(zhàn),假設(shè)按照現(xiàn)有的雙核CPU搭建,僅CPU的總運(yùn)行功率就高達(dá)500千千瓦,電費(fèi)即便按0.5元/千瓦時(shí)計(jì)算,也高達(dá)600萬(wàn)元/天。如何將系統(tǒng)Чβ氏拗圃20千千瓦將會(huì)是一個(gè)巨大的挑戰(zhàn)。此外,來(lái)自系統(tǒng)方面的主要挑戰(zhàn)有:10~100PB(1015字節(jié))內(nèi)存和EB(1018字節(jié))外部存儲(chǔ)帶來(lái)的帶寬與延時(shí)以及功耗限制的挑戰(zhàn),并發(fā)性和局部性的挑戰(zhàn),來(lái)自系統(tǒng)恢復(fù)的挑戰(zhàn)等。
祝明發(fā)認(rèn)為,應(yīng)對(duì)百萬(wàn)萬(wàn)億次的挑戰(zhàn)必須要全方位地創(chuàng)新,包括硬件與體系結(jié)構(gòu),體系結(jié)構(gòu)與編程方法,算法、工具、應(yīng)用和運(yùn)行系統(tǒng)的協(xié)同優(yōu)化設(shè)計(jì)以及低功耗高可靠、可恢復(fù)的體系結(jié)構(gòu)設(shè)計(jì)等方面。“1000倍的跨越,是靠?jī)杀丁?倍的跳躍積累而成”。
美國(guó)航天航空局(NASA)Langley研究中心Singleterry博士則提到了另一匚侍猓骸癗ASA高性能系統(tǒng)的內(nèi)核數(shù)每4年翻5倍,從2004年的10240個(gè)內(nèi)核、2008年的51200個(gè),到2012年預(yù)計(jì)將達(dá)256000個(gè),而到2016年將達(dá)到1280000個(gè)。而算法是否也能每4年翻5倍,從2008年的2000個(gè)增加到2016年的50000個(gè)?“未來(lái)是把錢花在更大和更好的硬件上,還是花在擴(kuò)展性更強(qiáng)的算法上?”
即便是在超級(jí)電腦跟前,還是要發(fā)揮人腦的作用?!安粌H要注重算法的優(yōu)化,而且還要重視建模?!?孫家昶說(shuō)。
算法的挖潛所帶來(lái)的效率可以起到讓軟硬件此長(zhǎng)彼消的作用,進(jìn)而顯著降低應(yīng)用對(duì)系統(tǒng)硬件性能的要求。
(責(zé)任編輯:劉暉)