異構(gòu)計(jì)算:Exascale時(shí)代的新模式
全球高性能計(jì)算(HPC)市場(chǎng)進(jìn)入千萬(wàn)億次級(jí)時(shí)代已經(jīng)有三年多了 (2008年6月至今),在這個(gè)十年結(jié)束之前, 有望大踏步邁進(jìn)百億億次級(jí)時(shí)代。這種趨勢(shì)是全球性的。IDC預(yù)計(jì),由于百億億次級(jí)計(jì)算將極大地推動(dòng)科學(xué)進(jìn)步,增加各國(guó)的工業(yè)和經(jīng)濟(jì)競(jìng)爭(zhēng)力,改善人們的生活品質(zhì),因此美國(guó)、歐盟、日本、中國(guó)、俄羅斯將在該領(lǐng)域展開激烈競(jìng)爭(zhēng),以便享受這種技術(shù)帶來(lái)的巨大實(shí)惠。
但是很多高性能計(jì)算專家也指出,只有在現(xiàn)有技術(shù)和手段的基礎(chǔ)上進(jìn)行革命性的開拓,我們才能從容應(yīng)對(duì)一系列巨大的挑戰(zhàn),從而在這個(gè)有限的時(shí)間框架內(nèi)實(shí)現(xiàn)合理的百億億次級(jí)性能。這些挑戰(zhàn)包括但不限于以下內(nèi)容
系統(tǒng)成本(每秒浮點(diǎn)運(yùn)算次數(shù)/美元)。二十年前,全球領(lǐng)先的高性能計(jì)算機(jī)構(gòu)花了兩千五百萬(wàn)至三千萬(wàn)美元,用于購(gòu)置當(dāng)時(shí)最強(qiáng)大的超級(jí)計(jì)算機(jī)。如今購(gòu)買千萬(wàn)億次級(jí)超級(jí)計(jì)算機(jī)的費(fèi)用通常在一億美元以上。早期千萬(wàn)億次級(jí)系統(tǒng)的單臺(tái)售價(jià)在5億至10億美元之間。這種成本的上升是難以維持的。人們歡迎任何可增加每秒浮點(diǎn)運(yùn)算次數(shù)/美元比值的技術(shù)。
應(yīng)用性能 (時(shí)間/解決方案)。隨著高性能計(jì)算用戶日益尋求為自己的應(yīng)用尋求更新、更大的超級(jí)計(jì)算機(jī)系統(tǒng),這種長(zhǎng)期挑戰(zhàn)也會(huì)隨之增大。由于時(shí)鐘頻率難以繼續(xù)增加,未來(lái)的性能提升潛力幾乎都來(lái)自于日益增加的并行性,這進(jìn)而導(dǎo)致了對(duì)百億億次級(jí)計(jì)算的巨大并行性需求。1GHz主頻的機(jī)器每個(gè)時(shí)鐘周期將需要執(zhí)行十億次獨(dú)立運(yùn)算。隨著時(shí)間的推移,人們有望用這種級(jí)別的系統(tǒng)解決一些重大科學(xué)難題。此外,一些缺乏必要的單次運(yùn)行并發(fā)性的其他問題就可以利用百億億次級(jí)計(jì)算系統(tǒng)來(lái)進(jìn)行整體運(yùn)算。比如,在解析每次運(yùn)行操作時(shí),汽車設(shè)計(jì)工程師們已經(jīng)顯著增加了參數(shù)運(yùn)行的數(shù)量,這會(huì)發(fā)生于設(shè)計(jì)周期的分配階段。
空間和計(jì)算密度需求 (每秒浮點(diǎn)運(yùn)算次數(shù)/平方英尺)。一項(xiàng)全球性的IDC研究表明,絕大多數(shù)高性能計(jì)算機(jī)構(gòu)都極大地受限于數(shù)據(jù)中心的占地面積。其中三分之二的機(jī)構(gòu)正在計(jì)劃擴(kuò)建或修建新的高性能計(jì)算數(shù)據(jù)中心。其中一半的機(jī)構(gòu)已規(guī)劃,或已開始將高性能計(jì)算資源分布到多個(gè)地點(diǎn)。
計(jì)算和數(shù)據(jù)移動(dòng)的能源成本 (每秒浮點(diǎn)運(yùn)算次數(shù)/瓦,字節(jié)/瓦)。最后但同樣很重要的是,功耗已成為一個(gè)顯著的設(shè)計(jì)約束,并在總擁有成本中占有巨大的份額。隨著電壓的增長(zhǎng)速度顯著下降,當(dāng)我們按照摩爾定律增加晶體管總數(shù)時(shí),能耗不再是一個(gè)一成不變的制約因素,這使得如今的處理器受限于能耗,當(dāng)每一代新的IC芯片面世時(shí),情況也日益如此。
這個(gè)時(shí)代的計(jì)算性能主要取決于能源效率,因此系統(tǒng)設(shè)計(jì)方面的主要挑戰(zhàn)就是在不過度降低性能的前提下讓處理器和數(shù)據(jù)移動(dòng)變得更加節(jié)能。高性能計(jì)算系統(tǒng)領(lǐng)域的巨大進(jìn)步對(duì)能源效率提出了更高的要求。如今,規(guī)模最大的高性能計(jì)算數(shù)據(jù)中心所消耗的電能和一個(gè)小城市消耗的電能相當(dāng),多個(gè)千萬(wàn)億次級(jí)和百億億次級(jí)數(shù)據(jù)中心所消耗的電能注定還要更多。盡管能源價(jià)格相對(duì)于2008年的高位水平已回落了不少,但是相比于歷史水平它仍然顯著增加了很多。這場(chǎng)“完美風(fēng)暴”所暴露出來(lái)的另一個(gè)問題是,人們?nèi)找骊P(guān)注碳排放和全球氣候變化,而高性能計(jì)算數(shù)據(jù)中心對(duì)能耗和冷卻的要求卻與日俱增。最終,一些規(guī)模最大的高性能計(jì)算中心會(huì)擔(dān)心當(dāng)?shù)氐碾娏疚磥?lái)可能不會(huì)全力滿足其需求。其中有一家打算修建一個(gè)能耗為250兆瓦的數(shù)據(jù)中心,不過它恐怕無(wú)法使用電網(wǎng),而必須要自行修建一個(gè)小型核反應(yīng)堆。
異構(gòu)計(jì)算模式
過去十年間,利用x86架構(gòu)處理器的經(jīng)濟(jì)性優(yōu)勢(shì)的機(jī)群成為高性能計(jì)算系統(tǒng)的主流機(jī)型,全球高性能計(jì)算服務(wù)器市場(chǎng)的規(guī)模從2000年初的50億美元倍增至2010年的95億美元。主導(dǎo)模式已經(jīng)變?yōu)橥ㄟ^部署包含更多標(biāo)準(zhǔn)x86中央處理器內(nèi)核的規(guī)模更大的機(jī)群來(lái)達(dá)到更高的峰值性能。
但是從設(shè)計(jì)角度講,x86處理器根本無(wú)法良好地處理所有的高性能計(jì)算應(yīng)用,并且散熱和功耗在數(shù)年前就已經(jīng)制約了x86單線程的性能。人們?nèi)找嬲J(rèn)識(shí)到,雖然x86處理器路線圖展現(xiàn)了巨大的進(jìn)步潛力,但是單純依賴x86處理器的模式無(wú)法有效地應(yīng)對(duì)這十年中與實(shí)現(xiàn)百億億次級(jí)計(jì)算相關(guān)的挑戰(zhàn)。 #p#page_title#e#
近年來(lái),另一種可應(yīng)對(duì)這些挑戰(zhàn)的“異構(gòu)計(jì)算”替代模式在市場(chǎng)上占盡先機(jī)。這種新興模式通過加速器 (主要是 GPGPU,因此也可稱之為圖形處理器) 增加了x86中央處理器的效能,這樣每種處理器就能專注于自己擅長(zhǎng)的工作。圖形處理器尤其擅長(zhǎng)于處理海量代碼和代碼片段,體現(xiàn)出來(lái)了巨大的數(shù)據(jù)或線程級(jí)并行性。這就使得圖形處理器繼承了矢量處理器的衣缽,但是圖形處理器更為出色,不僅具有更大的規(guī)模經(jīng)濟(jì)性,同時(shí)還更具競(jìng)爭(zhēng)優(yōu)勢(shì)。IDC研究表明全球個(gè)人電腦市場(chǎng)僅對(duì)于獨(dú)立顯卡的需求規(guī)模就在2010年達(dá)到了大約40億美元。
異構(gòu)計(jì)算模式在整個(gè)高性能計(jì)算市場(chǎng)有著良好的表現(xiàn)。IDC針對(duì)高性能計(jì)算處理器的2008年全球研究表明,9% 的高性能計(jì)算機(jī)構(gòu)正在已部署的系統(tǒng)內(nèi)使用除了中央處理器之外的某種形式的加速器技術(shù)。IDC在2010年實(shí)施了一次相同的研究,發(fā)現(xiàn)情況已經(jīng)顯著不同。加速器技術(shù)已經(jīng)有了很大的發(fā)展。此時(shí),28% 的高性能計(jì)算機(jī)構(gòu)已使用了加速器技術(shù),該數(shù)據(jù)相比于兩年前增加了兩倍,幾乎所有的加速器都是圖形處理器。雖然圖形處理器僅占異構(gòu)系統(tǒng)處理器總量的5%,但是其數(shù)量仍在不斷增加。
異構(gòu)計(jì)算正在對(duì)高端高性能計(jì)算市場(chǎng)造成最大程度的沖擊。圖形處理器于2008年首次出現(xiàn)在全球超級(jí)計(jì)算機(jī)機(jī)構(gòu)的500 強(qiáng)榜單中(www.top500.org)。截至2011年6月,該榜單上排名前十的系統(tǒng)中有三個(gè)已經(jīng)部署了圖形處理器。2011年10月,美國(guó)能源部的Oak Ridge國(guó)家實(shí)驗(yàn)室宣布打算將排名第一的美國(guó)超級(jí)計(jì)算機(jī)升級(jí)為后繼系統(tǒng) (“Titan”), 新系統(tǒng)將部署18000多顆x86中央處理器和同樣數(shù)量的圖形處理器,從而實(shí)現(xiàn)兩至三百億億次的峰值性能。此后,德州高級(jí)計(jì)算中心宣布了建造異構(gòu)超級(jí)計(jì)算機(jī)“Stampede”的計(jì)劃,該計(jì)算機(jī)在最初階段將集成峰值性能為兩千萬(wàn)億次的x86中央處理器和峰值性能為八千萬(wàn)億次的MIC加速器處理器,從而實(shí)現(xiàn)一百億億次的峰值性能。
這些和其他領(lǐng)先高性能計(jì)算機(jī)構(gòu)開始采用異構(gòu)計(jì)算技術(shù)意味著圖形處理器已經(jīng)脫離了實(shí)驗(yàn)階段,日益能夠勝任一些面向生產(chǎn)的關(guān)鍵任務(wù)。
術(shù)語(yǔ)定義
機(jī)群:IDC 將機(jī)群定義為通過系統(tǒng)軟件和網(wǎng)絡(luò)技術(shù)集成為一個(gè)統(tǒng)一系統(tǒng)的一系列獨(dú)立計(jì)算機(jī)。這樣,機(jī)群并不基于新系統(tǒng)集成策略那樣的新架構(gòu)理念。
異構(gòu)處理:異構(gòu)處理和術(shù)語(yǔ)異構(gòu)計(jì)算含義相同,都指在相同的高性能計(jì)算系統(tǒng)內(nèi)使用了多種處理器,尤其是搭配中央處理器使用的圖形處理器或其他加速器。
高性能計(jì)算:根據(jù)IDC的定義,術(shù)語(yǔ)“高性能計(jì)算”是指所有用來(lái)解決涉及大量計(jì)算或數(shù)據(jù)的技術(shù)計(jì)算服務(wù)器和機(jī)群。該術(shù)語(yǔ)指這些系統(tǒng)所在的市場(chǎng)和該市場(chǎng)內(nèi)的相關(guān)活動(dòng)。它包括技術(shù)服務(wù)器,但是不包括用于技術(shù)計(jì)算的臺(tái)式機(jī)。
異構(gòu)計(jì)算為百億億次級(jí)時(shí)代帶來(lái)的實(shí)惠
異構(gòu)計(jì)算模式所帶來(lái)的高性能計(jì)算實(shí)惠是彼此相關(guān)的,這種模式解決了一些最重大的百億億次級(jí)計(jì)算難題:
系統(tǒng)成本。圖形處理器和相關(guān)加速器可實(shí)現(xiàn)極高的峰值運(yùn)算性能和線性測(cè)試標(biāo)準(zhǔn)的每秒浮點(diǎn)運(yùn)算次數(shù),帶來(lái)更高的投資回報(bào)。目前,高性能計(jì)算機(jī)構(gòu)目前都竭力在超級(jí)計(jì)算機(jī)500強(qiáng)榜單上占有一席之地,使用圖形處理器可大幅提升每秒浮點(diǎn)運(yùn)算次數(shù),讓線性測(cè)試標(biāo)準(zhǔn)的運(yùn)算性能達(dá)到前所未有的水平。中國(guó)的“天河 1A”超級(jí)計(jì)算機(jī)就同時(shí)使用了x86處理器和圖形處理器,并在2010年11月的500強(qiáng)榜單上獨(dú)占鰲頭。天河 1A 系統(tǒng)總共集成了14336顆x86中央處理器和7168顆圖形處理器。英偉達(dá)當(dāng)時(shí)表示,“如果僅使用中央處理器來(lái)實(shí)現(xiàn)同樣高的性能的話,那么所需中央處理器數(shù)量將為50000顆,設(shè)備占地面積將多出一倍”。截至 2011年6月,該榜單上排名前五的系統(tǒng)中有三個(gè)都使用了圖形處理器。如前文所述,2011年10月,美國(guó)能源部的Oak Ridge國(guó)家實(shí)驗(yàn)室宣布打算將排名第一的美國(guó)超級(jí)計(jì)算機(jī)進(jìn)行升級(jí), 新系統(tǒng)降部署18000多顆 x86 中央處理器和同樣數(shù)量的圖形處理器,從而實(shí)現(xiàn)兩至三百億億次的峰值性能。 #p#page_title#e#
運(yùn)算速度。高性能計(jì)算用戶表示,圖形處理器顯著提升了運(yùn)算性能,通??蓪⑦\(yùn)算速度提高三至十倍,尤其適合處理代碼或代碼片段,具有極強(qiáng)的數(shù)據(jù)并行性。圖形處理器已在實(shí)際的高性能計(jì)算應(yīng)用領(lǐng)域發(fā)揮了重要作用,尤其對(duì)生命科學(xué)、金融服務(wù)、天然氣和石油、產(chǎn)品涉及、制造業(yè)、數(shù)字內(nèi)容創(chuàng)建和分配領(lǐng)域有著巨大的貢獻(xiàn)。圖形處理器特別適合進(jìn)行分子動(dòng)力學(xué)模擬,可推動(dòng)多個(gè)應(yīng)用領(lǐng)域的技術(shù)進(jìn)步。
空間和計(jì)算密度。許多高性能計(jì)算數(shù)據(jù)中心曾一度接近能耗和空間極限,不過能實(shí)現(xiàn)極高峰值計(jì)算密度的圖形處理器可有助于解決這個(gè)問題。目前的圖形處理器通常包括512個(gè)計(jì)算內(nèi)核,相比之下同時(shí)代的中央處理器僅有4至16個(gè)內(nèi)核。但是,仍需注意的是,異構(gòu)計(jì)算之所以具有異構(gòu)特點(diǎn)是因?yàn)槊糠N處理器,無(wú)論是中央處理器,還是加速器,均在問題求解過程中處理各自最擅長(zhǎng)的工作。
能源成本。高性能計(jì)算系統(tǒng)規(guī)格的快速增大導(dǎo)致了對(duì)能源的需求急劇增加。如今規(guī)模最大的高性能計(jì)算數(shù)據(jù)中心所消耗的電力和一個(gè)小城市消耗的電力相當(dāng),百億億次級(jí)數(shù)據(jù)中心肯定會(huì)消耗更多電力,估計(jì)使用現(xiàn)有技術(shù)進(jìn)行部署的話,能耗不會(huì)少于120兆瓦。能源部的百億億次級(jí)目標(biāo)為將部署百億億次級(jí)系統(tǒng)所需的電能降低至20兆瓦以內(nèi)。這樣就可以避免能源成本過多增加,并確保能從當(dāng)?shù)仉娋W(wǎng)獲得足夠的供電,也讓數(shù)據(jù)中心的空間需求保持在合理水平。在異構(gòu)計(jì)算配置中,圖形處理器是中央處理器的重要補(bǔ)充,不僅顯示出強(qiáng)大的數(shù)據(jù)并行性,同時(shí)還有助于顯著增加能源效率,快速處理大量的代碼子集
應(yīng)用壁壘
圖形處理器是一種相對(duì)較新的技術(shù),至少在計(jì)算領(lǐng)域是如此,目前在應(yīng)用過程中面臨很多壁壘,IDC預(yù)計(jì)隨著時(shí)間的推移,這些壁壘都會(huì)消除。高性能計(jì)算系統(tǒng)買家表示,在更大范圍內(nèi)部署圖形處理器的過程中,他們遇到了以下主要壁壘:
編程便利性。雖然目前市面上有很多有用的工具,比如CUDA和OpenCL,且波特蘭集團(tuán)(Portland Group) 的基于指令的編譯器可以將Fortran語(yǔ)言或C語(yǔ)言代碼轉(zhuǎn)換為支持圖形處理器加速功能的代碼,但是高性能計(jì)算系統(tǒng)買家和最終用戶通常表示,相比于他們更熟悉的標(biāo)準(zhǔn) x86 處理器編程方法而言,針對(duì)圖形處理器進(jìn)行編程仍然更具挑戰(zhàn)性。隨著編程人員對(duì)于圖形處理器編程方法越來(lái)越熟悉,這種障礙可能也會(huì)隨著時(shí)間推移而逐漸消除。如今,已經(jīng)有450家大學(xué)提供GPU課程,而GPU編程方法也不斷進(jìn)步。
間接通訊。高性能計(jì)算系統(tǒng)用戶經(jīng)常遇到的另一個(gè)問題是,如今的圖形處理器通常是作為協(xié)處理器部署,需要通過數(shù)據(jù)傳輸速度相對(duì)較低的PCI Express通道與x86處理器或其他基礎(chǔ)處理器進(jìn)行通訊,至少相比于在同一個(gè)模塊上集成中央處理器和圖形處理器的系統(tǒng)時(shí)便是如此。這種間接通訊會(huì)影響某些應(yīng)用。它導(dǎo)致高性能計(jì)算系統(tǒng)用戶在處理總量日益增加的應(yīng)用代碼時(shí)無(wú)法顯著縮短運(yùn)算時(shí)間。
等待下一代中央處理器。有些高性能計(jì)算系統(tǒng)用戶認(rèn)為,相比于花時(shí)間學(xué)習(xí)圖形處理器編程方法并將他們自己的代碼片段運(yùn)行于圖形處理器, 等待具有改進(jìn)特性的下一代 x86 處理器是值得的。由于圖形處理器是可用于高性能計(jì)算的相對(duì)較新設(shè)備,有些用戶還擔(dān)心,如果圖形處理器架構(gòu)沿著新方向發(fā)展,或者圖形處理器只能在高性能計(jì)算市場(chǎng)上曇花一現(xiàn),那么他們就必須花費(fèi)極大精力重新編寫代碼。隨著圖形處理器在全球高性能計(jì)算市場(chǎng)上發(fā)揮越來(lái)越大的重要影響,且基于指令的圖形處理器編程方法變得越來(lái)越普及,持拭目以待心態(tài)的用戶的數(shù)量已經(jīng)有所減少。
趨勢(shì)
如今,異構(gòu)計(jì)算模式通常會(huì)將圖形處理器作為協(xié)處理器搭配x86處理器使用,這是一種重要的新模式,相比于單純基于x86處理器的高性能計(jì)算系統(tǒng),目前其影響力正在與日俱增。
圖形處理器方興未艾的另一個(gè)重要標(biāo)志是與圖形處理器相關(guān)的學(xué)術(shù)文獻(xiàn)得到了廣泛的傳播。為業(yè)界提供并行編程培訓(xùn)材料的英偉達(dá)表示,57 個(gè)國(guó)家的478所大學(xué)目前已提供CUDA 并行編程語(yǔ)言課程, 其中包括麻省理工學(xué)院、哈佛大學(xué)、斯坦福大學(xué)、劍橋大學(xué)、牛津大學(xué)、印度理工學(xué)院、臺(tái)灣國(guó)立大學(xué)、中科院。 #p#page_title#e#
如前所述(參考“異構(gòu)計(jì)算為百億億次級(jí)時(shí)代帶來(lái)的實(shí)惠”章節(jié)),異構(gòu)計(jì)算對(duì)于大型高性能計(jì)算機(jī)構(gòu)非常有吸引力,這些機(jī)構(gòu)正在計(jì)算科學(xué)和工程學(xué)領(lǐng)域開展深度研究,并面臨能耗和空間的限制。因此,異構(gòu)計(jì)算作為在這個(gè)十年的末期將開始的百億億次級(jí)計(jì)算時(shí)代的新模式對(duì)它們來(lái)說(shuō)尤其具有吸引力。與此同時(shí),越來(lái)越多的小型研究機(jī)構(gòu)和工業(yè)組織也逐漸開始使用集成了圖形處理器的異構(gòu)計(jì)算系統(tǒng)。
需要謹(jǐn)記的是,x86處理器技術(shù)仍有發(fā)展空間,截至2015年,即當(dāng)前IDC高性能計(jì)算預(yù)測(cè)期結(jié)束之時(shí),仍然會(huì)在收入方面保持在高性能計(jì)算領(lǐng)域的領(lǐng)先地位。此外,越來(lái)越多的供應(yīng)商將會(huì)提供更為豐富的加速器技術(shù),以滿足客戶的多種需求。
結(jié)論
如今的異構(gòu)計(jì)算系統(tǒng)將圖形處理器作為協(xié)處理器搭配x86處理器使用,它已成為全球高性能計(jì)算市場(chǎng)上的一種重要新興模式,尤其可用于應(yīng)對(duì)百億億次級(jí)計(jì)算時(shí)代的巨大挑戰(zhàn)。IDC認(rèn)為,異構(gòu)計(jì)算對(duì)于實(shí)現(xiàn)這個(gè)十年的百億億次級(jí)計(jì)算目標(biāo)不可或缺。
圖形處理器正在迅速擺脫試驗(yàn)階段,目前可用于執(zhí)行更多面向生產(chǎn)的任務(wù),比如地震數(shù)據(jù)處理、生物化學(xué)模擬、天氣和氣候建模、金融計(jì)算、計(jì)算流體動(dòng)力學(xué)、數(shù)據(jù)分析領(lǐng)域的任務(wù)。僅在過去兩年內(nèi),高性能計(jì)算機(jī)構(gòu)對(duì)于圖形處理器的應(yīng)用量就已經(jīng)增加了兩倍。圖形處理器對(duì)于這些機(jī)構(gòu)在業(yè)界密切關(guān)注的超級(jí)計(jì)算機(jī) 500 強(qiáng)榜單上占據(jù)顯著地位發(fā)揮著不可或缺的作用,并幫助實(shí)現(xiàn)了更多真實(shí)世界的研究成果。
一些全球領(lǐng)先的高性能計(jì)算機(jī)構(gòu)已采用了異構(gòu)處理模式,這表明該模式正在走出試驗(yàn)階段,圖形處理器已日益能夠勝任一些面向生產(chǎn)的關(guān)鍵任務(wù)。
當(dāng)圖形處理器硬件和軟件技術(shù)不斷前進(jìn)時(shí),越來(lái)越多的大學(xué)生和其他人也開始學(xué)習(xí)如何利用圖形處理器。隨著越來(lái)越多的圖形處理器可供全球最具創(chuàng)新力的科技、工程、計(jì)算領(lǐng)域?qū)I(yè)人士使用,IDC 相信,圖形處理器會(huì)在全球高性能計(jì)算市場(chǎng)發(fā)揮越來(lái)越大的作用,成為高性能計(jì)算生態(tài)體系內(nèi)x86處理器的有力補(bǔ)充。