中國計量網(wǎng) http://www.etvsebi.cn/
中國計量網(wǎng)——計量行業(yè)門戶網(wǎng)站
計量資訊速遞
您當(dāng)前的位置: 首頁 > 新聞 > 綜合資訊

中國計量科學(xué)研究院先進測量工程中心副主任武彤:計算性能基準計量測試工具研究

發(fā)布時間:2020-09-17 作者: 來源: 瀏覽:5766

中國IDC圈訊,開放數(shù)據(jù)中心峰會(ODCC2020)在北京召開,峰會圍繞數(shù)據(jù)中心新基建為主題,有數(shù)據(jù)中心領(lǐng)域及相關(guān)行業(yè)的眾多專家與會。在9月16日新技術(shù)與測試分論壇上,中國計量科學(xué)研究院先進測量工程中心副主任武彤帶來了主題為“計算性能基準計量測試工具研究”的演講。

39664009

中國計量科學(xué)研究院先進測量工程中心副主任武彤

大家好,我是武彤,先介紹一下我們單位的情況,可能在IT行業(yè)大家不太了解我們單位,我來自中國計量科學(xué)研究院,它隸屬于國家市場監(jiān)督管理總局,是我國最高的計量科學(xué)的研究中心,國家級的法定計量技術(shù)機構(gòu),我所在的部門主要負責(zé)智能工程、云計算以及數(shù)據(jù)中心領(lǐng)域還有一些其他的材料領(lǐng)域的計量測試以及評價驗證。

可能大家不太熟悉計量,我首先給大家介紹一下,大家對計量的概念一般都從秦朝開始,就是商鞅變法統(tǒng)一度量衡稱為計量。實際上在上古時代,《伏羲女媧圖》里面拿了兩個工具就是比較早期的計量工具。什么叫計量?給大家舉個例子,在秦朝叫秦錢,“秦錢半兩,徑一寸二分,重十二銖。”這兒都兩個單位“兩”和“銖”,一兩等于二十四銖,計量就是單位統(tǒng)一、量值準確可靠的活動。度量衡的技術(shù)進步開啟了我國的金融體系。

計量的發(fā)展通常我們稱為從古典計量到現(xiàn)代計量。古典計量基本上大家都非常了解,是用植物的果實或者是用某一個人的人體器官的長度作為計量的單位,比如說克拉,克拉就是是一種植物的果實,大家都用于做重金屬或者鉆石重量的計量,克拉原來是植物的果實,后來做標(biāo)準化,1克拉等于200毫克。到1875年,米制公約的確立,為了工業(yè)制造的發(fā)展需要標(biāo)準化,就需要統(tǒng)一的量值體系,到了現(xiàn)代計量,主要為了科學(xué)技術(shù)的發(fā)展,特別是軍事科學(xué)技術(shù)的發(fā)展。

我們看一下云計算領(lǐng)域的計量。首先看貿(mào)易的角度,我們看怎么來賣云計算服務(wù)的,特別是IaaS的方面,這是騰訊云的,里面有三個指標(biāo),其中一個比較重要,一個叫CPU,一個叫內(nèi)存,一個叫帶寬,它賣了三種服務(wù),一個是計算的能力,一個是存儲的能力,一個是通信的能力,其他的廠商也是這樣的。

實際上如果從度量的角度來講,“核”就是一個單位,因為我們賣的計量單位是一核,一核的計量單位是多少我們大家都不是特別清楚。從計量角度來講,我們認為云計算的計量可能處于植物果實的狀態(tài),就是克拉的狀態(tài)。

在物理領(lǐng)域,計量有七個基本單位能描述整個物理世界,比如千克等等。在互聯(lián)網(wǎng)領(lǐng)域怎么來描述整個互聯(lián)網(wǎng)領(lǐng)域的量呢?在2015年ODCA開放數(shù)據(jù)中心聯(lián)盟,這個聯(lián)盟大部分由數(shù)據(jù)中心的使用方組成的,他們做了研究成果就是IaaS的度量方法。他們提出來在互聯(lián)網(wǎng)領(lǐng)域可能用三個指標(biāo)整個描述互聯(lián)網(wǎng)領(lǐng)域的活動:第一是秒,秒是時間的永恒的時間指標(biāo);第二是比特,大家知道比特是描述信息的一個計量單位;第三是計算能力,計算能力是互聯(lián)網(wǎng)領(lǐng)域一個新的計算指標(biāo),因為我們買的就是算力,類似于電力的千瓦時一樣。

實際上在這三個指標(biāo)里面,計算能力的測量是最復(fù)雜的。我們歸納一下,在互聯(lián)網(wǎng)測試領(lǐng)域怎么做計量或者測試,比較重要的就是計算資源的測試,存儲資源的計量單位比如比特。存儲資源是計量是按照“塊存儲”來測量的,“塊存儲”的不同也會導(dǎo)致的計量測試結(jié)果差異很大,但計算資源的計量可能是顛覆性的差異,比如你買一核的算力是兩塊錢,另外一核可能二十塊錢,擔(dān)算力到底是多少,實際上是沒有一個統(tǒng)的度量指標(biāo)的,所以我們就從需求的角度來講,最重要的需求是先把計算資源的這種計量的能力或者測量能力統(tǒng)一。

剛才我講物理計量用七個基本單位,但是在化學(xué)計量里面,采用的計量標(biāo)準叫標(biāo)準物質(zhì)。比如測氧氣的濃度97%是怎么測量的呢?我們首先出一個標(biāo)準物質(zhì),標(biāo)準物質(zhì)是4個9或者5個9的標(biāo)準物質(zhì),跟它比較來的,根據(jù)比較的接過去確定是97%、96%。

在計算領(lǐng)域我們找到一些基準的測量程序,比如算π,每秒鐘算一百萬位是一核,兩百萬位是兩核,但實際的計算場景沒那么簡單,但它的原理是這樣,靠基準程序來確定測試能力。

互聯(lián)網(wǎng)的處理數(shù)據(jù)非常復(fù)雜,你不可能找一個程序來度量整個能力,所以我們要找到一系列的程序,比如說負載壓縮的程序、流體力學(xué)的程序,計算負載越來越多,其測量的數(shù)據(jù)與互聯(lián)網(wǎng)的體驗就吻合得越好。當(dāng)然它還需要其他的一些處理,比如說控制程序、硬件的操作。測試程序只是最基礎(chǔ)的單元測量能力,就像我們有了尺一樣,怎樣用尺來量面積,還需要有方法學(xué)的標(biāo)準。

基本測試的工具有這么多程序組成的,實際上我們在測量的時候,包括云計算的廠商在測量的時候,它把這些東西裝入它的計算單元,通過運行來測量一個結(jié)果,這是各種各樣的基本測試程序。通過這個基本測試程序你能做出來一系列的測量結(jié)果,服務(wù)器的算力和功耗之間的比值就是服務(wù)器的能效,PUE是比較IT的耗電和總耗電,如果是服務(wù)器的能效是提高了,實際上PUE的能耗高點也沒問題。從綜合能耗來講,服務(wù)器的能效的提高,從實踐上來說它的技術(shù)進步更快,因為隨著半導(dǎo)體技術(shù)的進步,它的提高能力比數(shù)據(jù)中心的制冷的這種效率的提升速度是要快的,只不過大家更關(guān)注PUE的準確。

計算性能的測試需要很多策略,它并不是把一些負載堆積到一起就可以了,需要很多策略來支撐它,因為這種測試工具需要有很多指標(biāo)證明它是科學(xué)的測量工具。

這是我們做的一款工具,大家看到的這是指標(biāo)不是指現(xiàn)在的騰訊云和阿里云、百度云的測量結(jié)果,這是我做實驗的時候它們的性能,今天只是展示一下這個結(jié)果用來說明怎么判斷基準測試工具的科學(xué)性。

現(xiàn)在我解釋一下這種計量工具,基準測試工具怎么才算是一個科學(xué)的測試工具?首要基準測量工具重復(fù)性要好,比如這個基準測量工具,你測量的結(jié)果是被測的計算單元的重復(fù)性加上工具的重復(fù)性的合成的結(jié)果。假定測量工具的重復(fù)性本身很差,這個測試工具不能作為基準計算測試工具,當(dāng)然不同的負載它的重復(fù)性也是不一樣的,所以我們在選這種測試負載的時候要選重復(fù)性好的。這就是為什么要選克拉作為鉆石的單位,克拉的種子可能一致性比較好,選蘋果就比較麻煩,有的大、有的小,所以選這個程序還是要從很多的負載里面選擇重復(fù)性比較好的。

這種負載并不一定是我們實際使用的,基準測試實際上是一種理想測試,例如說我們每次看英特爾發(fā)布CPU說今年我們的計算性能提高40%,實際上它是在理想情況下也就是這種理想負載下做的,并不是在實際場景,你用WORD等應(yīng)用程序體驗不到提升40%的體驗。

基準測試工具它是一個理想的測試工具,我們就選這么多的負載首先來看它的重復(fù)性。重復(fù)性對基礎(chǔ)測試是最重要的指標(biāo),只有你把重復(fù)性確定了,你才能確認被測的樣品的一致性。假定我們的工具的一致性是0.2%,看一下單核心的測試結(jié)果,大家看云計算如果是單核心它的重復(fù)性就比較好。

這是重復(fù)性的技術(shù)指標(biāo),大家可以看一下這個技術(shù)指標(biāo),騰訊云整數(shù)運算的時候重復(fù)性是1.67%,浮點是1.06%。如果是共享計算單元,云計算有很多共享的計算單元,它的重復(fù)性非常差,如果是共享的,別人用的多了可能縮減你的計算能力。實際上其他廠商也是類似情況,有的廠商可能會更差,核數(shù)多的重復(fù)性會更差,比如16核13.6%,它的算力是波動的,如果是獨享會好一點。每家廠商的計算能力實際上是波動的,并不是很穩(wěn)定,我們買其他的東西也是一樣,我們買水果他每次給你稱500克也是波動的,有一個范圍,我們購買定量包裝的商品也是這樣。

這樣就有一個問題,我們怎么樣來比較不同的算力,因為所有的算力都是波動的?

有一個概念叫不確定度,測量的“真值“實際上是不存在的。例如我們測量長度,測量長度假設(shè)1米,實際上它的最可能的范圍是呈正態(tài)分布的值,包含有不確定度。假定兩個人測量都是1米,這1米它不完全是相同,它有可能是正偏差,有的是負偏差,如果做可比較的話,就要把你測量結(jié)果的不確定度評估出來。我們有時候測量不確定度非常大,比如說算力不確定度達到30%,你測量一顆CPU算出來是2000,另外一個是1500,實際上比較不出來哪個算力更大。

今天大體來解釋一下做一個測量工具需要什么樣的技術(shù)指標(biāo)。

這是我們的不確定度,任何一個測量工具必須有包含不確定度的結(jié)果,它才是完整的測量結(jié)果,這個具體的不確定度的值我就不再具體解釋了。

總結(jié)一下,一個科學(xué)的基準測試工具需要有幾個方面的指標(biāo):

第一個是可測量,可測量是必須有值測量出來,不能給你給個感覺這個挺快、那個很慢,必須是有量值的;

另外一個可重復(fù),每次的測量結(jié)果都在一定的范圍內(nèi)是可以重復(fù)的。

另外是可以比較,就是我們設(shè)定兩種可以比較,比如單核的是什么,雙核的是什么,16核的是什么,當(dāng)然不是線性的。如果別人拿給你一個工具講不清楚這些指標(biāo),實際上你無法確定是不是可以用這個工具,當(dāng)然你可以根據(jù)這個工具的發(fā)布方是不是權(quán)威的組織,來確定是不是相信它。

另外要完全釋放硬件性能,要準確模擬用戶的行為,我們選擇負載要有典型性,不能選一些很不常見的負載。

還有一個功能是引導(dǎo)未來軟件開發(fā),基準測量工具是一個工具,它自己的穩(wěn)定性實際上是非常高的,比一般測試程序的穩(wěn)定性要求要高。你要是用應(yīng)用軟件的時候,比如WORD,它每次裝載的時間都不一樣的,那個不一樣對你的體驗影響是很小,但是基準測量工具作為測量工具要求非常穩(wěn)定。作為基準測量工具,我們認為這些指標(biāo)是必須的,剛才有很多嘉賓來講核心的指標(biāo)、實際上它都是用基準工具測量出來的,如果你的指標(biāo)差異很大,基準測試工具的影響不明顯。如果差異很小,實際上影響很大的。

對于未來的考慮,我們希望能建立硬件的服務(wù)器和云計算的服務(wù)器一致的測量工具,這種更便于比較。

我們的工作基本上來提供工具一致性,并不是說所有基準工具都是由我們發(fā)布,實際上基準的測試工具主要依靠廠商,我們來提供方法學(xué)的支持,怎么來做一款基準測試工具,怎么來評價基準測試工具。

我們自己也寫工具,我們自己寫的工具也不一定是最好的,這需要廠商共同的努力,剛才郭亮講也計劃在ODCC立一個項目是關(guān)于基準測試工具的,我們國家基準測試工具實事求是講,還是非常落后,這還有一段過程。

我們希望在ODCC的平臺下,我們國家的基準測試工具能夠獲得長足的進步,只有工具進步了,進行市場監(jiān)管的時候才有基礎(chǔ)。比如有人投訴云廠商,說我買的算力不夠,如果沒有基準測試工具很難判定怎么叫不夠,你買了一核到底多少算力才夠。計量是技術(shù)合規(guī)的原點,市場監(jiān)管的基礎(chǔ)。

謝謝大家。

分享到:
通知 點擊查看 點擊查看
公告 征訂通知 征訂通知
會員注冊
已有賬號,
會員登陸
完善信息
找回密碼