中國IDC圈訊,開放數(shù)據(jù)中心峰會(huì)(ODCC2020)在北京召開,峰會(huì)圍繞數(shù)據(jù)中心新基建為主題,有數(shù)據(jù)中心領(lǐng)域及相關(guān)行業(yè)的眾多專家與會(huì)。在9月16日新技術(shù)與測試分論壇上,中國計(jì)量科學(xué)研究院先進(jìn)測量工程中心副主任武彤帶來了主題為“計(jì)算性能基準(zhǔn)計(jì)量測試工具研究”的演講。
中國計(jì)量科學(xué)研究院先進(jìn)測量工程中心副主任武彤
大家好,我是武彤,先介紹一下我們單位的情況,可能在IT行業(yè)大家不太了解我們單位,我來自中國計(jì)量科學(xué)研究院,它隸屬于國家市場監(jiān)督管理總局,是我國最高的計(jì)量科學(xué)的研究中心,國家級(jí)的法定計(jì)量技術(shù)機(jī)構(gòu),我所在的部門主要負(fù)責(zé)智能工程、云計(jì)算以及數(shù)據(jù)中心領(lǐng)域還有一些其他的材料領(lǐng)域的計(jì)量測試以及評(píng)價(jià)驗(yàn)證。
可能大家不太熟悉計(jì)量,我首先給大家介紹一下,大家對(duì)計(jì)量的概念一般都從秦朝開始,就是商鞅變法統(tǒng)一度量衡稱為計(jì)量。實(shí)際上在上古時(shí)代,《伏羲女媧圖》里面拿了兩個(gè)工具就是比較早期的計(jì)量工具。什么叫計(jì)量?給大家舉個(gè)例子,在秦朝叫秦錢,“秦錢半兩,徑一寸二分,重十二銖?!边@兒都兩個(gè)單位“兩”和“銖”,一兩等于二十四銖,計(jì)量就是單位統(tǒng)一、量值準(zhǔn)確可靠的活動(dòng)。度量衡的技術(shù)進(jìn)步開啟了我國的金融體系。
計(jì)量的發(fā)展通常我們稱為從古典計(jì)量到現(xiàn)代計(jì)量。古典計(jì)量基本上大家都非常了解,是用植物的果實(shí)或者是用某一個(gè)人的人體器官的長度作為計(jì)量的單位,比如說克拉,克拉就是是一種植物的果實(shí),大家都用于做重金屬或者鉆石重量的計(jì)量,克拉原來是植物的果實(shí),后來做標(biāo)準(zhǔn)化,1克拉等于200毫克。到1875年,米制公約的確立,為了工業(yè)制造的發(fā)展需要標(biāo)準(zhǔn)化,就需要統(tǒng)一的量值體系,到了現(xiàn)代計(jì)量,主要為了科學(xué)技術(shù)的發(fā)展,特別是軍事科學(xué)技術(shù)的發(fā)展。
我們看一下云計(jì)算領(lǐng)域的計(jì)量。首先看貿(mào)易的角度,我們看怎么來賣云計(jì)算服務(wù)的,特別是IaaS的方面,這是騰訊云的,里面有三個(gè)指標(biāo),其中一個(gè)比較重要,一個(gè)叫CPU,一個(gè)叫內(nèi)存,一個(gè)叫帶寬,它賣了三種服務(wù),一個(gè)是計(jì)算的能力,一個(gè)是存儲(chǔ)的能力,一個(gè)是通信的能力,其他的廠商也是這樣的。
實(shí)際上如果從度量的角度來講,“核”就是一個(gè)單位,因?yàn)槲覀冑u的計(jì)量單位是一核,一核的計(jì)量單位是多少我們大家都不是特別清楚。從計(jì)量角度來講,我們認(rèn)為云計(jì)算的計(jì)量可能處于植物果實(shí)的狀態(tài),就是克拉的狀態(tài)。
在物理領(lǐng)域,計(jì)量有七個(gè)基本單位能描述整個(gè)物理世界,比如千克等等。在互聯(lián)網(wǎng)領(lǐng)域怎么來描述整個(gè)互聯(lián)網(wǎng)領(lǐng)域的量呢?在2015年ODCA開放數(shù)據(jù)中心聯(lián)盟,這個(gè)聯(lián)盟大部分由數(shù)據(jù)中心的使用方組成的,他們做了研究成果就是IaaS的度量方法。他們提出來在互聯(lián)網(wǎng)領(lǐng)域可能用三個(gè)指標(biāo)整個(gè)描述互聯(lián)網(wǎng)領(lǐng)域的活動(dòng):第一是秒,秒是時(shí)間的永恒的時(shí)間指標(biāo);第二是比特,大家知道比特是描述信息的一個(gè)計(jì)量單位;第三是計(jì)算能力,計(jì)算能力是互聯(lián)網(wǎng)領(lǐng)域一個(gè)新的計(jì)算指標(biāo),因?yàn)槲覀冑I的就是算力,類似于電力的千瓦時(shí)一樣。
實(shí)際上在這三個(gè)指標(biāo)里面,計(jì)算能力的測量是最復(fù)雜的。我們歸納一下,在互聯(lián)網(wǎng)測試領(lǐng)域怎么做計(jì)量或者測試,比較重要的就是計(jì)算資源的測試,存儲(chǔ)資源的計(jì)量單位比如比特。存儲(chǔ)資源是計(jì)量是按照“塊存儲(chǔ)”來測量的,“塊存儲(chǔ)”的不同也會(huì)導(dǎo)致的計(jì)量測試結(jié)果差異很大,但計(jì)算資源的計(jì)量可能是顛覆性的差異,比如你買一核的算力是兩塊錢,另外一核可能二十塊錢,擔(dān)算力到底是多少,實(shí)際上是沒有一個(gè)統(tǒng)的度量指標(biāo)的,所以我們就從需求的角度來講,最重要的需求是先把計(jì)算資源的這種計(jì)量的能力或者測量能力統(tǒng)一。
剛才我講物理計(jì)量用七個(gè)基本單位,但是在化學(xué)計(jì)量里面,采用的計(jì)量標(biāo)準(zhǔn)叫標(biāo)準(zhǔn)物質(zhì)。比如測氧氣的濃度97%是怎么測量的呢?我們首先出一個(gè)標(biāo)準(zhǔn)物質(zhì),標(biāo)準(zhǔn)物質(zhì)是4個(gè)9或者5個(gè)9的標(biāo)準(zhǔn)物質(zhì),跟它比較來的,根據(jù)比較的接過去確定是97%、96%。
在計(jì)算領(lǐng)域我們找到一些基準(zhǔn)的測量程序,比如算π,每秒鐘算一百萬位是一核,兩百萬位是兩核,但實(shí)際的計(jì)算場景沒那么簡單,但它的原理是這樣,靠基準(zhǔn)程序來確定測試能力。
互聯(lián)網(wǎng)的處理數(shù)據(jù)非常復(fù)雜,你不可能找一個(gè)程序來度量整個(gè)能力,所以我們要找到一系列的程序,比如說負(fù)載壓縮的程序、流體力學(xué)的程序,計(jì)算負(fù)載越來越多,其測量的數(shù)據(jù)與互聯(lián)網(wǎng)的體驗(yàn)就吻合得越好。當(dāng)然它還需要其他的一些處理,比如說控制程序、硬件的操作。測試程序只是最基礎(chǔ)的單元測量能力,就像我們有了尺一樣,怎樣用尺來量面積,還需要有方法學(xué)的標(biāo)準(zhǔn)。
基本測試的工具有這么多程序組成的,實(shí)際上我們?cè)跍y量的時(shí)候,包括云計(jì)算的廠商在測量的時(shí)候,它把這些東西裝入它的計(jì)算單元,通過運(yùn)行來測量一個(gè)結(jié)果,這是各種各樣的基本測試程序。通過這個(gè)基本測試程序你能做出來一系列的測量結(jié)果,服務(wù)器的算力和功耗之間的比值就是服務(wù)器的能效,PUE是比較IT的耗電和總耗電,如果是服務(wù)器的能效是提高了,實(shí)際上PUE的能耗高點(diǎn)也沒問題。從綜合能耗來講,服務(wù)器的能效的提高,從實(shí)踐上來說它的技術(shù)進(jìn)步更快,因?yàn)殡S著半導(dǎo)體技術(shù)的進(jìn)步,它的提高能力比數(shù)據(jù)中心的制冷的這種效率的提升速度是要快的,只不過大家更關(guān)注PUE的準(zhǔn)確。
計(jì)算性能的測試需要很多策略,它并不是把一些負(fù)載堆積到一起就可以了,需要很多策略來支撐它,因?yàn)檫@種測試工具需要有很多指標(biāo)證明它是科學(xué)的測量工具。
這是我們做的一款工具,大家看到的這是指標(biāo)不是指現(xiàn)在的騰訊云和阿里云、百度云的測量結(jié)果,這是我做實(shí)驗(yàn)的時(shí)候它們的性能,今天只是展示一下這個(gè)結(jié)果用來說明怎么判斷基準(zhǔn)測試工具的科學(xué)性。
現(xiàn)在我解釋一下這種計(jì)量工具,基準(zhǔn)測試工具怎么才算是一個(gè)科學(xué)的測試工具?首要基準(zhǔn)測量工具重復(fù)性要好,比如這個(gè)基準(zhǔn)測量工具,你測量的結(jié)果是被測的計(jì)算單元的重復(fù)性加上工具的重復(fù)性的合成的結(jié)果。假定測量工具的重復(fù)性本身很差,這個(gè)測試工具不能作為基準(zhǔn)計(jì)算測試工具,當(dāng)然不同的負(fù)載它的重復(fù)性也是不一樣的,所以我們?cè)谶x這種測試負(fù)載的時(shí)候要選重復(fù)性好的。這就是為什么要選克拉作為鉆石的單位,克拉的種子可能一致性比較好,選蘋果就比較麻煩,有的大、有的小,所以選這個(gè)程序還是要從很多的負(fù)載里面選擇重復(fù)性比較好的。
這種負(fù)載并不一定是我們實(shí)際使用的,基準(zhǔn)測試實(shí)際上是一種理想測試,例如說我們每次看英特爾發(fā)布CPU說今年我們的計(jì)算性能提高40%,實(shí)際上它是在理想情況下也就是這種理想負(fù)載下做的,并不是在實(shí)際場景,你用WORD等應(yīng)用程序體驗(yàn)不到提升40%的體驗(yàn)。
基準(zhǔn)測試工具它是一個(gè)理想的測試工具,我們就選這么多的負(fù)載首先來看它的重復(fù)性。重復(fù)性對(duì)基礎(chǔ)測試是最重要的指標(biāo),只有你把重復(fù)性確定了,你才能確認(rèn)被測的樣品的一致性。假定我們的工具的一致性是0.2%,看一下單核心的測試結(jié)果,大家看云計(jì)算如果是單核心它的重復(fù)性就比較好。
這是重復(fù)性的技術(shù)指標(biāo),大家可以看一下這個(gè)技術(shù)指標(biāo),騰訊云整數(shù)運(yùn)算的時(shí)候重復(fù)性是1.67%,浮點(diǎn)是1.06%。如果是共享計(jì)算單元,云計(jì)算有很多共享的計(jì)算單元,它的重復(fù)性非常差,如果是共享的,別人用的多了可能縮減你的計(jì)算能力。實(shí)際上其他廠商也是類似情況,有的廠商可能會(huì)更差,核數(shù)多的重復(fù)性會(huì)更差,比如16核13.6%,它的算力是波動(dòng)的,如果是獨(dú)享會(huì)好一點(diǎn)。每家廠商的計(jì)算能力實(shí)際上是波動(dòng)的,并不是很穩(wěn)定,我們買其他的東西也是一樣,我們買水果他每次給你稱500克也是波動(dòng)的,有一個(gè)范圍,我們購買定量包裝的商品也是這樣。
這樣就有一個(gè)問題,我們?cè)趺礃觼肀容^不同的算力,因?yàn)樗械乃懔Χ际遣▌?dòng)的?
有一個(gè)概念叫不確定度,測量的“真值“實(shí)際上是不存在的。例如我們測量長度,測量長度假設(shè)1米,實(shí)際上它的最可能的范圍是呈正態(tài)分布的值,包含有不確定度。假定兩個(gè)人測量都是1米,這1米它不完全是相同,它有可能是正偏差,有的是負(fù)偏差,如果做可比較的話,就要把你測量結(jié)果的不確定度評(píng)估出來。我們有時(shí)候測量不確定度非常大,比如說算力不確定度達(dá)到30%,你測量一顆CPU算出來是2000,另外一個(gè)是1500,實(shí)際上比較不出來哪個(gè)算力更大。
今天大體來解釋一下做一個(gè)測量工具需要什么樣的技術(shù)指標(biāo)。
這是我們的不確定度,任何一個(gè)測量工具必須有包含不確定度的結(jié)果,它才是完整的測量結(jié)果,這個(gè)具體的不確定度的值我就不再具體解釋了。
總結(jié)一下,一個(gè)科學(xué)的基準(zhǔn)測試工具需要有幾個(gè)方面的指標(biāo):
第一個(gè)是可測量,可測量是必須有值測量出來,不能給你給個(gè)感覺這個(gè)挺快、那個(gè)很慢,必須是有量值的;
另外一個(gè)可重復(fù),每次的測量結(jié)果都在一定的范圍內(nèi)是可以重復(fù)的。
另外是可以比較,就是我們?cè)O(shè)定兩種可以比較,比如單核的是什么,雙核的是什么,16核的是什么,當(dāng)然不是線性的。如果別人拿給你一個(gè)工具講不清楚這些指標(biāo),實(shí)際上你無法確定是不是可以用這個(gè)工具,當(dāng)然你可以根據(jù)這個(gè)工具的發(fā)布方是不是權(quán)威的組織,來確定是不是相信它。
另外要完全釋放硬件性能,要準(zhǔn)確模擬用戶的行為,我們選擇負(fù)載要有典型性,不能選一些很不常見的負(fù)載。
還有一個(gè)功能是引導(dǎo)未來軟件開發(fā),基準(zhǔn)測量工具是一個(gè)工具,它自己的穩(wěn)定性實(shí)際上是非常高的,比一般測試程序的穩(wěn)定性要求要高。你要是用應(yīng)用軟件的時(shí)候,比如WORD,它每次裝載的時(shí)間都不一樣的,那個(gè)不一樣對(duì)你的體驗(yàn)影響是很小,但是基準(zhǔn)測量工具作為測量工具要求非常穩(wěn)定。作為基準(zhǔn)測量工具,我們認(rèn)為這些指標(biāo)是必須的,剛才有很多嘉賓來講核心的指標(biāo)、實(shí)際上它都是用基準(zhǔn)工具測量出來的,如果你的指標(biāo)差異很大,基準(zhǔn)測試工具的影響不明顯。如果差異很小,實(shí)際上影響很大的。
對(duì)于未來的考慮,我們希望能建立硬件的服務(wù)器和云計(jì)算的服務(wù)器一致的測量工具,這種更便于比較。
我們的工作基本上來提供工具一致性,并不是說所有基準(zhǔn)工具都是由我們發(fā)布,實(shí)際上基準(zhǔn)的測試工具主要依靠廠商,我們來提供方法學(xué)的支持,怎么來做一款基準(zhǔn)測試工具,怎么來評(píng)價(jià)基準(zhǔn)測試工具。
我們自己也寫工具,我們自己寫的工具也不一定是最好的,這需要廠商共同的努力,剛才郭亮講也計(jì)劃在ODCC立一個(gè)項(xiàng)目是關(guān)于基準(zhǔn)測試工具的,我們國家基準(zhǔn)測試工具實(shí)事求是講,還是非常落后,這還有一段過程。
我們希望在ODCC的平臺(tái)下,我們國家的基準(zhǔn)測試工具能夠獲得長足的進(jìn)步,只有工具進(jìn)步了,進(jìn)行市場監(jiān)管的時(shí)候才有基礎(chǔ)。比如有人投訴云廠商,說我買的算力不夠,如果沒有基準(zhǔn)測試工具很難判定怎么叫不夠,你買了一核到底多少算力才夠。計(jì)量是技術(shù)合規(guī)的原點(diǎn),市場監(jiān)管的基礎(chǔ)。
謝謝大家。
欄目導(dǎo)航
內(nèi)容推薦
更多>2020-09-17