數據中心能耗指標PUE值是什么?

本文深入淺出地解釋了數據中心能耗評價指標電能利用效率PUE的基本概念和發展歷史, 并對數據中心能耗構成及對PUE計算的影響進行了分析, 闡述了影響PUE值的各項重要因素, 總結了目前業界數據中心節能的主要方法并提出相關建議。
一、PUE基本概念
1. 定義
電能利用效率(Power Usage Effectiveness,PUE) 是2007年由美國綠色網格組織(The Green Grid, TGG) 提出的用以評價數據中心能源利用效率的一種指標, 目前被國內外數據中心行業廣泛使用。根據TGG的定義, PUE計算公式為:PUE=Pt/PIT,其中Pt為數據中心全年總耗電量, 單位是KWh;PIT為數據中心的IT設備全年耗電量, 單位也是KWh。數據中心IT設備的耗電量是包含在數據中心總耗電量內, 所以PUE是一個大于1的數值, PUE值越低, 說明數據中心用于IT設備以外的能耗越低, 越節能。當前, 國外先進的數據中心PUE值通常小于2。2015年我國工業和信息化部、國家機關事務管理局和國家能源局在《關于印發國家綠色數據中心試點工作方案的通知》中指出:我國數據中心大多數的PUE仍普遍大于2.2, 與國際先進水平存在較大差距。
在研究PUE時, 很有必要對兩大重要組織做簡單介紹。一個是上文提到的綠色網格組織(TGG) 。它是一個全球性非營利機構, 致力于開發影響深遠而又不受任何平臺約束的技術標準、測量方法、處理流程及新技術, 力求提升數據管理方面的能源效益。TGG在2012年發布的第49號白皮書《PUE:指標的綜合檢驗》中對TGG之前出版的有關PUE的文件進行了全面梳理和總結, 重新給出了PUE的定義和計算方法。另一個組織是美國供暖、制冷與空調工程師學會(ASHRAE) 。無論是在美國還是在全球, ASHRAE都是數據中心最重要的技術資料來源。ASHRAE在2016年發布公告稱PUE只適合對運行中的數據中心的效率進行評價, 而不適合于數據中心的設計, 因為在設計過程中無法準確地確定系統的PUE。
這里需要關注的是, 即使后續在PUE基礎上衍生了各種指標, 基于PUE的測量值都是一段時間內的耗電量, 而不是瞬時的功耗。用瞬時功耗的比值來計算PUE, 不能體現數據中心的能耗水平。TGG也明確指出:在計算PUE時, 最佳實踐是自動、實時監控, 每隔15分鐘或者更短時間間隔內采集數據;當報告PUE值時, 數據中心的所有者應使用一年內的平均PUE值。因此, 在給出PUE值的同時, 必須說明測量周期或者測量的時間點。同時, TGG也明確指出, 不同數據中心的PUE值不能進行簡單的比較。
2. 采集點
TGG給出了PUE計算時的三種測量采集方法。數據中心總耗電量Pt都是電力公司對數據中心的輸入。如果數據中心所在的建筑物是多用途的, 必須對數據中心的總耗能進行識別, 需要減去辦公區域的用電。但是用于數據中心技術支持的總控中心的用電必須包括在內。IT設備總耗電量PIT的采集點有三種:第1級是基本級別, 采集點是UPS的輸出;第2級是中級級別, 采集點是機房內配電柜的輸出;第3級是高級級別, 采集點是機柜內電源插座的輸出, 也就是IT設備的輸入, 具體見表1。這三種計算方法的采集點對電力使用的功耗或電量的采集的顆粒度要求逐級提高。目前, 我國多數數據中心采用的是第1級的采集和計算方式。因此, 得到的PUE數值也比第2級和第3級數值更低。
3. 片面性
目前, 業界公認PUE是一個片面的指標, 有局限性。最明顯的一點是, 當采用虛擬化等技術時會大幅降低IT設備的數量和耗電量, 從而實現降低電費這一最有實際效益的目標。但是, 數據中心IT設備耗電量降低時, 數據中心總耗電量并不會同樣程度地降低, 兩者之間不是簡單的線性關系, 這就造成了數據中心PUE值反而增大。因此, 業界十幾年來嘗試研究其他更為科學的指標。這些衍生而來的性能指標主要包括:ASHRAE提出的暖通空調負載系數(MLC) 、供電損失系數(ELC) ;TGG提出的IT設備熱一致性(ITTC) 、IT設備的容錯性(ITTR) 、水利用效率(WUE) 和碳利用效率(CUE) ;ISO提出的可再生能源系數(REF) 、服務器能源效率(ITEE) 等。但是, 多數新提出的衡量指標由于偏學術或者計算復雜, 很難被接受。因此, PUE仍是目前數據中心能耗衡量的最重要指標。2016年4月15日, 國際標準化組織發布了ISO/IEC 30134-1標準, PUE被稱為數據中心的“關鍵性能指標”。
4. EEUE
在國內, 由于意識到PUE指標的片面性以及業界在應用時的隨意性, 2016年我國發布了GB/T 32910-2016《數據中心資源利用第3部分:電能能效要求和測量方法》。該國家標準參照PUE, 重新定義了EEUE (Electric energy usuage effectiveness) 。EEUE在計算公式上與PUE相同。該國標對EEUE的測量、計算方法進行了統一的規定, 明確提出了我國數據中心電能能效要求, 將數據中心按其電能使用效率值的大小分為節能、較節能、合格、較耗能和高耗能五級。同時, 該標準在充分考慮我國國情的基礎上, 根據數據中心的制冷技術、使用負荷率、安全等級和所處地域的不同, 制定了能源效率值調整模型。通過該調整模型可以實現不同數據中心的比較, 從而形成全國范圍內數據中心能效的統一比較標準。GB/T 32910-2016也明確指出, 電量數據的標準取得方法是使用電能計量儀表統計的方式, 而不是使用功率表以抽樣法測量的方式獲得。
表1 PUE能耗采集點

5. pPUE
PUE是衡量整個數據中心能耗效率的指標。TGG和ASHRAE都在PUE的概念上給出了pPUE的定義:某區間內數據中心總能耗與該區間內IT設備能耗之比。這里的區間或者范圍可以是實體, 如集裝箱、房間、模塊或者建筑物;也可以是邏輯上的邊界, 如設備或對數據中心有意義的邊界。pPUE只適用于數據中心區間能耗的研究。
二、數據中心能耗構成及分析
PUE的計算公式為數據中心總耗電量與IT設備耗電量的比值。要降低數據中心的PUE值, 首先必須對數據中心的能耗構成進行分析。數據中心能耗主要包括IT設備能耗、供配電系統能耗、制冷系統能耗、照明及其它能耗。數據中心PUE計算的能耗構成如圖1所示。

圖1 PUE計算的能耗構成
PUE計算公式可改寫為:
PUE= (PIT+P制冷+P供配電+P其它) /PIT
關于數據中心能耗構成的比例, 國內外很多企業和學者都做了大量的調查與研究, 雖然研究結果中各部分占比不盡相同, 但能耗構成因素及排序基本相同。在一個PUE約為2的傳統的數據中心總能耗中, IT設備能耗占比最高, 約為50%;其次是制冷系統能耗, 約占35%;再次是供配電系統能耗, 約占10%, 其中最主要的是UPS設備的能耗, 次之是變壓器設備的能耗;最后是照明及其他能耗, 約占5%。這里的其他能耗主要包括:安防設備、消防設備、電梯、傳感器以及數據中心管理系統的能耗等。不同數據中心即使PUE值相同, 能耗占比也不同, 上述數字僅供參考。PUE為2的傳統數據中心典型能耗構成如圖2所示。

圖2 傳統數據中心的能耗構成
根據數據中心能耗構成和PUE的計算公式, 降低數據中心制冷系統的能耗, 對降低PUE值最有效。因此, 數據中心的節能措施主要圍繞降低制冷系統的能耗開展。傳統數據中心采用的風冷制冷方式是最耗電的運行方式。近十年來新建數據中心基本上都采用水冷式的機房空調系統, 能耗比風冷系統低。大幅降低數據中心PUE的有效措施是采用自然冷卻方式,最理想的是完全不采用消耗電能的機械制冷方式, 例如引入室外空氣配合蒸發冷卻進行制冷。要實現這種方式, 一方面數據中心需要選址建設在溫度較低的寒冷地區;另一方面, 可適當提高機房運行溫度, 最大程度地利用室外空氣進行自然冷卻。
近年來, PUE被嚴重商業化, 不少數據中心聲稱其PUE值已低于1.2甚至1.1。然而, 這些公司絕大多數未給出具體采用的節能措施、PUE的測量方式和計算方式等細節。業界也出現了人為操縱PUE值的現象, 例如, 有人選擇了最佳的測量時機, 在戶外很冷、照明系統全部關閉及用戶幾乎不在線時測量, 甚至關閉冗余制冷系統才進行測量, 這時測得的PUE值當然會很低, 但該值已經遠遠偏離了事實。
拋開這些違背事實的宣傳, 若要大幅降低PUE值, 需要采用特殊的架構和技術。經分析,業界宣稱做到極低PUE值的數據中心一般具有如下部分或者全部的特征:
(1) 采用各種自然冷卻技術, 不使用或者較少使用機械制冷。這樣數據中心總能耗中占比最高的制冷系統能耗大幅降低。
(2) 采用市電直供技術。由于沒有UPS設備, 供配電系統能耗中占比最高的UPS設備能耗就沒有了, 從而使PUE計算公式中分子部分的數據中心總能耗降低。
(3) 該數據中心為低等級數據中心, 供配電系統和制冷系統部分或者全部采用無容錯或無冗余設計。這樣, 供配電設備和制冷設備數量大幅減少, 大大降低數據中心總能耗中的供配電系統能耗和制冷系統能耗, 使得PUE值大幅降低。
(4) 該數據中心為小型數據中心, 如騰訊的T-block預制集裝箱式數據中心。一方面, 變壓器設備能耗不計算在供配電系統能耗中;另一方面, 小型數據中心無電梯、安防設備和總控中心等, 進一步大幅降低數據中心總能耗中的其他能耗。
(5) 采用太陽能、風能等可再生能源, 且在計算PUE時未將可再生能源能耗計算入分子部分的數據中心總能耗。這樣, 若可再生能源用于完全驅動數據中心的制冷系統, 在計算PUE時, 分子部分中占比最高的制冷系統能耗為零。這種計算方法與國外業界公認的可再生能源的能耗必須計算入數據中心總能耗的要求相違背。
(6) 該數據中心采用浸沒式液冷等新型冷卻方式, 不使用傳統機械制冷方式。因此, 計算PUE時, 分子部分的制冷系統能耗趨于零。
三、影響PUE的重要因素
業界公認的影響PUE的三個重要因素為氣候條件、IT設備負荷率和數據中心安全等級。
1. 氣候條件
建設在不同氣象區的數據中心, 由于室外溫度對冷水機組能耗的影響以及可采用的冷卻技術(例如自然冷卻等) 的不同, 即使是其他條件相同, 其PUE也會不同。數據中心應選址建設在全年平均氣溫相對較低的地方, 可最大程度地使用自然冷卻技術降低制冷系統能耗。ASHRAE根據數據中心所在地理位置劃分了17個氣候區, 對每個氣候區的數據中心設定PUE最大值, 其中最小為1.3, 最大為1.61, 地理位置不同, 差異明顯。2013年工信部等五部委在《關于數據中心建設布局的指導意見》中把我國數據中心的布局分為四類地區, 只有同一地區的PUE才有可比性, 將不同氣象地區的數據中心的PUE進行比較是不合理的。
2. IT設備負荷率
數據中心PUE值與IT設備負荷率密切相關。IT設備負荷率指的是數據中心的IT設備實際負荷與設計的滿載時IT設備負荷的比值。不間斷電源UPS的效率在低負載時急劇下降。IT設備負荷率較低時, 一方面, UPS設備的效率降低, 造成UPS設備能耗增加, 從而使得PUE值升高;另一方面, IT設備未滿載安裝時, 制冷能耗并不成比例降低, 也造成制冷能耗的增加, 使得PUE值升高。數據中心建設和運行模式有三種:第一種是基礎設施設備(供配電設備、制冷設備等) 一次性建設, IT設備分期部署;第二種模式是基礎設施設備和IT設備同步分期建設和部署;第三種模式是基礎設施設備和IT設備均一次性建設和部署。對于企業自建自行運維的EDC (企業級數據中心) , 一般采用第一種模式。因此, 實際上數據中心的負荷率長時間內都遠低于設計值。特別是EDC, 經過數年才會達到滿載, 而這時該數據中心早就已啟動擴建和改造工程了。對于租賃式數據中心, 由于用戶的進入很難一步到位, 所以數據中心開始運行后, 在最初的一段時間內負荷率同樣會較低, PUE值同樣會高于滿載指標。因此,不同IT設備負荷率的數據中心不能簡單地進行PUE值的比較。
3. 數據中心安全等級
國家標準GB 50174-2017《數據中心設計規范》將數據中心按照重要性從高到低劃分為A級、B級和C級三個級別。安全等級越高, 配置的供配電、制冷設備也越多, 相應的能耗也越高, 造成PUE值升高。因此, 不同安全等級的數據中心的PUE也不能進行簡單的比較。
由于上述原因, 業界都認可不同的數據中心的PUE值不應該直接進行比較, 但是條件相似的數據中心可以從其他數據中心所提供的測量方法、測試結果以及數據特性的差異中獲益。
2016年我國發布的GB/T 32910-2016《數據中心資源利用第3部分:電能能效要求和測量方法》提出了EEUE指標, 定義與PUE相同。同時, 為了方便不同數據中心的能耗指標進行比較, 該國標考慮了數據中心安全等級、氣候條件和IT設備負荷率等因素, 提出了調整模型。不同數據中心在比較EEUE時, 需使用EEUE修正值。EEUE修正值計算公式如下:
EEUE修正值=EEUE實測值-EEUE調整值
其中EEUE調整值計算模型見表2。
表2 EEUE調整值計算模型

該國標修正模型的準確性有待于實踐檢驗。另外, 由于EEUE調整模型的提出, 將影響PUE的因素及PUE不可簡單進行比較的本質公開化, 該國標并沒有被業界廣泛宣傳和采用。
四、數據中心節能的主要方法
通過上述分析可以看出, PUE僅是一個數字, 對于數據中心的管理者來說, 更應該看重數據中心總能耗的降低, 即電費投入的降低。因此, 所有的數據中心都關注節能問題。在數據中心節能方面, 谷歌走在了行業的前列。一方面, 谷歌的數據中心在大規模地使用風能、太陽能等可再生能源, 它的目標是最終100%使用可再生能源。需要關注的是, 可再生能源的使用不會降低數據中心的PUE值, 但卻可減少數據中心的碳排放。另一方面, 谷歌十多年來一直致力于提高數據中心的能源利用效率。在谷歌的官網, 總結了排在前五名的最佳實踐。
1. 測量PUE
只有對PUE進行實事求是的測量, 才能了解和及時跟進數據中心能源使用情況。
2. 管理氣流
良好的氣流管理對于提高數據中心的運營能效是至關重要的。這方面可以采用機柜冷/熱通道封閉、安裝機柜盲板和利用計算流體力學(CFD) 的熱模擬進行氣流組織優化等措施。
3. 提高機房溫度
無需將數據中心的溫度保持在23度, 事實上, 所有的設備制造商都允許冷通道在27度或更高的溫度下運行。提高冷通道的運行溫度既可以使免費制冷的時間變長又可以節省更多能源。
4. 利用自然冷卻
利用自然冷卻, 無需使用冷卻器就能為設備散熱。這包括利用低溫的環境空氣、蒸發冷卻技術應用等。
5. 優化配電
通過盡量減少電力轉換環節, 可以將配電損耗降到最小。對于必須進行的轉換步驟, 使用高效的變壓器和配電裝置。數據中心配電過程的最大損耗之一來自不間斷電源(UPS) ,因此選擇一個高效的轉換模式顯得尤為重要。另外, 還要減少輸電線路耗損。
谷歌承認, 在數據中心的能耗管理方面, 除了上述五點外, 很難提出更多的節能措施。但是在2016年7月, 谷歌宣布, 他們經過了兩年多的數據收集和研究, 將人工智能(AI) 引入到數據中心的能耗管理中, 建立了PUE的神經網絡模型, 提出了基于機器學習的數據中心能耗管理方法。谷歌宣稱, 該項技術在實際應用中可將總的制冷功耗降低約40%, 從而將數據中心的總功耗降低約15%。若以一個PUE值為1.6的數據中心為例, 采用該項技術后, PUE值將降低為1.45左右。谷歌相信, 將人工智能(AI) 應用于數據中心的能耗管理是在該領域的重大突破, 該項技術將成為業界未來的主流。
銀行業界也在學習谷歌的先進經驗, 研究應用人工智能進行數據中心能耗管理。然而,此項技術需要大量的歷史數據, 同時在已投產的大型數據中心進行測試難度也較大, 目前國內尚未有成功的案例。建議數據中心管理者關注基礎設施運行數據的采集和存儲, 為未來的智能化運維打下基礎。
盡管業界存在很多爭論, 但PUE仍是衡量數據中心能耗的最重要指標。數據中心的管理者既要認識到PUE指標的片面性, 又要認識到不同數據中心的PUE不能簡單地進行比較。在數據中心日常運行中, 可以按照統一的標準實事求是地進行PUE相關參數的采集和計算,自己和自己比較, 找到PUE升高或者降低的原因, 采取多種措施進行節能。同時, 選擇低功耗的IT設備, 整合、退庫使用率低的IT設備, 優化系統和應用架構, 避免IT設備數量過度增長等都是降低數據中心IT設備能耗的方法。這些方法雖然無法降低PUE值, 還可能使得PUE值升高, 但可減少數據中心日常運行的電費成本, 從而帶來更加實在的效益。(來源:數據中心最佳實踐)


