Google 設計了自己的新處理器Argos 視頻(轉)編碼單元 (VCU:video (trans)coding units),他們推出這個芯片的目的只有一個:那就是處理視頻。高效的新芯片使這家技術巨頭能夠用自己的芯片替換數百萬個英特爾 CPU。
多年來,英特爾內置于其 CPU 中的視頻解碼/編碼引擎一直主導著市場,因為它們提供了領先的性能和功能,并且易于使用。但是定制的專用集成電路 (ASIC) 的性能往往優于通用硬件,因為它們僅針對一種工作負載而設計。因此,谷歌轉而為 YouTube 的視頻處理任務開發自己的專用硬件,并取得了很好的效果。
然而,英特爾可能會利用其最新技術來贏回谷歌的專業視頻處理業務。
大量視頻需要新硬件
據統計,用戶每分鐘向 YouTube 上傳超過 500 小時的各種格式的視頻內容。Google 需要將該內容快速轉碼為多種分辨率(包括 144p、240p、360p、480p、720p、1080p、1440p、2160p 和 4320p)和數據高效格式(例如,H.264、VP9 或 AV1),這就需要強大的編碼能力。
從歷史上看,谷歌有兩種轉碼/編碼內容的選擇。第一個選項是英特爾的視覺計算加速器(VCA),它包含三個 Xeon E3 CPU,內置 Iris Pro P6300/P580 GT4e 集成圖形內核和先進的硬件編碼器。第二種選擇是使用軟件編碼和通用英特爾至強處理器。
谷歌認為,對于新興的 YouTube 工作負載來說,這兩種選擇都不夠節能——Visual Computing Accelerator 本身就相當耗電,而擴展至強 CPU 的數量本質上意味著增加服務器的數量,這意味著額外的功率和數據中心占用空間。因此,谷歌決定采用定制的內部硬件。

谷歌的第一代 Argos VCU 并沒有完全取代英特爾的中央處理器,因為服務器仍然需要運行操作系統并管理存儲驅動器和網絡連接。在很大程度上,谷歌的 Argos VCU 就像一個總是需要一個 CPU 的 GPU。
谷歌的 VCU 與我們在 GPU 中看到的流處理器不同,它集成了十個 H.264/VP9 編碼器引擎、幾個解碼器內核、四個 LPDDR4-3200 內存通道(具有 4x32 位接口)、一個 PCIe 接口、一個 DMA 引擎和一個用于調度目的的小型通用內核。除了內部設計的編碼器/轉碼器外,大多數 IP 都從第三方獲得許可,以降低開發成本。每個 VCU 還配備了 8GB 的可用 ECC LPDDR4 內存。
Google 的 VCU 背后的主要思想是將盡可能多的高性能編碼器/轉碼器放入單個芯片中(同時保持節能),然后將 VCU 的數量與所需的服務器數量分開擴展。谷歌在一塊板上放置兩個 VCU,然后在每個雙插槽英特爾至強服務器上安裝 10 個卡,大大提高了公司每個機架的解碼/轉碼性能。
提高效率導致從至強遷移
谷歌表示,與英特爾 Skylake 驅動的服務器系統相比,其基于 VCU 的機器在性能/TCO 計算效率方面實現了高達 7 倍(H.264)和高達 33 倍(VP9)的改進。這一改進將 VCU 的成本(與英特爾的 CPU 相比)和三年的運營費用考慮在內,這使得 VCU 成為視頻巨頭 YouTube 的輕松選擇。
CPU、GPU 和配備 VCU 的系統中的離線雙通道單輸出 (SOT) 吞吐量:

從 Google 分享的性能數據來看,很明顯單個 Argos VCU 比 H.264 中的 2 路 Intel Skylake 服務器快。但是,由于可以在這樣的服務器中安裝 20 個 VCU,從效率的角度來看,VCU 勝出。但對于要求更高的 VP9 編解碼器,谷歌的 VCU 似乎比英特爾的雙路至強快五倍,因此提供了令人印象深刻的效率優勢。

由于谷歌多年來一直在使用其 Argos VCU,它顯然用運行自己芯片的機器取代了許多基于 Xeon 的 YouTube 服務器。很難估計谷歌實際更換了多少至強系統,但一些分析師認為,這家科技巨頭本可以將數百萬個英特爾 CPU換成 自己的 VC。即使這個數字被高估了,我們仍然在談論數百萬個單位。
由于谷歌的其他服務需要大量處理器,因此該公司從 AMD 或英特爾購買的 CPU 數量可能仍然非常高,并且不會很快減少,因為谷歌自己的數據中心需要數年時間—— 級系統級芯片 (SoC) 將準備就緒。
還值得注意的是,目前谷歌為了嘗試使用創新的編碼技術(例如,AV1),即使是 YouTube 也需要使用通用 CPU,因為 Argos 不支持編解碼器。此外,隨著更高效的編解碼器的出現(這些對計算能力的要求往往更高),谷歌將不得不繼續使用 CPU 進行初始部署。具有諷刺意味的是,專用硬件的優勢在未來只會越來越大。
谷歌已經在開發支持 AV1、H.264 和 VP9 編解碼器的第二代 VCU,因為它需要進一步提高其編碼技術的效率。目前尚不清楚何時部署新的 VCU,但很明顯該公司希望盡可能使用自己的 SoC 而不是通用處理器。
英特爾并未停滯不前
不過,英特爾并沒有停滯不前。該公司 基于DG1 Xe-LP的 四芯片 SG1 服務器卡可以解碼多達 28 個 4Kp60 流以及轉碼多達 12 個同時流。從本質上講,英特爾的 SG1 與谷歌的 Argos VCU 所做的完全一樣:將視頻解碼和轉碼性能與服務器數量分開,從而減少用于視頻應用的數據中心所需的通用處理器數量。
憑借即將推出的單塊 Xe-HP GPU,英特爾將同時提供 10 個高質量 4Kp60 流的轉碼。請記住,某些 Xe-HP GPU 將擴展到四個區塊,并且每個系統可以安裝一個以上的 GPU,英特爾市場領先的媒體解碼和編碼能力只會變得更加穩固。
概括
Google 已成功構建了出色的 H.264 和支持 VP9 的視頻(轉)編碼單元 (VCU),與英特爾現有的 CPU 相比,它可以在視頻編碼/轉碼工作負載方面提供顯著更高的效率。此外,VCU 使 Google 能夠獨立于服務器數量擴展其視頻編碼/轉碼性能。
然而,英特爾已經擁有其 Xe-LP GPU 和 SG1 卡,它們也提供了一些重要的視頻解碼和編碼功能,因此英特爾仍將在具有繁重視頻流工作負載的數據中心取得成功。此外,隨著英特爾 Xe-HP GPU 的出現,該公司有望鞏固其在該市場的地位。