百度祭出崑崙AI晶片殺手鐗 效能最高比NV晶片強三倍

發佈日期

4月2日下午,百度智慧晶片總經理歐陽劍在一場公開課中首次對崑崙晶片進行了詳細分享,並公開了崑崙K200與英特爾T4 GPU的多項對比資料,其中最有優勢的一項資料是Gemm-Int8 的Benchmark是T4效能的3倍。歐陽劍還透過視訊展示了崑崙晶片的殺手鐗,與國產處理器飛騰的良好適配。

百度祭出崑崙AI晶片殺手鐗 效能最高比NV晶片強三倍

2018年的百度AI開發者大會上,百度創始人、董事長兼CEO李彥宏宣佈推出自研AI晶片崑崙。百度研發AI晶片的積累得益於其用FPGA做AI加速的積累,也得益於其在軟體定義加速器和XPU架構的多年積累。

百度祭出崑崙AI晶片殺手鐗 效能最高比NV晶片強三倍

百度最早在2010年開始用FPGA做AI架構的研發,2011年開展小規模部署上線,2017年部署超過了10000片FPGA,2018年釋出自主研發AI晶片,2019年下半年流片成功,2020年開始量產。

百度祭出崑崙AI晶片殺手鐗 效能最高比NV晶片強三倍

崑崙晶片的定位是通用AI晶片,目標是提供高效能、低成本、高靈活性的AI晶片。歐陽劍在分享中說:“相比GPU,崑崙晶片的通用性和可程式設計性都做的不錯,並且我們還在努力把程式設計性做的更好。”

百度祭出崑崙AI晶片殺手鐗 效能最高比NV晶片強三倍

崑崙釋出之後,其相關訊息陸續公佈。架構方面,崑崙有2個計算單元,512GB/S的記憶體頻寬,16MB SRAM/unit。歐陽劍介紹,16MB的SRAM對AI推理很有幫助,XPU架構上的XPU-SDNN是為Tensor等而設計,XPU-Cluster則能夠滿足通用處理的需求。

崑崙第一代晶片並沒有採用NVLink,而是透過PCIE 4.0介面進行互聯。在三星14nm的製造工藝和2.5D封裝的支援下,崑崙晶片峰值效能可以達到260TOPS,功耗為150W。

在靈活性和易用性方面,崑崙面向開發者提供類似英偉達CUDA的軟體棧,可以透過C/C++語言進行程式設計,降低開發者的開發難度。

百度祭出崑崙AI晶片殺手鐗 效能最高比NV晶片強三倍

目前,基於第一代崑崙晶片,百度推出了兩款AI加速卡,K100和K200,前者算力和功耗都是後者的兩倍。

百度祭出崑崙AI晶片殺手鐗 效能最高比NV晶片強三倍

在今天的分享中,歐陽劍給出了一系列K200對比英偉達T4的資料,其中在Gemm-Int8資料型別,4K X 4K的矩陣下,崑崙K200的Benchmark分出超過2000,是英偉達T4的3倍多。

百度祭出崑崙AI晶片殺手鐗 效能最高比NV晶片強三倍

在語音常用的Bert/Ernie測試模型下,崑崙也有明顯效能優勢。

百度祭出崑崙AI晶片殺手鐗 效能最高比NV晶片強三倍

線上上效能資料的表現上,崑崙的表現相比英偉達T4更加穩定,且延遲也有優勢。

百度祭出崑崙AI晶片殺手鐗 效能最高比NV晶片強三倍

在影像分割YOLOV3演演算法中,崑崙雖然有優勢,但優勢已經不那麼明顯。不過歐陽劍表示百度仍然在透過持續的最佳化提高崑崙的效能。

百度祭出崑崙AI晶片殺手鐗 效能最高比NV晶片強三倍

他同時表示,崑崙已經在百度內部規模應用。至於對外提供AI算力,去年12月13日百度透過定向邀請的方式透過百度雲提供崑崙的算力。在與歐陽劍的直播互動中,雷鋒網(公眾號:雷鋒網)瞭解到透過百度雲提供崑崙AI算力目前仍然是定向邀請的方式,且主要是私有部署的方式。百度會透過定向邀請的客戶的反饋訊息,再透過百度雲大規模向外提供崑崙的算力,但他沒有給出具體的時間線。

除了透過百度雲提供崑崙的算力,歐陽劍也展示了崑崙加速卡在工業智慧裝置中的應用。歐陽劍演示的是用CPU和崑崙加速卡去進行產品缺陷檢測,崑崙可以大幅提升速度,但並沒有給出具體的對比資料。

百度祭出崑崙AI晶片殺手鐗 效能最高比NV晶片強三倍

另外一個展示則是崑崙的殺手鐗,那就是和國產處理器平臺飛騰的適配。在2019飛騰生態夥伴大會上,歐陽劍就透露崑崙AI晶片正在適配國產飛騰伺服器,做效能調優工作。在今天的線上分享中,歐陽劍展示了採用崑崙加速卡帶來的影像分割速度的顯著加速。

百度祭出崑崙AI晶片殺手鐗 效能最高比NV晶片強三倍

飛騰CPU處理器採用的是Armv8指令級,主要用在資料中心和雲端計算中心,作為國產芯的代表,崑崙選擇與飛騰進行很好地適配顯然是看中了國產自研晶片的大市場。

透過飛騰CPU+崑崙AI加速器的方式,雙方可以更好的實現國產晶片在伺服器市場的國產化,也可以視為崑崙AI晶片和加速卡未來增長的一個重要動力和殺手鐗。

百度祭出崑崙AI晶片殺手鐗 效能最高比NV晶片強三倍

相關攻略文章

最新攻略