close

  不知不覺中AMD的銳龍處理器上市2年半了,2017年橫空出世的Zen架構也發展了兩代了,如今上市的是第三代銳龍——銳龍Ryzen 3000系列了,回頭再看的時候發現當前的主力銳龍Ryzen 7 2700X開始陸續下架了,正如很多人不記得銳龍7 1800X處理器下架一樣。

管理學中有個著名的說法從:優秀到卓越,這句話用來形容現在的AMD再合適不過了。

  基於7nm工藝打造的第三代銳龍,相信很多人都很感興趣它頻率、核心、性能都大幅提升的背後,是有哪些架構的革新與調整,今天就拿著AMD官方的PPT,給大家深入淺出地講一講吧——

  本文內容較長、而且涉及的專業名詞、術語比較多,閱讀也有一定的門檻,但我已經盡可能從簡地解釋了,對於喜歡DIY、感興趣半導體技術的粉絲們,不妨找個安靜的地方,好好地看一看,應該多少都能有點收穫的。

  在過去的幾年中,AMD一直在研發更高性能更高能效的Zen架構,所以才有2017年銳龍處理器問世時AMD震驚世人的52% IPC性能提升,這種架構級別的提升比起大家調侃的Intel式擠牙膏升級實在太猛了,從性能到能效都是質的變化。
01.jpg
  從這點上來說,兩年前的第一代銳龍1000系列可以說一鳴驚人,讓落後多年的AMD拿到了高性能CPU市場的新門票,從此這個市場不再是Intel的獨角戲,DIY玩家期待的雙雄爭霸局面回來了,CPU市場格局變了,Intel在這兩年中接連從4核升級到6核再到8核,不再擠牙膏升級了,這點上確實是AMD的功勞。

  不過現在的兩代銳龍處理器還是有一點嚴重不足的——單核性能不足,導致AMD一些遊戲及專業應用的性能不如Intel。

  從一代銳龍到二代銳龍,AMD將CPU架構從14nm Zen改進到了12nm Zen+,但這依然是小修小補,縮短了與Intel的單核差距,但沒有質變,在那樣的工藝及架構下已經挖掘不出更高頻率的潛力了。
02.jpg
  管理學中有個著名的說法——從優秀到卓越,這句話用來形容現在的AMD再合適不過了,14/12nm公司的銳龍處理器是優秀的處理器,但還有一些槽點沒能解決,而現在的7nmm Zen 2架構目標是卓越,AMD從追趕者變成領導者的任務就要靠它了。
03.jpg
  此前AMD在CPU路線圖中對Zen 2架構的概述就是多維度增強Zen架構,從官方定性來看我們可以把Zen 2當作深度改進版的Zen——基本的CPU結構變化不大,但工藝、封裝、單核及多核上全面改進。
04.jpg
AMD官方對Zen 2架構的優勢主要集中在三方面——性能、工藝及並行,我們的介紹也主要圍繞這三部分進行。

第三代銳龍用上7nm工藝:AMD CPU史上首次全面領先Intel

  對CPU這種極其先進的邏輯芯片來說,任何重要的進步都離不開製程工藝的升級,14/12nm銳龍上的一些缺點,比如CPU單核頻率還不夠高等,AMD也不是不清楚,但他們也沒辦法了,GF的14/12nm工藝決定了上限了,不是想提頻就提頻的。

  好在現在AMD上了7nm,而且代工廠從GF換到了台積電,說起來這件事也有很多波折,去年8月初GF黯然宣布無限期停止7nm及以下工藝的研發、生產,原本是準備GF、台積電兩條腿走路的AMD無奈之下決定將CPU及GPU的7nm訂單全部交給台積電。

  對AMD來說,從原來的兩家代工廠變成一家代工廠,實際上風險更大了,而且台積電之前沒有過製造高性能X86處理器的經驗,不過最終來看台積電財大氣粗,在工藝成熟度上比GF要好得多,AMD的7nm CPU及GPU最終還是順利量產了。
05.jpg
  此外,AMD的銳龍3000系列處理器使用的7nm工藝跟台積電為華為、蘋果代工移動處理器的工藝也不同,是7nm HPC工藝,專為高性能IP核心優化的,只不過AMD及TSMC對7nm HPC工藝的公開介紹並不多。
06.jpg
  從AMD公開的數據來看,7nm工藝帶來了明顯的計算效率,包括2倍的晶體管密度、功耗降低50%(同性能下),性能提升了25%(同功耗下)。

  考慮到AMD這是跟14nm工藝對比的,密度、功耗的變化還不錯,但25%的性能提升並不讓人滿意,這也可以看出摩爾定律到了10nm節點之後芯片性能的提升不那麼容易了
07.jpg
  只要提起處理器工藝,Intel也是無論如何繞不過去的。公平地說,Intel的10nm工藝技術上並不落伍,晶體管密度等方面相比台積電的7nm工藝甚至還有些優勢。在這個問題上,即便是AMD自己都是很清醒的,他們也只是表態7nm工藝追上了與友商的差距。

  當然,綜合來看,AMD在7nm節點上還是領先的,即便技術上與Intel的10nm不相上下,但是時間進度上AMD贏了,Intel的10nm處理器首發於移動版十代酷睿處理器Ice Lake上,高性能的桌面版、服務器版要等到明年,而AMD現在就開始出貨7nm工藝的高性能桌面版處理器了,64核的EYPC羅馬處理器也會下半年出貨。

  正是因為這一點,此前有華爾街分析師稱讚AMD在7nm 銳龍3000處理器上打了一個翻身仗,這是十多年來AMD首次在工藝及性能上首次全面超越Intel,絕對是歷史性時刻。

第三代銳龍的Chiplets設計:CPU/IO核心分離解決延遲成關鍵
08.jpg
  儘管AMD成功地在銳龍3000處理器上使用了7nm工藝,但是說它是7nm芯片也有點不准確,實際上銳龍3000是7nm混合12nm工藝,這跟它的模塊化設計有關。
09.jpg
  在7nm節點,設計一款芯片的費用高達3億美元,對AMD來說成本也是非常高的,這就需要廠商採用更好的方式來確保芯片的良率,芯片越大良率就越低,芯片越小良率就有可能越高。

  在Zen 2架構處理器上,AMD就使用了Chiplets小芯片的設計思路, 通過模塊化來組合不同核心的處理器。Chiplets設計不同於以往的膠水封裝,本質上是把不同工藝、不同架構的芯片電路按需搭配,比單純的膠水封裝要高明,也要復雜。

  在去年推出的第一款Zen 2架構的處理器——EPYC羅馬上,AMD就率先應用了這種設計方式,8組CPU核心、1組IO核心堆出了64核處理器。在銳龍3000上,桌面版不需要這麼多核心,使用的2組CPU核心層、1組IO核心,最多16核32線程。
10.jpg
  具體來說,就是圖中上面2組CPU核心是7nm工藝製造,因為CPU核心對性能要求高,對功耗也敏感,提升工藝對CPU核心來說大有裨益,好鋼要用在刀刃上。

  下面的IO核心整合了內存控制器、PCIe控制器等IO單元,這部分電路對性能、功耗要求沒那麼高,而且IO單元並不容易隨著工藝微縮,所以使用的是相對低端的工藝——之前說是14nm,不過銳龍3000上的IO核心是改良版的12nm工藝。
11.jpg
  AMD在Zen2上採用這樣的設計無疑是很聰明的做法,配置也非常靈活,提升CPU核心數量就堆CPU模塊即可,所以銳龍處理器可以從之前的8核16線程輕鬆變成16核32線程。此外,AMD這樣做也需要生產小核心,提高了良率,降低了成本,而且IO核心使用的還是更成熟的12nm工藝,進一步削減了成本。
12.jpg
  當然,有得必有失,Chiplets設計的好處多多,但缺點也明顯,那就是如何處理好核間的連接,特別是內存主控分離出來之後,內存的延遲理論上要增加,肯定是不如原生多核的,AMD怎麼解決這個問題的呢?

  首先是改進Infinity Fabric總線(簡稱IF),IF總線是Zen架構上的基礎技術之一,它連接了Zen架構中的CCX模塊,現在也用於鏈接不同的CPU、IO核心模塊。

  在銳龍3000處理器上,IF總線進化到了第二代,在並行、延遲及能效上全面改進,總線位寬從256b升級到了512b以便支持PCIe 4.0,同時將Fclk與Uclk頻率去耦合解鎖以提高內存超頻性能,並採取多種方式降低內存延遲、提高緩存速度以減少延遲帶來的影響。
13.jpg
  除了IF總線的改進之外,AMD還發了一個大招——L3緩存翻倍,每個CCX單元的L3緩存容量從之前的8MB提升到了16MB(7nm工藝的密度優勢就是任性),這樣一來對延遲敏感的應用就可以更多地以來L3緩存而內存,AMD稱此舉使得等效內存延遲減少了33ns,遊戲性能提升了21%。
14.jpg
  此外,AMD憑藉IO核心分離還提高了內存的頻率,之前的銳龍支持的內存頻率不過2933MHz,現在可以輕鬆達到4000+,號稱一鍵超頻到4200MHz,高者可達DDR4-5133Mhz。

  對於內存頻率,如果追求極限低延遲,頻率高了也不一定好,這也跟IF總線的工作模式有關,雖然它跟內存頻率分離了,但1:1情況下延遲還是最低的,分界點就是DDR4-3733,這時候內存延遲是最低的,而AMD官方推薦的是DDR4-3600 CL16模式,對當前的內存來說這個頻率、時序也很輕鬆能達到。

第三代銳龍的Zen2架構詳解:一切為了更高的吞吐量
15.jpg
  如果大家還記得銳龍7 1800X首發時的情景,那麼對Zen架構的SMT多線程、CCX單元、IF總線等創新應該還有印象,而銳龍3000的Zen2架構也繼承了這些優點,只不過Zen2中IO相關的分離了,CPU核心變得更純粹,總體方向就是提升核心數以加倍多線程性能,同時最大可能提升單核性能。

  在銳龍3000中,CPU與IO核心分離之後可以有多種搭配,比如1組CPU搭配1組IO核心,這樣最多是8核16線程,還有就是2組CPU核心搭配1組IO核心,這樣最多16核32線程,這也是目前銳龍9 12核及16核處理器實現的根基。
16.jpg
  在14nm Zen架構中,1個CCX單元的總面積是60mm2,其中CPU核心44mm2,8MB L3緩存是16mm2,算上其他IO、內存主控、IF等單元,8核處理器的核心面積是213mm2。

  在Zen 2架構中,一個chiplets芯片的總面積才74mm2,其中CCX+16MB L3緩存的核心面積才31.3mm2,同比減少了47%,一方面是因為7nm工藝的密度優勢,一方面也跟Zen2的CCX只有CPU核心有關,減少了IO單元。

  這裡也可以解釋為了降低延遲AMD為什麼敢於大幅加倍L3緩存的原因了,每個CCX翻倍到16MB L3緩存後CCX核心面積依然減少一半左右,何樂而不為呢。
17.jpg
  整個Zen2架構來說,它繼承了SMT多線程技術,同時在分支預測、緩存系統、整數、浮點等單元上做了改進,並加入了新的指令,目的就是進一步降低延遲帶來的影響。
18.jpg
  在緩存系統上,Zen 2的L3緩存翻倍,L2緩存維持512KB 8-Way不變,L1緩存有所調整,指令緩存容量64KB減少到了32KB,但關聯性從4-Way變成了8-Way ,而且Micro-Op緩存翻倍,AMD這樣做顯然是想取得一種性能與節能、面積之間的平衡。
19.jpg 
  預取單元中,AMD提高了分支預測的精度,加大了BTB(分支目標緩衝器)容量,優化了32KB L1緩存,最主要的則是加入了TAGE分支預測器,最終使得分支預測的誤命中率減少了30%,提升了命中精度以減少能耗、提高性能。
20.jpg
解碼單元中,主要是改進了micro-op微操作緩存,容量從2K翻倍到4K,可以支持更多的解碼操作。
21.jpg
  浮點單元是Zen 2架構中變化比較大的部分,在去年的EPYC羅馬處理器中AMD就表示浮點性能吞吐量翻倍,原因就在於完全支持了AVX2指令,位寬從128bit提升到了256bit,這樣不用再將以往的256bit指令拆分為兩個指令用兩個週期執行了,實現了浮點性能翻倍。
22.jpg
  整數執行單元中,調度器從84個增加到了92個,物理寄存器從168個增加到了180個,從每週期6發射提升到了7發射,總體來說這方面的改進更多地是量變,進一步優化執行單元的效率及執行速度。
23.jpg
  載入/存儲單元中,同樣是提升隊列的深度,提升TLB緩存容量,提升帶寬,降低延遲,最主要的是帶寬從每週期的16B翻倍到了32B字節。
24.jpg
緩存一致性上,前面已經介紹過了L1、L2、L3緩存的變化了,其中L2緩存不變,L3緩存翻倍,L1指令緩存減半,但關聯性翻倍。
25.jpg
  Zen2架構中還增加了一些新的指令,比如CLWB、WBNOINVD、QOS等,不詳細解釋了,這些指令主要跟內存、緩存有關,主要目標還是提高緩存性能、降低延遲,它們主要是給EPYC處理器準備的,銳龍3000消費級處理器支持這些指令主要還是沾光。
26.jpg
  最後值得一提的是處理器的安全性,由於後發優勢,Zen2架構在安全性、漏洞防護等問題上更具優勢,Zen架構上就已經免疫了多個Spectre幽靈、Meltown熔斷等變種漏洞, Zen2架構上進一步硬件免疫了幽靈漏洞變種,這點對消費級處理器來說影響不大,但對企業級用戶來說很重要。

第三代銳龍的終極目標:要多核還要單核更要能效、低溫

  不論是7nm工藝還是Chiplets設計,亦或者是Zen 2微內核架構,AMD在霄龍、銳龍處理器上追求的目標不外乎性能、能效,結合之前處理器表現出來的優勢及槽點,具體來說就是繼續保持多核性能優勢、提升單核性能、提高能效、降低功耗及發熱,還有就是更低的成本,不過售價這方面還跟市場有關,要看具體產品,這裡先不談了。
27.jpg
  在性能這點上,AMD在7nm Zen2上追求的是性能提升,首先是IPC性能,在從推土機架構到Zen架構上,AMD實現了52%的IPC性能提升,不過那個有特殊加成,但從Zen到Zen2上,AMD表示他們也實現了15%的IPC性能提升,這點就難能可貴了,畢竟現在的高性能CPU架構提升越來越難,以往Intel產品提升5%的IPC性能就算不錯了。
28.jpg
  其次,AMD還要實現更高的頻率,銳龍一代、二代處理器在這方面就吃過虧,加速頻率也就4.3GHz而已,相比Intel已經實現的5GHz加速頻率差了很遠,導致AMD在單核性能上吃虧不少,遊戲性能也因此落敗。

  在7nm Zen2上,AMD總算有了突破,銳龍9 3900X 12核處理器的加速頻率也達到了4.6GHz,16核的銳龍9 3950X更是達到了4.7GHz頻率,而且AMD表示他們的加速頻率不單單是追求單核最高頻率,可能的情況下更願意讓多個核心達到加速頻率,這樣一來性能會更強。
29.jpg
  綜合IPC性能及頻率的提升,AMD在銳龍3000上終於實現了單核性能的大進步,官方數據顯示單線程性能提升了21%,考慮到銳龍一代、二代上單核性能與Intel酷睿處理器最大的差距也不過20%左右,這次的提升足以讓AMD在單核性能上追平甚至超越Intel酷睿。
30.jpg
  與此同時,AMD一直有優勢的多核性能上還會繼續保持,銳龍3000上最大核心數翻倍到了16核32線程,隨著核心增加多核性能也基本保持了線性增長,6核12線程的處理器CINBEBCN R20多核跑分是3678,12核24線程的銳龍3000就是7248分,基本上就是同步增長的。
31.jpg
  更重要的是,在性能增長的同時AMD反而降低了處理器的功耗,每瓦性能比要比目前的銳龍7 2700X以及Intel的酷睿i7-9700K處理器有了50%到70%的增長,銳龍7 3700X的絕對功耗反而從前兩者的195W、157W降至135W,能效表現讓人刮目相看。
32.jpg
  考慮到銳龍7 2700X以及Intel的酷睿i7-9700K處理器都是14nm工藝水平的,7nm的銳龍3000處理器在能效上有兩代工藝的差距,官方稱同性能下功耗降低了50% ,能效上可以說是降維打擊。
33.jpg
  伴隨著能效的提升,AMD的銳龍3000處理器在發熱上也很有優勢,Intel的6核、8核酷睿處理器發熱之高讓很多玩家不爽,但銳龍7 3700X要冷靜的多,這個優勢在銳龍一代、二代上就已經如此了。
34.jpg
  除了硬件上的改進,AMD在優化方面也跟上來,銳龍3000處理器就得到了微軟的支持,在最新的Windows 10 5月更新(1903版)上,它也支持了AMD處理器的快速CPU狀態切換功能,涉及到一些突發工作負載時,銳龍3000處理器的頻率提升時間從30毫秒減少到了1-2毫秒,簡單來說就是在需要的時候可以更快速度提升頻率,這樣就可以提升應用程序的響應速度,AMD表示PCmark 10的啟動時間就縮短了6%,Rocket League遊戲的啟動時間更是減少了15%。
35.jpg
第三代銳龍的完美搭配:X570芯片組+PCIe 4.0帶寬
36.jpg
  在處理器之外,不得不說的還有全新一代X570芯片組,相比以往的芯片組由祥碩操刀設計,這次的X570是AMD親自上陣,為的就是實現PCIe 4.0技術支持,而且不惜成本地上了14nm製程工藝。
37.jpg
與PCIe 3.0相比,PCIe 4.0的速率從8GT/s提升到了16GT/s,帶寬翻倍提升。主要優點如下:
①速度更快,x16雙向帶寬達到了32GB/s,是PCIe 3.0的兩倍。
②向下兼容,PCIe 4.0也能兼容PCIe 3.0設備。
③更多連接,PCIe 4.0帶寬高,1條頂2條,可以連接更多設備而不需要擔心性能下降。

38.jpg
  PCIe 4.0在消費級平台上目前還是AMD X570/銳龍3000的獨家功能,所以群聯、慧榮等公司推出的PCIe 4.0主控以及廠商的PCIe 4.0硬盤要想發揮威力,AMD平台是首選,可以將SSD的讀寫性能提升到5GB/s級別,未來還可以進一步提升到6.5GB/s。

  此外,X570平台除了PCIe 4.0之外,其他SATA、USB 3.1 Gen2、NVMe等標準也要比Intel的Z390平台更好,擴展接口數量更多,搭配更靈活,所以在X570平台上,AMD及主板廠商有了打造頂級平台的底氣,這一點也是跟以往300、400系芯片組最大的不同,有先進技術就能任性。
39.jpg
  當然,考慮到PCIe 4.0目前比較少支持,不追求極限性能的話大家完全可以選擇X470、B450等平台,AMD之前也確認過了,除了PCIe 4.0支持之外,其他平台上銳龍3000處理器的性能也是一樣的,不會受影響的。

總結:從優秀到卓越,第三代銳龍各種優點“我全都要”

  從AMD的7nm Zen2架構設計來看,AMD在這一代處理器上可以說志向遠大,不論單核還是多核性能,或者是能效、溫度、成本,AMD的目標簡直就是什麼都要。

  沒錯,銳龍3000處理器上AMD表現出來的就是各種優勢都要佔盡,不給友商留活路的感覺,通過先進的7nm工藝、獨特的Chiplets小芯片、全面改進的Zen2架構實現了性能、能效的同步增長,而且以往最弱的單核性能這次也追上來了。
41.jpg
  對於銳龍3000處理器的性能,AMD的官方測試展示了很多了,不過我們這裡不打算詳細列舉了,上面這張圖就是綜合代表了,單核、多核性能都要比Intel的酷睿i9處理器要強。

  AMD官方的PPT並不能代表實際的性能如此,最終的表現如何還要看測試, AMD“全都要”的目標到底能實現多少。

來源
謝謝收看

arrow
arrow

    john pan 發表在 痞客邦 留言(0) 人氣()