AMD 7nm Zen2架構詳解從優秀到卓越－John pan

不知不覺中AMD的銳龍處理器上市2年半了，2017年橫空出世的Zen架構也發展了兩代了，如今上市的是第三代銳龍——銳龍Ryzen 3000系列了，回頭再看的時候發現當前的主力銳龍Ryzen 7 2700X開始陸續下架了，正如很多人不記得銳龍7 1800X處理器下架一樣。

管理學中有個著名的說法從:優秀到卓越，這句話用來形容現在的AMD再合適不過了。

基於7nm工藝打造的第三代銳龍，相信很多人都很感興趣它頻率、核心、性能都大幅提升的背後，是有哪些架構的革新與調整，今天就拿著AMD官方的PPT，給大家深入淺出地講一講吧——

本文內容較長、而且涉及的專業名詞、術語比較多，閱讀也有一定的門檻，但我已經盡可能從簡地解釋了，對於喜歡DIY、感興趣半導體技術的粉絲們，不妨找個安靜的地方，好好地看一看，應該多少都能有點收穫的。

在過去的幾年中，AMD一直在研發更高性能更高能效的Zen架構，所以才有2017年銳龍處理器問世時AMD震驚世人的52% IPC性能提升，這種架構級別的提升比起大家調侃的Intel式擠牙膏升級實在太猛了，從性能到能效都是質的變化。

從這點上來說，兩年前的第一代銳龍1000系列可以說一鳴驚人，讓落後多年的AMD拿到了高性能CPU市場的新門票，從此這個市場不再是Intel的獨角戲，DIY玩家期待的雙雄爭霸局面回來了，CPU市場格局變了，Intel在這兩年中接連從4核升級到6核再到8核，不再擠牙膏升級了，這點上確實是AMD的功勞。

不過現在的兩代銳龍處理器還是有一點嚴重不足的——單核性能不足，導致AMD一些遊戲及專業應用的性能不如Intel。

從一代銳龍到二代銳龍，AMD將CPU架構從14nm Zen改進到了12nm Zen+，但這依然是小修小補，縮短了與Intel的單核差距，但沒有質變，在那樣的工藝及架構下已經挖掘不出更高頻率的潛力了。

管理學中有個著名的說法——從優秀到卓越，這句話用來形容現在的AMD再合適不過了，14/12nm公司的銳龍處理器是優秀的處理器，但還有一些槽點沒能解決，而現在的7nmm Zen 2架構目標是卓越，AMD從追趕者變成領導者的任務就要靠它了。

此前AMD在CPU路線圖中對Zen 2架構的概述就是多維度增強Zen架構，從官方定性來看我們可以把Zen 2當作深度改進版的Zen——基本的CPU結構變化不大，但工藝、封裝、單核及多核上全面改進。

AMD官方對Zen 2架構的優勢主要集中在三方面——性能、工藝及並行，我們的介紹也主要圍繞這三部分進行。

第三代銳龍用上7nm工藝：AMD CPU史上首次全面領先Intel

對CPU這種極其先進的邏輯芯片來說，任何重要的進步都離不開製程工藝的升級，14/12nm銳龍上的一些缺點，比如CPU單核頻率還不夠高等，AMD也不是不清楚，但他們也沒辦法了，GF的14/12nm工藝決定了上限了，不是想提頻就提頻的。

好在現在AMD上了7nm，而且代工廠從GF換到了台積電，說起來這件事也有很多波折，去年8月初GF黯然宣布無限期停止7nm及以下工藝的研發、生產，原本是準備GF、台積電兩條腿走路的AMD無奈之下決定將CPU及GPU的7nm訂單全部交給台積電。

對AMD來說，從原來的兩家代工廠變成一家代工廠，實際上風險更大了，而且台積電之前沒有過製造高性能X86處理器的經驗，不過最終來看台積電財大氣粗，在工藝成熟度上比GF要好得多，AMD的7nm CPU及GPU最終還是順利量產了。

此外，AMD的銳龍3000系列處理器使用的7nm工藝跟台積電為華為、蘋果代工移動處理器的工藝也不同，是7nm HPC工藝，專為高性能IP核心優化的，只不過AMD及TSMC對7nm HPC工藝的公開介紹並不多。

從AMD公開的數據來看，7nm工藝帶來了明顯的計算效率，包括2倍的晶體管密度、功耗降低50%（同性能下），性能提升了25%（同功耗下）。

考慮到AMD這是跟14nm工藝對比的，密度、功耗的變化還不錯，但25%的性能提升並不讓人滿意，這也可以看出摩爾定律到了10nm節點之後芯片性能的提升不那麼容易了

只要提起處理器工藝，Intel也是無論如何繞不過去的。公平地說，Intel的10nm工藝技術上並不落伍，晶體管密度等方面相比台積電的7nm工藝甚至還有些優勢。在這個問題上，即便是AMD自己都是很清醒的，他們也只是表態7nm工藝追上了與友商的差距。

當然，綜合來看，AMD在7nm節點上還是領先的，即便技術上與Intel的10nm不相上下，但是時間進度上AMD贏了，Intel的10nm處理器首發於移動版十代酷睿處理器Ice Lake上，高性能的桌面版、服務器版要等到明年，而AMD現在就開始出貨7nm工藝的高性能桌面版處理器了，64核的EYPC羅馬處理器也會下半年出貨。

正是因為這一點，此前有華爾街分析師稱讚AMD在7nm 銳龍3000處理器上打了一個翻身仗，這是十多年來AMD首次在工藝及性能上首次全面超越Intel，絕對是歷史性時刻。

第三代銳龍的Chiplets設計：CPU/IO核心分離解決延遲成關鍵

儘管AMD成功地在銳龍3000處理器上使用了7nm工藝，但是說它是7nm芯片也有點不准確，實際上銳龍3000是7nm混合12nm工藝，這跟它的模塊化設計有關。

在7nm節點，設計一款芯片的費用高達3億美元，對AMD來說成本也是非常高的，這就需要廠商採用更好的方式來確保芯片的良率，芯片越大良率就越低，芯片越小良率就有可能越高。

在Zen 2架構處理器上，AMD就使用了Chiplets小芯片的設計思路，通過模塊化來組合不同核心的處理器。Chiplets設計不同於以往的膠水封裝，本質上是把不同工藝、不同架構的芯片電路按需搭配，比單純的膠水封裝要高明，也要復雜。

在去年推出的第一款Zen 2架構的處理器——EPYC羅馬上，AMD就率先應用了這種設計方式，8組CPU核心、1組IO核心堆出了64核處理器。在銳龍3000上，桌面版不需要這麼多核心，使用的2組CPU核心層、1組IO核心，最多16核32線程。

具體來說，就是圖中上面2組CPU核心是7nm工藝製造，因為CPU核心對性能要求高，對功耗也敏感，提升工藝對CPU核心來說大有裨益，好鋼要用在刀刃上。

下面的IO核心整合了內存控制器、PCIe控制器等IO單元，這部分電路對性能、功耗要求沒那麼高，而且IO單元並不容易隨著工藝微縮，所以使用的是相對低端的工藝——之前說是14nm，不過銳龍3000上的IO核心是改良版的12nm工藝。

AMD在Zen2上採用這樣的設計無疑是很聰明的做法，配置也非常靈活，提升CPU核心數量就堆CPU模塊即可，所以銳龍處理器可以從之前的8核16線程輕鬆變成16核32線程。此外，AMD這樣做也需要生產小核心，提高了良率，降低了成本，而且IO核心使用的還是更成熟的12nm工藝，進一步削減了成本。

當然，有得必有失，Chiplets設計的好處多多，但缺點也明顯，那就是如何處理好核間的連接，特別是內存主控分離出來之後，內存的延遲理論上要增加，肯定是不如原生多核的，AMD怎麼解決這個問題的呢？

首先是改進Infinity Fabric總線（簡稱IF），IF總線是Zen架構上的基礎技術之一，它連接了Zen架構中的CCX模塊，現在也用於鏈接不同的CPU、IO核心模塊。

在銳龍3000處理器上，IF總線進化到了第二代，在並行、延遲及能效上全面改進，總線位寬從256b升級到了512b以便支持PCIe 4.0，同時將Fclk與Uclk頻率去耦合解鎖以提高內存超頻性能，並採取多種方式降低內存延遲、提高緩存速度以減少延遲帶來的影響。

除了IF總線的改進之外，AMD還發了一個大招——L3緩存翻倍，每個CCX單元的L3緩存容量從之前的8MB提升到了16MB（7nm工藝的密度優勢就是任性），這樣一來對延遲敏感的應用就可以更多地以來L3緩存而內存，AMD稱此舉使得等效內存延遲減少了33ns，遊戲性能提升了21%。

此外，AMD憑藉IO核心分離還提高了內存的頻率，之前的銳龍支持的內存頻率不過2933MHz，現在可以輕鬆達到4000+，號稱一鍵超頻到4200MHz，高者可達DDR4-5133Mhz。

對於內存頻率，如果追求極限低延遲，頻率高了也不一定好，這也跟IF總線的工作模式有關，雖然它跟內存頻率分離了，但1：1情況下延遲還是最低的，分界點就是DDR4-3733，這時候內存延遲是最低的，而AMD官方推薦的是DDR4-3600 CL16模式，對當前的內存來說這個頻率、時序也很輕鬆能達到。

第三代銳龍的Zen2架構詳解：一切為了更高的吞吐量

如果大家還記得銳龍7 1800X首發時的情景，那麼對Zen架構的SMT多線程、CCX單元、IF總線等創新應該還有印象，而銳龍3000的Zen2架構也繼承了這些優點，只不過Zen2中IO相關的分離了，CPU核心變得更純粹，總體方向就是提升核心數以加倍多線程性能，同時最大可能提升單核性能。

在銳龍3000中，CPU與IO核心分離之後可以有多種搭配，比如1組CPU搭配1組IO核心，這樣最多是8核16線程，還有就是2組CPU核心搭配1組IO核心，這樣最多16核32線程，這也是目前銳龍9 12核及16核處理器實現的根基。

在14nm Zen架構中，1個CCX單元的總面積是60mm2，其中CPU核心44mm2，8MB L3緩存是16mm2，算上其他IO、內存主控、IF等單元，8核處理器的核心面積是213mm2。

在Zen 2架構中，一個chiplets芯片的總面積才74mm2，其中CCX+16MB L3緩存的核心面積才31.3mm2，同比減少了47%，一方面是因為7nm工藝的密度優勢，一方面也跟Zen2的CCX只有CPU核心有關，減少了IO單元。

這裡也可以解釋為了降低延遲AMD為什麼敢於大幅加倍L3緩存的原因了，每個CCX翻倍到16MB L3緩存後CCX核心面積依然減少一半左右，何樂而不為呢。

整個Zen2架構來說，它繼承了SMT多線程技術，同時在分支預測、緩存系統、整數、浮點等單元上做了改進，並加入了新的指令，目的就是進一步降低延遲帶來的影響。

在緩存系統上，Zen 2的L3緩存翻倍，L2緩存維持512KB 8-Way不變，L1緩存有所調整，指令緩存容量64KB減少到了32KB，但關聯性從4-Way變成了8-Way ，而且Micro-Op緩存翻倍，AMD這樣做顯然是想取得一種性能與節能、面積之間的平衡。

預取單元中，AMD提高了分支預測的精度，加大了BTB（分支目標緩衝器）容量，優化了32KB L1緩存，最主要的則是加入了TAGE分支預測器，最終使得分支預測的誤命中率減少了30%，提升了命中精度以減少能耗、提高性能。

解碼單元中，主要是改進了micro-op微操作緩存，容量從2K翻倍到4K，可以支持更多的解碼操作。

浮點單元是Zen 2架構中變化比較大的部分，在去年的EPYC羅馬處理器中AMD就表示浮點性能吞吐量翻倍，原因就在於完全支持了AVX2指令，位寬從128bit提升到了256bit，這樣不用再將以往的256bit指令拆分為兩個指令用兩個週期執行了，實現了浮點性能翻倍。

整數執行單元中，調度器從84個增加到了92個，物理寄存器從168個增加到了180個，從每週期6發射提升到了7發射，總體來說這方面的改進更多地是量變，進一步優化執行單元的效率及執行速度。

載入/存儲單元中，同樣是提升隊列的深度，提升TLB緩存容量，提升帶寬，降低延遲，最主要的是帶寬從每週期的16B翻倍到了32B字節。

緩存一致性上，前面已經介紹過了L1、L2、L3緩存的變化了，其中L2緩存不變，L3緩存翻倍，L1指令緩存減半，但關聯性翻倍。

Zen2架構中還增加了一些新的指令，比如CLWB、WBNOINVD、QOS等，不詳細解釋了，這些指令主要跟內存、緩存有關，主要目標還是提高緩存性能、降低延遲，它們主要是給EPYC處理器準備的，銳龍3000消費級處理器支持這些指令主要還是沾光。

最後值得一提的是處理器的安全性，由於後發優勢，Zen2架構在安全性、漏洞防護等問題上更具優勢，Zen架構上就已經免疫了多個Spectre幽靈、Meltown熔斷等變種漏洞， Zen2架構上進一步硬件免疫了幽靈漏洞變種，這點對消費級處理器來說影響不大，但對企業級用戶來說很重要。

第三代銳龍的終極目標：要多核還要單核更要能效、低溫

不論是7nm工藝還是Chiplets設計，亦或者是Zen 2微內核架構，AMD在霄龍、銳龍處理器上追求的目標不外乎性能、能效，結合之前處理器表現出來的優勢及槽點，具體來說就是繼續保持多核性能優勢、提升單核性能、提高能效、降低功耗及發熱，還有就是更低的成本，不過售價這方面還跟市場有關，要看具體產品，這裡先不談了。

在性能這點上，AMD在7nm Zen2上追求的是性能提升，首先是IPC性能，在從推土機架構到Zen架構上，AMD實現了52%的IPC性能提升，不過那個有特殊加成，但從Zen到Zen2上，AMD表示他們也實現了15%的IPC性能提升，這點就難能可貴了，畢竟現在的高性能CPU架構提升越來越難，以往Intel產品提升5%的IPC性能就算不錯了。

其次，AMD還要實現更高的頻率，銳龍一代、二代處理器在這方面就吃過虧，加速頻率也就4.3GHz而已，相比Intel已經實現的5GHz加速頻率差了很遠，導致AMD在單核性能上吃虧不少，遊戲性能也因此落敗。

在7nm Zen2上，AMD總算有了突破，銳龍9 3900X 12核處理器的加速頻率也達到了4.6GHz，16核的銳龍9 3950X更是達到了4.7GHz頻率，而且AMD表示他們的加速頻率不單單是追求單核最高頻率，可能的情況下更願意讓多個核心達到加速頻率，這樣一來性能會更強。

綜合IPC性能及頻率的提升，AMD在銳龍3000上終於實現了單核性能的大進步，官方數據顯示單線程性能提升了21%，考慮到銳龍一代、二代上單核性能與Intel酷睿處理器最大的差距也不過20%左右，這次的提升足以讓AMD在單核性能上追平甚至超越Intel酷睿。

與此同時，AMD一直有優勢的多核性能上還會繼續保持，銳龍3000上最大核心數翻倍到了16核32線程，隨著核心增加多核性能也基本保持了線性增長，6核12線程的處理器CINBEBCN R20多核跑分是3678，12核24線程的銳龍3000就是7248分，基本上就是同步增長的。

更重要的是，在性能增長的同時AMD反而降低了處理器的功耗，每瓦性能比要比目前的銳龍7 2700X以及Intel的酷睿i7-9700K處理器有了50%到70%的增長，銳龍7 3700X的絕對功耗反而從前兩者的195W、157W降至135W，能效表現讓人刮目相看。

考慮到銳龍7 2700X以及Intel的酷睿i7-9700K處理器都是14nm工藝水平的，7nm的銳龍3000處理器在能效上有兩代工藝的差距，官方稱同性能下功耗降低了50% ，能效上可以說是降維打擊。

伴隨著能效的提升，AMD的銳龍3000處理器在發熱上也很有優勢，Intel的6核、8核酷睿處理器發熱之高讓很多玩家不爽，但銳龍7 3700X要冷靜的多，這個優勢在銳龍一代、二代上就已經如此了。

除了硬件上的改進，AMD在優化方面也跟上來，銳龍3000處理器就得到了微軟的支持，在最新的Windows 10 5月更新（1903版）上，它也支持了AMD處理器的快速CPU狀態切換功能，涉及到一些突發工作負載時，銳龍3000處理器的頻率提升時間從30毫秒減少到了1-2毫秒，簡單來說就是在需要的時候可以更快速度提升頻率，這樣就可以提升應用程序的響應速度，AMD表示PCmark 10的啟動時間就縮短了6%，Rocket League遊戲的啟動時間更是減少了15%。

第三代銳龍的完美搭配：X570芯片組+PCIe 4.0帶寬

在處理器之外，不得不說的還有全新一代X570芯片組，相比以往的芯片組由祥碩操刀設計，這次的X570是AMD親自上陣，為的就是實現PCIe 4.0技術支持，而且不惜成本地上了14nm製程工藝。

與PCIe 3.0相比，PCIe 4.0的速率從8GT/s提升到了16GT/s，帶寬翻倍提升。主要優點如下：
①速度更快，x16雙向帶寬達到了32GB/s，是PCIe 3.0的兩倍。
②向下兼容，PCIe 4.0也能兼容PCIe 3.0設備。
③更多連接，PCIe 4.0帶寬高，1條頂2條，可以連接更多設備而不需要擔心性能下降。

PCIe 4.0在消費級平台上目前還是AMD X570/銳龍3000的獨家功能，所以群聯、慧榮等公司推出的PCIe 4.0主控以及廠商的PCIe 4.0硬盤要想發揮威力，AMD平台是首選，可以將SSD的讀寫性能提升到5GB/s級別，未來還可以進一步提升到6.5GB/s。

此外，X570平台除了PCIe 4.0之外，其他SATA、USB 3.1 Gen2、NVMe等標準也要比Intel的Z390平台更好，擴展接口數量更多，搭配更靈活，所以在X570平台上，AMD及主板廠商有了打造頂級平台的底氣，這一點也是跟以往300、400系芯片組最大的不同，有先進技術就能任性。

當然，考慮到PCIe 4.0目前比較少支持，不追求極限性能的話大家完全可以選擇X470、B450等平台，AMD之前也確認過了，除了PCIe 4.0支持之外，其他平台上銳龍3000處理器的性能也是一樣的，不會受影響的。

總結：從優秀到卓越，第三代銳龍各種優點“我全都要”

從AMD的7nm Zen2架構設計來看，AMD在這一代處理器上可以說志向遠大，不論單核還是多核性能，或者是能效、溫度、成本，AMD的目標簡直就是什麼都要。

沒錯，銳龍3000處理器上AMD表現出來的就是各種優勢都要佔盡，不給友商留活路的感覺，通過先進的7nm工藝、獨特的Chiplets小芯片、全面改進的Zen2架構實現了性能、能效的同步增長，而且以往最弱的單核性能這次也追上來了。

對於銳龍3000處理器的性能，AMD的官方測試展示了很多了，不過我們這裡不打算詳細列舉了，上面這張圖就是綜合代表了，單核、多核性能都要比Intel的酷睿i9處理器要強。