NVIDIA GeForce GTX 1080 Ti顯卡首發(fā)深度圖解評測+拆解

2020-07-19 19:10:26

字體：大中小

供稿：網(wǎng)友

　　對極致性能的追求可謂是顯卡界的主旋律，就像運動員刷新世界紀(jì)錄一樣，每一次的顯卡性能紀(jì)錄刷新都能讓玩家和從業(yè)者內(nèi)心澎湃。隨著Pascal顯卡家族的誕生，業(yè)界的最強神話在短短一年不到的時間里一次又一次地被打破，我還記得去年5月老黃手舉GTX 1080大聲宣布：“a new king borned!”；我也記得去年7月，老黃在斯坦福大學(xué)的AI會議上公布NVIDIA TITAN X時驕傲的笑容；就在本月，最強游戲顯卡的紀(jì)錄再次刷新，新卡皇在本月初正式降臨！

精益求精的執(zhí)著 GTX 1080 Ti首發(fā)測試

　　2017年3月1日，NVIDIA發(fā)布了玩家們期待已久的GeForce GTX 1080 Ti顯卡，老黃在GDC 2017大會上明確聲稱，該卡的性能強于NVIDIA TITAN X，是“Ultimate GeForce”，翻譯過來就是最強最極致的GeForce顯卡。在GTX 1080 Ti未發(fā)布之前，很多人以為該卡會在NVIDIA TITAN X的基礎(chǔ)上再削減一部分流處理器來區(qū)分定位，但意外的是，GTX 1080 Ti同樣擁有3584個CUDA處理器，核心上一刀未動，可謂是開創(chuàng)了X80 Ti和TITAN間關(guān)系的先河。

精益求精的執(zhí)著 GTX 1080 Ti首發(fā)測試
GP102-350核心和二代G5X顯存

　　畢竟GTX 1080 Ti還是要比TITAN X low一些的，因此NVIDIA破天荒地閹割掉了1GB顯存以區(qū)分定位，與之對應(yīng)的，顯存位寬減少了32-bit、ROPs單元少了8個、L2少了256KB?？赡苁羌屹Y歷尚淺，我從來沒見過這種“閹割”方式，11GB的顯存也算是活久見了，不得不讓人懷疑GTX 1080 Ti是不是老黃臨時趕工，把TITAN X少焊一顆顯存便當(dāng)成GTX 1080 Ti賣了。機智的老黃顯然會猜到我們這么想，所以老黃在會上說，GTX 1080 Ti只是性能上強于TITAN X？乃們太天真了！

精益求精的執(zhí)著 GTX 1080 Ti首發(fā)測試
“就問你怕不怕？”（設(shè)計臺詞）

　　當(dāng)然，老黃原話肯定不是這么說的，不過想表達(dá)的意思確實是GTX 1080 Ti對比TITAN X是全方位的提升，那么此話怎講？老黃在會上稱，GTX 1080 Ti使用了第二代G5X顯存，經(jīng)過優(yōu)化后頻率從10GHz上升至11GHz；供電部分也得到了強化，采用全新7相雙FET設(shè)計，這使得整卡性能和超頻潛力要遠(yuǎn)大于TITAN X；散熱方面，GTX 1080 Ti搭載了全新設(shè)計的真空腔均熱板，照比之前散熱面積擴大了一倍，同GTX 1080比同溫下噪音降低2.5dB，同噪音下溫度降低5℃。

精益求精的執(zhí)著 GTX 1080 Ti首發(fā)測試
GeForce GTX 1080 Ti Founders Edition

　　如此多的改進表明了NVIDIA的誠意，那些觀望許久的高端玩家們已經(jīng)準(zhǔn)備好入手這款新旗艦，不過與此同時，那些已經(jīng)購買了GTX 1080和NVIDIA TITAN X的玩家們則表達(dá)出了強烈的不滿。新旗艦的發(fā)布自然會導(dǎo)致老旗艦的降價，老黃宣布GTX 1080下調(diào)100美元，在國內(nèi)的反應(yīng)便是非公版GTX 1080的售價普遍下調(diào)了1000元人民幣，那些年初購買GTX 1080的玩家們簡直上吊的心都有了。NVIDIA TITAN X作為信仰級顯卡，售價高達(dá)9499元，性能做工等各方面卻都落后于GTX 1080 Ti，這讓購買了TITAN X的資深N飯們深深地體會到了什么叫“信仰被無情地踐踏”。

GeForce GTX 1080 Ti顯卡開箱視頻

　　盡管AMD Ryzen是現(xiàn)在PC界最受關(guān)注的對象，但GTX 1080 Ti的發(fā)布搶了Ryzen不少風(fēng)頭，可見玩家們對這款新旗艦是非常感興趣的。相信正在看這篇文章的你一定非常想知道測試的結(jié)果，所以我就先給大家透個底：GTX 1080 Ti的綜合性能的確超越了TITAN X，但并不是每一項測試都勝過后者。此外，吉吉我會在本文結(jié)尾向大家詳細(xì)闡釋NVIDIA讓GTX 1080 Ti勝過NVIDIA TITAN X的意義以及本人根據(jù)小道消息的一些猜想。那么GTX 1080 Ti究竟超越GTX 1080和NVIDIA TITAN X多少，又是哪些測試不敵前任游戲卡王？就讓我們一起揭曉答案吧！

　　Attention！為了感謝各位讀者長期以來的厚愛，吉吉我將會抽取評論區(qū)的三位幸運讀者，分別送出NVIDIA紀(jì)念鼠標(biāo)墊一個、NVIDIA平板支架一個和NVIDIA多功能雙肩電腦包一個，望大家踴躍參與評論，說出你對NVIDIA新旗艦的看法。

　　具體規(guī)則為：截至文章發(fā)布24小時為止，在第180樓、380樓和580樓回復(fù)的網(wǎng)友獲獎，每個ID僅能獲獎一次，禁止連續(xù)回復(fù)三次以上，一經(jīng)發(fā)現(xiàn)將取消該ID獲獎資格，獎品順延至下一符合要求的樓層。

GP102-350核心解析

　　GeForce GTX 1080 Ti采用全新16nm制程的Pascal架構(gòu)，核心代號為GP102，具體型號為GP102-350-K1-A1，而NVIDIA TITAN X的核心代號為GP102-400-A1。GP102核心面積約為471平方毫米，得益于16nm的制程優(yōu)勢，核心內(nèi)集成了12億晶體管，是GTX 980 Ti晶體管數(shù)量的1.5倍，核心面積卻僅為GTX TITAN X的78.4%。

注：表中售價均為官方首發(fā)限價

　　基于Pascal架構(gòu)的GP102-400芯片運算資源總量為3584個ALU，于GP102-400相同；GP102-350的TMUs數(shù)量為224個，后端的ROPs數(shù)量為88個，5個帶寬為64bit的雙通道顯存和1個帶寬為32bit的單通道內(nèi)存控制器組成了總量為352bit的顯存控制單元，大小為11GB。同NVIDIA TITAN X相比，其各項參數(shù)基本相同，不過顯存位寬下降32-bit，顯存帶寬從505GB/s下降至484GB/s，ROPs單元數(shù)量也下降了8個。

地球最強單芯卡王 NVIDIA TITAN X首測
GP102-350架構(gòu)圖

　　我們可以看到，GTX 1080 Ti的默認(rèn)核心頻率為1480MHz，Boost頻率為1582MHz，比NVIDIA TITAN X的頻率要高出60MHz左右，其中顯存頻率提升較大，由于G5X顯存升級換代，等效頻率提高了足足1GHz，因此單精度浮點運算性能比后者還要高出0.5 TFLOPS。GTX 1080 Ti的默認(rèn)Pixel Fillrate能力達(dá)到了142.2Gpiexls/S，默認(rèn)Texture Fillrate能力為331.5Gtexels/S，照比NVIDIA TITAN X均有所降低。最后需要說明的是，在TDP相同的情況下，GTX 1080 Ti擁有11.5 TFLOPS的超高單精度浮點運算能力，照比GTX 980 Ti提升了80%，能耗比驚人，為目前單精度浮點運算性能最高的單芯游戲顯卡。

精益求精的執(zhí)著 GTX 1080 Ti首發(fā)測試
新老“X80 Ti”顯卡詳細(xì)參數(shù)對比

　　Pascal架構(gòu)GP104-350芯片由以下主要的部分組成：

　　1、基于TSMC的16nm FinFET Plus工藝，相比28nm HPM提升了65%的性能或者減少了70%的能耗，同時晶體管密度翻倍。

　　2、6單元的宏觀并行結(jié)構(gòu)，30組SMs單元被分為6個GPC，每個GPC包含5組SMs，但砍掉了2組SMs單元，因此總量為28個，相對應(yīng)地，紋理單元縮減為224個。

　　3、28組全新設(shè)計的，包含了幾何引擎、光柵化引擎以及線程仲裁管理機制的SMs單元。每個SMs單元包含一組負(fù)責(zé)處理幾何任務(wù)需求的PolyMorph Engine，同時均下轄5組更基本的SM單元，每個SMs單元包含8個負(fù)責(zé)處理材質(zhì)以及特種運算任務(wù)如卷積、快速傅里葉變換等的Texture Array，四組并行的二級線程管理機制以及對應(yīng)的shared+Unified Cache等緩沖體系。

　　4、GP102-350擁有11個32位顯存控制器，總計352位，每個32位顯存控制器包含8個ROPs單元和256KB二級緩存，共計88個ROPs單元和2816KB二級緩存。

　　5、改進型的4.0版本PolyMorph Engine，包含了為VR設(shè)計的The Simultaneous Multi-Projection Engine，在極端情況下，SMP引擎可以減少32倍VR所需的幾何渲染工作量。

精益求精的執(zhí)著 GTX 1080 Ti首發(fā)測試

新一代GDDR5X顯存

　　為了進一步提高性能，GeForce GTX 1080 Ti配備了以11 Gbps運行的新一代GDDR5X顯存，這是目前顯存所能達(dá)到的單端IO信號傳輸?shù)淖羁焖俣?。NVIDIA與顯存供應(yīng)商傾力協(xié)作，改進顯存的數(shù)據(jù)通道，使用先進的均衡技術(shù)減少物理接口的不利影響，并使抖動和噪聲達(dá)到最小，實現(xiàn)更高的數(shù)據(jù)傳輸速率。

精益求精的執(zhí)著 GTX 1080 Ti首發(fā)測試

　　上圖為顯存工作時的數(shù)據(jù)眼圖，左側(cè)的圖像顯示了以11 Gbps運行的原始GDDR5X顯存，右側(cè)為新一代GDDR5X@11 Gbps顯存，我們可以看到，左圖采樣數(shù)據(jù)的中心與轉(zhuǎn)換中的數(shù)據(jù)混淆在一起，因此無法可靠地捕獲數(shù)據(jù)，而右圖顯示新的GDDR5X顯存具有顯著改進的數(shù)據(jù)眼，結(jié)合Pascal強大的IO設(shè)計，使顯存IO速度達(dá)到了一個新高度。

圖塊緩存技術(shù)（Tiled Caching）

　　NVIDIA最新的GPU采用了旨在放大原始內(nèi)存帶寬并為GPU核心提供更高有效內(nèi)存帶寬的技術(shù)，該技術(shù)被稱為區(qū)塊緩存。傳統(tǒng)的渲染架構(gòu)分為兩種，高端桌面級GPU使用的是立即式渲染器，如左圖所示；絕大多數(shù)移動級GPU使用的是圖塊式渲染架構(gòu)，如右圖所示：

精益求精的執(zhí)著 GTX 1080 Ti首發(fā)測試
傳統(tǒng)渲染架構(gòu)

　　在立即式渲染架構(gòu)中，輸入命令列表中的每個命令按序執(zhí)行并完成，例如當(dāng)輸入三角形時，在開始下一個三角形的繪制之前先繪制之前的整個三角形。此架構(gòu)的優(yōu)勢包括只讀取一次輸入的幾何數(shù)據(jù)，并且能夠在復(fù)雜輸入時節(jié)約資源。缺點是在具有高透明度的區(qū)域中，相同的像素被多次讀取和寫入，增加了存儲器帶寬的消耗。

　　圖塊式渲染器的工作原理是屏幕被分成許多單獨的區(qū)塊，并且進行兩次渲染，第一次處理幾何數(shù)據(jù)并確定每個三角形覆蓋哪些區(qū)塊，并將該信息寫入DRAM；第二次為每個區(qū)塊再添加幾何列表，每次一個區(qū)塊，在移動到下一個區(qū)塊之前渲染完成之前的區(qū)塊。這樣做的好處是所有渲染都在芯片內(nèi)發(fā)生，最終只有顏色信息被寫入DRAM。

精益求精的執(zhí)著 GTX 1080 Ti首發(fā)測試
圖塊緩存技術(shù)

　　與立即式渲染相比，圖塊式渲染有兩個明顯的限制：首先，對于合并通道的需求增加了數(shù)據(jù)延遲和復(fù)雜性；第二，保存和讀取合并通道信息所需的顯存帶寬是與渲染場景中幾何形狀的量成正比，如果每像素帶寬節(jié)省超過合并帶寬量，則圖塊渲染是相對節(jié)省帶寬的。對于那些相對簡單，幾何復(fù)雜度低的場景，例如移動端游戲是可行的，但對于具有豐富幾何形狀的桌面級游戲，圖塊式渲染對帶寬的需求可能要比立即式渲染更高。

精益求精的執(zhí)著 GTX 1080 Ti首發(fā)測試
圖塊式渲染與立即式渲染對比

　　從Maxwell架構(gòu)開始，NVIDIA便一直都在使用不同于以上兩種傳統(tǒng)渲染方式的渲染技術(shù)，其名為“圖塊渲染”，這種技術(shù)在Pascal架構(gòu)中演變得更加成熟。這種渲染技術(shù)的基本理論是“化整為零”，將整個屏幕劃分為一個個16*16或者32*32的小區(qū)域，然后以每一個小區(qū)塊為基礎(chǔ)對整個畫面進行光柵化處理。Maxwell和Pascal GPU可以動態(tài)地評估每個幀所需的圖塊大小，根據(jù)場景的復(fù)雜度隨時調(diào)整。

精益求精的執(zhí)著 GTX 1080 Ti首發(fā)測試
圖塊緩存的優(yōu)勢

　　“化整為零”的好處是GPU需要處理的單位畫面數(shù)據(jù)變少，也就是說待渲染數(shù)據(jù)可以被暫時存儲在GPU的L2高速緩存當(dāng)中。這意味著GPU不必在更大、更慢的顯存池中大海撈針，從而減少了顯存系統(tǒng)的負(fù)載，增加可用于其他任務(wù)的可用顯存，同時加速渲染速度和渲染質(zhì)量。此外，這種圖塊化的渲染方式也很符合GPU的并行運算邏輯，GPU可以根據(jù)可用資源同時處理許多獨立的圖塊，在多路顯卡系統(tǒng)中的優(yōu)勢更加明顯。

　　從上面的解釋中我們不難看出，圖塊渲染的核心就在于L2緩存，更大的L2緩存將能夠提供更多的渲染畫面數(shù)據(jù)存儲，于是我們看到由Kepler升級至Maxwell時，L2緩存被增加了8倍，從256KB大幅攀升至2MB，而從Maxwell升級至Pascal時，GP102核心L2容量達(dá)到了3MB，再次大幅提升。

顯卡拆解賞析

　　從外形上可以看出，除了其散熱器外殼、顯卡名稱和散熱鰭片顏色互相對調(diào)以外，其他地方GTX 1080 Ti和NVIDIA TITAN X是相同的。

對極致的不懈追求 GTX 1080 Ti首發(fā)測試
顯卡正面外觀