W
Wayne7 個月前

【輕科普】帶你從0開始認識顯示卡是怎麼工作的,性能以及選購懶人包?


這是你最近在玩的電腦遊戲。形態各異的建築,細節豐富的車輛,一切都很真實。它們的本質其實是一個個不同位置的點。這些頂點在空間中相互連成線,形成無數個三角面,再經過貼圖、光照、著色等複雜的渲染過程,最終形成了我們看到的精美畫面。從三角形的生成,再到圖像的輸出,其中每一個步驟都需要顯示卡。作為電腦裡電晶體數量最多的核心元件,顯示卡有哪些結構,又是如何工作的?今天我就以ROG Strix GeForce RTX™ 4080為例,帶你從零開始認識顯示卡。

顯示卡的正面是用於散熱的風扇,底部的黃色長條是用來傳輸資料的PCIE介面,側面是裝飾用的LOGO和供電介面,而尾部則是用來連接顯示器的video介面。顯示卡通常會以側插的形式安裝在主機板上,此時風扇會朝向主機殼底部,video介面則會出現在主機殼尾部。從主機殼的側面觀察,我們通常只能看到顯示卡的側面和背板。在顯示卡側面靠右的位置是顯示卡的外接供電介面,與電源連接以後可以為顯示卡提供充足的供電。之前大部分顯示卡都在使用8PIN PCIE供電介面,能提供225W左右的供電。高功耗顯示卡則需要使用多個8PIN才能滿足要求。這張4080猛禽使用了最新的12V-2*6介面,體積十分的小巧,單個介面即可提供高達600W的供電。ASUS也設計出了無需外接供電的顯示卡,可以直接從主機板取電,安裝以後會更加的簡潔、美觀,但要搭配特定的主機板或者轉接頭才能使用。這張顯示卡在滿載時的功耗可以達到360W。

顯示卡的正面是用於散熱的風扇,底部的黃色長條是用來傳輸資料的PCIE介面,側面是裝飾用的LOGO和供電介面,而尾部則是用來連接顯示器的video介面。顯示卡通常會以側插的形式安裝在主機板上,此時風扇會朝向主機殼底部,video介面則會出現在主機殼尾部。從主機殼的側面觀察,我們通常只能看到顯示卡的側面和背板。在顯示卡側面靠右的位置是顯示卡的外接供電介面,與電源連接以後可以為顯示卡提供充足的供電。之前大部分顯示卡都在使用8PIN PCIE供電介面,能提供225W左右的供電。高功耗顯示卡則需要使用多個8PIN才能滿足要求。這張4080猛禽使用了最新的12V-2*6介面,體積十分的小巧,單個介面即可提供高達600W的供電。ASUS也設計出了無需外接供電的顯示卡,可以直接從主機板取電,安裝以後會更加的簡潔、美觀,但要搭配特定的主機板或者轉接頭才能使用。這張顯示卡在滿載時的功耗可以達到360W。

早期的顯示卡採用下壓式風扇設計,從風扇面進風,從側面出風。現代顯示卡為了提高散熱效果,會採用貫穿式風道設計,熱量可以直接從背板的隔柵處排出。4080的風扇還使用了特殊的設計,中間的風扇與左右兩側的風扇旋轉方向不同,保證風扇之間的氣流方向相同,從而更高效的排出熱量並降低噪音。散熱模組保證了顯示卡能在舒適的溫度下運行,而這張小巧的電路板才是顯示卡的本體。排除掉一些零散的電容和晶片,我們可以把這塊電路板從外往裡劃分成四個部分:介面、供電、顯示卡記憶體以及GPU。GPU相當於顯示卡的大腦,負責幾乎所有的運算任務。要注意GPU並不等於顯示卡。GPU通常指的是最中間的這塊晶片,而顯示卡指的是包括晶片、顯存、供電、介面、電路板以及散熱模組的整體。GPU晶片主要由Intel、AMD和NVIDIA三家廠商供應,而我們熟知的華碩等AIC廠商主要完成的是電路板與散熱的設計和生產。就像主機板上所有的元器件都是為CPU服務一樣,顯示卡電路板上的所有元器件也都是為GPU而服務的。Video介面讓顯示卡可以直接把運算好的圖像發送給螢幕顯示。這張4080猛禽搭載了兩個HDMI 2.1和3個DP 1.4介面。不同版本的video介面能承載的解析度和刷新率也不同。

Pcie介面讓顯示卡能夠通過主機板和CPU、記憶體等其他元器件交互資料。它的資料傳輸能力和版本以及規格有關。比如說,這張4080用的就是PCIe 4.0×16介面。在主機板同樣支援PCIe 4.0的情況下,單條4.0通道每秒可以傳輸2GB的資料,16條總共可以傳輸每秒32GB的資料。供電模組保證了顯示卡有充足的電力分配。它們分佈在GPU和顯存的週邊,由PWM晶片、電容、電感和MOS管組成。電源會從右上方的供電介面輸入,正12V的供電之後再由供電模組降壓至1.1V與1.35V輸送給GPU與顯示卡記憶體。這張RTX 4080採用直出供電的設計,一個MOS管和一個電感就是一個供電項,總共有18項70A的GPU供電和3項50A的顯示卡記憶體供電。即使顯示卡滿載運轉,也能提供持續穩定的電能。CPU在計算時需要把資料臨時存放在記憶體裡,而高速運行的GPU同樣需要把資料暫存在顯示卡記憶體裡。GPU周圍黑色的小方塊就是顯示卡記憶體。這塊4080使用的是最新的GDDR6X顯顯示卡記憶體存,頻率1400MHZ,每顆記憶體都是2GB的容量,32bit的位元寬,8顆一共16GB。256bit總頻寬是由頻率、位元寬還有顯存類型共同決定的。顯示卡記憶體的頻率代表1秒鐘可以傳輸多少個週期,位元寬代表顯示卡記憶體一次可以傳輸的資料量。GDDR6X顯示卡記憶體每個週期內可以傳輸16倍的資料,把它們相乘,再把比特換算成BYTE以後就得到了716.8GB/每秒的總頻寬。總頻寬代表顯存每秒能傳輸的資料量,一般來說,遊戲的解析度越高,貼圖和模型越精緻,對顯示卡記憶體容量和頻寬的要求就越高。但在顯示卡記憶體夠用的情況下,顯示卡的性能還是由顯示卡的核心GPU來決定。

這張RTX 4080顯示卡搭載的GPU晶片叫做AD103-301,它使用的是英偉達最新的Ada Lovelace架構,面積只有379平方毫米,不過一個礦泉水瓶蓋大小,但內部卻集成了整整459億顆電晶體。之所以能有這麼高的電晶體密度,靠的是台積電先進的5奈米光刻工藝。台積電會根據英偉達的設計方案,在一塊12英寸的矽晶圓上通過複雜的生產工藝刻蝕出複雜的電路圖案。數量龐大的電晶體在GPU的內部組成了複雜的電路結構,就像一座微縮的城市。其中大部分的電路都可以用於圖形運算。我們一般會用一張簡化圖來觀察GPU結構,主要由SM(流式多處理器)、L2緩存、NVENC視訊轉碼器、NVDEC視頻解碼器、顯存控制器和PCIe控制器構成。SM流式多處理器佔據了GPU的大部分面積,它負責了幾乎所有的圖形運算。這顆AD103-301核心裡一共有76組SM單元,每組SM單元裡包含128個串流處理器,總共9,728個串流處理器。英偉達把這些串流處理器叫做CUDA核心。顯示卡的CUDA核心數量越多、頻率越高,性能就會越強。如果把每組SM類比成一個CPU核心,那麼這顆GPU就相當於一顆76核、9,728執行緒的處理器。不過,CPU核心就像經驗豐富的數學家,能處理更加複雜的任務;而GPU核心更像是只會四則運算的小學生,適合做簡單的變形計算。在AI模型的訓練和推理、3D遊戲裡的圖形渲染,都是需要這樣大量簡單計算的場景,顯示卡核心的數量優勢就比CPU核心的品質優勢更加有效率。

要理解為什麼顯示卡更適合這樣的運算,我們就需要瞭解一下遊戲畫面到底是如何渲染的。接下來就讓我們吞下藍色小藥丸,一同進入the Matrix,認識圖形渲染的基本流程。這是空間中的一個頂點,兩個頂點可以連成一條線,三個頂點能組成一個三角面,千千萬萬個三角面就構成了一個精美的模型。真實的物體還需要更多的色彩和細節,所以還要給模型加上貼圖。在三維空間中,每個模型都有自己的位置,模型上所有的頂點都有對應的座標,而無數個帶座標的模型共同構成了這個世界。想要觀察這個世界,我們還需要一個虛擬攝影機,只有位於攝影機視野範圍內的模型才會被渲染出來。同時,這些模型相對於攝影機的位置也會被重新計算,得到新的座標值。攝影機所捕獲到的這些畫面實際上是一個二維平面,三維空間中的模型需要通過投影的方式映射到這個平面上。最後,我們需要將這個二維畫面顯示在由圖元點構成的螢幕上。為了獲得最終的渲染效果,我們還需要對每個圖元點的紋理、光照和顏色等屬性進行單獨計算。經過這一系列複雜的運算,才能最終生成一幀在螢幕上顯示的圖像。在這個計算的過程中,構成三角面的頂點座標會精確到小數點後7位元,轉換成電腦能理解的二進位,就是32位元0和1,總稱這個叫做FP 32,即單精確度浮點數。流暢的畫面需要每秒30幀甚至60幀以上的圖像,而每一幀都需要大量精確的數學計算。每秒鐘能算的次數就是單精確度浮點算力,可以用來衡量圖形渲染的性能。RTX 4080的GPU核心可以讓9,728個CUDA核心同時進行單精確度浮點計算,在2,800MHZ的頻率下,可以提供大約54 TFLOPS的單精確度浮點算力,意味著每秒鐘可以計算54萬億次。而像某高端CPU,FP32的算力也只有2.5TFLOPS。對比之下,你就會發現GPU比CPU更加適合圖形渲染。

單精確度浮點主要影響的是遊戲圖像的渲染性能。在這顆4080的GPU核心中,所有的CUDA核心都能計算單精確度浮點數。除了能計算FP32之外,同時向下相容精度更低的半精度浮點FP16和1/4精度浮點FP8,但只有一半的CUDA核心能支援整數計算。英偉達會把不同GPU支持的具體算力標注在官網上供大家查詢。需要說明的是,GPU的算力和架構有關。架構是GPU的設計方案,設計方案越先進,相同算例下的圖形渲染效率就越高。比如,GTX1660的GPU架構比GTX 980更先進,雖然他們的FP32算力差不多,但1660的遊戲性能卻明顯更強。所以,NVIDIA在官網標注算力的時候,還會同時標注GPU的架構。單精確度浮點算力和架構共同決定了GPU的遊戲性能。

但現在的GPU除了玩遊戲和做渲染建模之外,還承擔了許多AI相關的任務。在CUDA核心的右邊,是第四代Tensor Core張量核心,它非常適合做AI相關的深度學習計算。所有的Tensor Core一共可以提供780 AI-TOPS的算力。比如說,現在的AI繪圖軟體就可以調用Tensor Core,生成圖片的速度遠比純CPU要快很多。遊戲裡的DLSS功能同樣可以調用Tensor Core,用更低的解析度渲染,再通過AI上採樣到更高的解析度,從而提升遊戲的流暢度。逼真的遊戲畫面還離不開真實的光照效果,而光線的反射和折射需要龐大的算力。這張4080的核心中,每組SM裡都有一顆第三代RT Core光線追蹤核心,專門用來加速光照和反射的計算,一共可以提供113 RT-TFLOPS光錐算力。光線追蹤可以明顯提升畫質,但也非常的吃性能。如果用的是低端顯示卡,開了光追以後就可能很卡頓,只有性能更強的高端顯示卡才適合開啟光線追蹤。

在SM單元之外,還有很多其他的單元。video解碼器讓顯示卡能把0101的資料轉換成連續播放的影片畫面。解碼器性能過弱,就可能在播放影片時出現卡頓、掉幀。而video編碼器則可以讓你把拍攝到的影片資料以新的編碼方式壓縮成期望的格式和大小。編碼器性能過弱,則會在剪輯影片匯出時浪費過多的時間。顯存控制器讓GPU和記憶體得以順利交互資料,PCIe控制器則讓顯示卡和主機板上的CPU、記憶體、硬碟等其他元器件交互資料。除開上述內容,顯示卡的電路板上還有很多其他的附屬晶片和介面,他們共同協作讓顯示卡得以順利運行。

現在你對顯示卡的硬體已經有一定的瞭解了,節目的最後我們來講講該如何選擇適合自己的顯示卡。挑選一張顯示卡的順序大概可以按照性能需求、GPU型號、AIC品牌、實際產品這四個步驟來考慮。性能需求可以借助性能排行榜做參考,在各個網站裡你都可以搜到。它將顯示卡的跑分從高到低依次排列,雖然跑分和實際的遊戲性能會略有差異,但是一個非常值得參考的資料。在天梯圖裡隨便盲選一張顯示卡,然後搜索他的評測類節目,大概就可以知曉這張顯示卡在不同遊戲中可以開到什麼樣的畫質,達到什麼樣的流暢度。也可以看到他在專業軟體中和其他顯示卡之間的性能差異。

現在你對顯示卡的硬體已經有一定的瞭解了,節目的最後我們來講講該如何選擇適合自己的顯示卡。挑選一張顯示卡的順序大概可以按照性能需求、GPU型號、AIC品牌、實際產品這四個步驟來考慮。性能需求可以借助性能排行榜做參考,在各個網站裡你都可以搜到。它將顯示卡的跑分從高到低依次排列,雖然跑分和實際的遊戲性能會略有差異,但是一個非常值得參考的資料。在天梯圖裡隨便盲選一張顯示卡,然後搜索他的評測類節目,大概就可以知曉這張顯示卡在不同遊戲中可以開到什麼樣的畫質,達到什麼樣的流暢度。也可以看到他在專業軟體中和其他顯示卡之間的性能差異。

不同品牌之間的差異主要集中在外觀、散熱、噪音、做工用料、售後以及特色功能上,而這些也往往和各家品牌內部的子型號掛鉤。這些目前市面上通過官方認證的主流AIC廠商,通常來講,我們會更建議小白選擇例如華碩這樣的一線大廠,他們的全自動化製成技術不僅在品控上更有保障,大品牌在售後服務上也會更加完善。如果你看中的品牌不在這個表裡,那建議謹慎考慮。在品牌內部也劃分有子型號,雖然GPU型號相同,性能差距也不大,但這些子型號往往決定了顯示卡的用料水準。高端產品線往往具有更強大的供電、更好的散熱、更低的噪音、更好的超頻空間以及更拉風、更炫酷的外觀,但通常也會更貴。低端產品線可能在散熱、噪音、用料以及外觀上相較於旗艦產品會欠缺一些,但它的價格也相對便宜,適合那些追求性價比的用戶。到底是選擇更貴的旗艦還是選擇性價比高的主流產品,還是要根據自己的錢包、喜好的外觀、對噪音和溫度的接受程度以及是否要超頻來決定。

本期認識顯示卡到這裡就算全部介紹完畢了。作為一期針主要對硬體小白的科普節目,今天並沒有做太深入的講解,但相信你已經基本瞭解了顯示卡的結構、功能和選擇方案。如果覺得還不錯的話,就請不要忘了關注我們點贊哦,我們下期再見!


圖片
圖片
圖片
圖片
圖片
圖片
(使用 Facebook 留言外掛程式 留言無法滿足本網站參加活動之資格,僅供非會員討論使用)
互動地圖
interactive taiwan map