英特爾新一代顯卡架構(gòu)Larrabee解析

2020-07-16 13:13:16

字體：大中小

供稿：網(wǎng)友

　　眾所周知，現(xiàn)在的獨(dú)立顯卡市場(chǎng)是NVIDIA和AMD-ATI兩家的天下。盡管INTEL憑借整合圖形芯片組的優(yōu)勢(shì)占據(jù)了集成顯卡市場(chǎng)的半壁江山，但獨(dú)立顯卡一直是INTEL心中難言的痛，它一直在尋找進(jìn)軍獨(dú)立顯卡市場(chǎng)的切入點(diǎn)。早在1998年2月，INTEL曾發(fā)布了和Real3D合作設(shè)計(jì)的i740/i752獨(dú)立顯卡，但由于各大競(jìng)爭(zhēng)對(duì)手的3D顯卡性能遙遙領(lǐng)先，加上INTEL忙于自己的平臺(tái)化策略，所以風(fēng)光一時(shí)的i740/i752成為INTEL獨(dú)立顯卡的“絕唱”。時(shí)隔近10年，INTEL在平臺(tái)化戰(zhàn)略中取得了巨大成功，它為了鞏固集成顯卡市場(chǎng)、改變?nèi)藗冋J(rèn)為INTEL整合顯卡性能是“雞肋”的成見，近年來一直默默實(shí)施代號(hào)為“Larrabee”的獨(dú)立顯卡開發(fā)計(jì)劃……
　　Larrabee，穿著馬甲的CPU?
　　Larrabee與AMD、NVIDIA的通用計(jì)算圖形處理器技術(shù)不同，后兩者使用Stream Processing(流處理)來滿足對(duì)GPU計(jì)算的需求。

　　英特爾新一代顯卡架構(gòu)Larrabee解析
傳統(tǒng)的x86架構(gòu)
　　而Larrabee基于傳統(tǒng)的x86架構(gòu)，是一種可編程的多核心架構(gòu)，不同的版本會(huì)有不同數(shù)量的核心，并使用經(jīng)過調(diào)整的x86指令集，性能上將會(huì)達(dá)到萬億次浮點(diǎn)運(yùn)算級(jí)別。值得注意的是，Larrabee中的處理核心為順序執(zhí)行核心，與CPU中的亂序執(zhí)行核心不同。

　　英特爾新一代顯卡架構(gòu)Larrabee解析
Larrabee內(nèi)部工作流程
　　在Larrabee的內(nèi)部，每一個(gè)處理核心都可以發(fā)出2條指令，這種架構(gòu)是繼承了最初的奔騰處理器的設(shè)計(jì)。當(dāng)然在老奔騰的基礎(chǔ)上，INTEL的工程師們也作了許多修改和提升。首先Larrabee 架構(gòu)具有衍生自雙指令執(zhí)行 Pentium 處理器的純量管線，并采用具有完整連貫性高速緩存架構(gòu)的短執(zhí)行管線。Larrabee 架構(gòu)提供顯著的最新改良技術(shù)，如寬幅向量處理單元、多線程、64 位延伸指令，以及精密的指令預(yù)取功能。這將促使可用之運(yùn)算能力大幅提升，并能發(fā)揮程序設(shè)計(jì)師對(duì)英特爾架構(gòu)的熟悉度及容易入門的程序開發(fā)優(yōu)勢(shì)。同時(shí)Larrabee的執(zhí)行流水線階層非常的短，最初的Pentium處理器的執(zhí)行流水線僅有5個(gè)階層，這意味著擁有不錯(cuò)的運(yùn)算效率。Larrabee 將包含數(shù)個(gè)支持繪圖及其他應(yīng)用程序的固定功能邏輯區(qū)塊，這些運(yùn)算單元被謹(jǐn)慎選用以平衡及強(qiáng)化每瓦效能，并對(duì)架構(gòu)的彈性與可編程化能力有所貢獻(xiàn)。Larrabee 的原生程序設(shè)計(jì)模式支持高度平行運(yùn)算應(yīng)用程序，亦包括采用非規(guī)則性數(shù)據(jù)結(jié)構(gòu)的運(yùn)算。這項(xiàng)特性將促使繪圖 API 的開發(fā)、新繪圖算法更迅速的創(chuàng)新，以及在繪圖處理器上執(zhí)行以現(xiàn)有個(gè)人計(jì)算機(jī)軟件開發(fā)工具軟件所實(shí)作之真正的一般目的運(yùn)算。

　　英特爾新一代顯卡架構(gòu)Larrabee解析
邏輯處理單元的分布
　　在算矢量處理單元的部分。Pentium由于設(shè)計(jì)年代久遠(yuǎn)，未曾出現(xiàn)過SIMD單指令多數(shù)據(jù)單元，而Larrabee在這方面有了巨大的飛躍，支持16路的矢量ALU算數(shù)邏輯單元。其運(yùn)算效能非常強(qiáng)大，這16路可以同時(shí)執(zhí)行32bit的浮點(diǎn)操作，這比INTEL所生產(chǎn)過的任何處理器都要強(qiáng)大許多。介于Larrabee本身的架構(gòu)優(yōu)勢(shì)，這些矢量單元會(huì)更好的發(fā)揮其作用。INTEL的工程師們?cè)谥噶畹念A(yù)取方面會(huì)為L(zhǎng)arrabee做更多海量并行數(shù)據(jù)處理方面的優(yōu)化。但究竟會(huì)對(duì)實(shí)際的效能產(chǎn)生多大的影響，目前仍是個(gè)迷。Larrabee所有超強(qiáng)的性能，都是基于這16路矢量ALU邏輯運(yùn)算單元。請(qǐng)記住!這僅僅是Larrabee的一個(gè)核心，當(dāng)它用于處理3D圖像的時(shí)候，其內(nèi)部還有很多的核心在并行工作。
　　此外，INTEL還對(duì)Larrabee架構(gòu)指令集擴(kuò)展進(jìn)行了優(yōu)化改進(jìn)。比如16-Widevector指令，streamprocessing最佳化緩存控制指令等。另外64-bit指令也得到了支持。簡(jiǎn)單得說就是以x86基本指令集為基礎(chǔ)加上適當(dāng)?shù)膕tream processing指令。另外據(jù)說當(dāng)前的GPU原生指令集與CPU指令集非常相似。INTEL關(guān)于Larrabee指令擴(kuò)展并沒有進(jìn)行詳細(xì)介紹。不過估計(jì)可以有點(diǎn)，首先就是指令格式必須容易解碼。x86指令解碼多且復(fù)雜。因此為了解決這個(gè)問題，Larrabee的擴(kuò)張指令最好是固定長(zhǎng)度指令。

　　GPU也有L2緩存？！
　　由于基于Pentium 處理器架構(gòu)，因此Larrabee同樣沿用了完整的L1/L2緩存設(shè)計(jì)，這也是目前GPU所不具備的。

　　英特爾新一代顯卡架構(gòu)Larrabee解析(2)
Pentium處理器架構(gòu)
　　在L1高速緩存容量方面，其中指令緩存為32KB，L1數(shù)據(jù)緩存為32KB和，這個(gè)比各自為8KB的Pentium處理器相比提升了4倍。同時(shí)每一個(gè)處理核心都具備256KB的L2高速緩存，未來Larrabee最初的二級(jí)緩存容量為4M，這意味著Larrabee最少有16個(gè)內(nèi)核。
　　INTEL Core 2 Duo Hypothetical Larrabee
　　# of CPU Cores 2 out of order 10 in-order
　　Instructions per Issue 4 per clock 2 per clock
　　VPU Lanes per Core 4-wide SSE 16-wide
　　L2 Cache Size 4MB 4MB
　　Single-Stream Throughput 4 per clock 2 per clock
　　Vector Throughput 8 per clock 160 per clock
　　根據(jù)INTEL所述，這種256KB的緩存尺寸是專門針對(duì)Larrabee所設(shè)計(jì)的。一般來說在Larrabee進(jìn)行OpenGL/DirectX渲染的時(shí)候，許多紋理都是基于64X64或128X128像素規(guī)格的，他們的色深一般為32bit，另帶有32bit的Z緩沖，這些大約會(huì)消耗128KB的空間，同時(shí)Larrabee的處理核心還有128KB的空間可以加載其他的數(shù)據(jù)。
　　AMD RV770 NVIDIA GT200 INTEL Larrabee
　　Scalar ops per L1 Cache 80 24 16
　　L1 Cache Size 16KB unknown 32KB
　　Scalar ops per L2 Cache 100 30 16
　　L2 Cache Size unknown unknown 256KB