Per dare alcuni elementi di confronto tra una GTX 980 Ti e GTX 1080 Ti, il numero di core CUDA aveva è salito del 28% mentre la frequenza della GPU ha avuto un bonus di oltre il 40%. Se si scende a un livello di intervallo e si confrontano GTX 980 e GTX 1080, troviamo una tendenza simile: + 25% su nuclei CUDA e + 42% sul lato frequenza, da una generazione all’altra. altro. Tornando al caso in esame oggi, la GeForce Ti RTX 2080 ha 4352 core CUDA per una frequenza massima di funzionamento 1635 MHz, fino al 21% in un caso e un piccolo 7% in altro. Il caso di RTX 2080 è ancora più significativo: un salto di chip su unità CUDA, + 15%,

GTX 1070RTX 2070GTX 1080RTX 2080GTX 1080 TiRTX 2080 Ti
Architettura / GPUPascal GP104Turing TU106Pascal GP104Turing TU104Pascal GP102Turing TU102
Processo di incisione16 nm12 nm FFN16 nm12 nm FFN16 nm12 nm FFN
Numero di transistor7,2 miliardi10,8 miliardi7,2 miliardi13,6 miliardi12 miliardi18,6 miliardi
Dimensione del dado314 mm²445 mm²314 mm²545 mm²471 mm²754 mm²
Blocchi SM153620462868
CUDA Core192023042560294435844352
Tensore CoreNA288NA368NA544
RT CoreNA36NA46NA68
POR646464648888
TMU120144160184224272
GPU Base Clock150614101607151514801350
GPU Boost Clock (*)1683/16831620/17101733/17331710/18001582/15821545/1635
memoriaGDDR5 da 8 GBGDDR6 da 8 GBGDDR5X da 8 GBGDDR6 da 8 GBGDDR5X da 11 GBGDDR6 da 11 GB
Frequenza di memoria8 Gbps14 Gbps10 Gbps14 Gbps11 Gbps14 Gbps
Bus di memoria256 bit256 bit256 bit256 bit352 bit352 bit

(* Reference / Founders Edition)

Alla luce di queste prime figure, possiamo comprendere la preoccupazione degli utenti, che hanno dovuto chiedersi dove fossero andati i guadagni relativi al miglioramento (seppur lieve ma fermo) della finezza dell’incisione, annunciata a 12 nm. È in questo che la seguente spiegazione del testo è importante, poiché permetterà di presentare le basi di un’architettura di Turing che non intende appoggiare la sua forza su un diagramma tradizionale definito da un numero di cuori CUDA, una frequenza di lavoro e una finezza dell’incisione. Include nuove forme di rendering, che utilizzeranno ray tracing o applicazioni di deep learning. Gli elementi, che almeno sulla carta, hanno il potenziale per compensare la debolezza delle cifre citate sopra.

GeForce RTX: un primo punto tecnico sull'architettura di Turing prima del test

Tuttavia, non andiamo troppo veloce. Parleremo di RT Core e Tensor Core un po ‘oltre. Per il momento, concentriamoci sulle modifiche apportate ai blocchi SM (per il processore Stream) che sono nella nomenclatura NVIDIA i blocchi fondamentali che costituiranno il nucleo della GPU.

L’SM CON SALSA TURING

Nelle precedenti architetture di Maxwell e Pascal, un blocco SM è stato schematizzato come segue: Vi erano quattro partizioni ciascuna conteneva 32 core CUDA, un blocco SFU, registri, 2 TMU, 8 unità Load / Store e due unità DUN. spedizione associata ad un buffer di istruzioni. Allo stesso tempo, tutti questi elementi avevano un numero di risorse condivise a diversi livelli: 96 Kb di memoria e una cache di istruzioni per il set, e 4 TMU e una cache L1 di 24 KB per ogni coppia di partizioni. Basato su questa immagine,NVIDIA ha fatto diversi cambiamenti nel suo MS: la fine del raddoppio delle unità di trasporto (unità di spedizione), riprogettazione del sistema di programmazione, che ora può gestire fino a 32 thread indipendente, e la separazione di due ALU che erano i famosi core CUDA: mentre ALU FP32 e INT32 erano riuniti all’interno della stessa entità e non potevano essere sollecitati congiuntamente da Maxwell e Pascal, beneficiano in Turing di una gestione completamente indipendente. Sul diagramma fornito da NVIDIA, questo si traduce nella menzione di 64 Core FP32 e 64 Core INT32 per blocco SM Turing, invece di 128 core CUDA in Pascal. A ciò si aggiunge un altro asse di lavoro: la revisione del sistema di memoria che ora riunisce all’interno dello stesso blocco configurabile la cache di dati L1 e la memoria condivisa.

GeForce RTX: un primo punto tecnico sull'architettura di Turing prima del test

Tutto per quali conseguenze? Se dovessimo sintetizzare, potremmo dire che la maggior parte di questi cambiamenti riflette la stessa volontà di rivedere l’approccio dei calcoli paralleli sulle GPU NVIDIA . Eliminando un’unità di spedizione MS, consentendo l’esecuzione simultanea di calcoli interi e float e fornendo una gestione più precisa dei thread di esecuzione, NVIDIA mantiene l’efficienza del calcolo parallelo mentre offrendo agli sviluppatori maggiore flessibilità nel modo in cui possono sfruttare le risorse della GPU. Come spesso, dobbiamo capire che non c’è scelta buona o cattiva in ciò che viene proposto qui. Si tratta di trovare il compromesso tecnico che meglio si adatta agli usi moderni degli sviluppatori. E con le possibilità offerte loro da DirectX 12, NVIDIA ha scelto di passare a un modello SIMT (Single Instruction, Multiple Thread) più flessibile di quello sviluppato per Maxwell e Pascal. Secondo i dati di NVIDIA, questa nuova struttura potrebbe migliorare il trattamento dei moderni shader del 50%.

GeForce RTX: un primo punto tecnico sull'architettura di Turing prima del test

Sistema di memoria, core CUDA, TMU … Fino ad ora, vedrete che abbiamo solo toccato la parte tradizionale della nuova architettura. Ma, come abbiamo sottolineato nell’introduzione di questa pagina, Turing sarà caratterizzato dall’arrivo di due nuovi tipi di unità computazionali all’interno dei blocchi SM: Tensor Core e RT Core.

ALCUNI GRAMMI DI RAY TRACING IN UN MONDO DI RASTERIZZAZIONE

Cominciamo facendo il punto sul core RT, che sarà indicato come la loro denominazione, dedicato al rendering del ray tracing. Ray tracing, per coloro che hanno perso i vari annunci congiunti di NVIDIA e Microsoft negli ultimi mesi, è un po ‘sacro graal in termini di rendering grafico. Un approccio che offrirebbe ai nostri giochi un’atmosfera fotorealistica, simile a quella presente nella maggior parte dei film d’animazione moderni. Molto in fondo, la tecnica del ray tracing è quello di proiettare una somma di raggi da un punto di vista di un pixel, e poi alla scena 3D da cui è venuto, raggi il cui percorso saranno analizzati: un po ‘di andare ad incontrare sorgenti luminose, altri saranno fermati da oggetti, quando altri ancora li rimbalzeranno per riflessione, o li attraverseranno, prima di lasciare il palco o incontrare una fonte di luce o altri oggetti, e così via. È infine l’analisi di tutti questi raggi che permetterà di regolare il colore dei pixel per tradurre gli effetti di ombre, luci, riflessi, in particolare il bluff …

GeForce RTX: un primo punto tecnico sull'architettura di Turing prima del test

Tuttavia, per quanto possa essere scintillante, la tecnologia di ray tracing ha un grosso difetto: è estremamente costosa in termini di risorse GPU, al punto che è impossibile prevedere un rendering di questo tipo in tempo reale. Ecco perché per anni la tecnica di rendering per eccellenza nei giochi rimane la rasterizzazione, che si basa su approssimazioni, algoritmi, per generare gli effetti di ombre e illuminazione. Ma se il ray tracing è impossibile da gestire in tempo reale, perché ne parliamo? Bene, se le GPU di oggi non sono abbastanza potenti da supportare un rendering di ray tracing completo, possono comunque mirare a dargli un piccolo tocco. È tutto su ciò che NVIDIA chiama l’approccio ibrido,

GeForce RTX: un primo punto tecnico sull'architettura di Turing prima del test

Quindi, useremo la rasterizzazione per ottenere l’intera parte geometrica di un rendering, mentre la proiezione di raggio sarà sfruttata per generare ombre più realistiche, o più effetti di riflessione bellissimi, l’intero essere regolabile secondo un esperimento mirato dal punto di vista delle prestazioni. E questo lavoro di ray tracing verrà assegnato al famoso RT Core, che può essere considerato come unità di calcolo molto specializzate, incaricate di eseguire nel modo più efficiente i due tipi di operazioni intrinseche al rendering del ray tracing, denominato Bounding Volume Hierarchy Traversal e Ray / Triangle Intersection Testing. La prima operazione consisterà nella ricerca del primitivo / triangolo che interagirà con un raggio all’interno della scena 3D.

GeForce RTX: un primo punto tecnico sull'architettura di Turing prima del test

Qui di seguito troverete alcuni lavori e dimostrazioni sulle possibilità di questa modalità di rendering ibrida e dobbiamo riconoscere che, in molti modi, il risultato è spesso il bluff. Ora, come tutte le nuove tecnologie di rendering, il suo successo dipenderà dalla volontà degli sviluppatori di voler usarlo. E dal momento che le RT Core sono unità dedicate, senza giochi che incorporano elementi di ray tracing, potrebbero benissimo rimanere lì per dormire. Gli esempi nella storia delle schede grafiche non mancano per argomentare questo rischio: sulla generazione Pascal, ad esempio, la tecnologia SMP, che aveva lo scopo di accelerare il rendering del tipo VR, non ha incontrato un successo incredibile, l’errore senza senza dubbio, ad un’adozione timida (per essere gentile) dei sistemi di realtà virtuale da parte del pubblico in generale. certamente il guadagno visivo che può essere venduto a un utente finale è reale nel caso del ray tracing, ma in termini di sviluppo di un videogioco, questo guadagno verrà valutato in base a vincoli temporali, budget, competenze acquisire. Per riassumere, NVIDIA fornisce gli strumenti qui … Spetta agli sviluppatori decidere l’importanza di usarli.

GeForce RTX: un primo punto tecnico sull'architettura di Turing prima del test

“E SIAMO RIMASTI MERAVIGLIATI DELLA NOSTRA MAGNIFICENZA NON APPENA L’IA È ENTRATA NEL MONDO”

Il che ci porta alla seconda importante novità sulle unità di calcolo specializzate: il Tensor Core. Infatti, se lo sfruttamento del RT Core rimane soggetto alla buona volontà dei vari attori del videogioco, quello del Tensore Core sarà in grado di emanciparlo. E considerando i servizi che saranno in grado di eseguire, è un argomento non trascurabile a favore di GPU Turing. Ma quali sono i Tensor Core? Essi rappresentano l’hardware della tecnologia NGX (per Neural Graphics Acceleration), una tecnologia che utilizzerà i principi di intelligenza artificiale per generare alcuni trattamenti grafici, unità aritmetiche meglio e più velocemente di quanto avrebbe fatto. NVIDIA ha sviluppato diverse applicazioni su questa base: NGX InPainting, ad esempio, lavorerà su un’immagine danneggiata per ripararla e creare un’alternativa coerente senza difetti visibili. Anche NGX Slow-Mo, utilizzerà di nuovo l’intelligenza artificiale per dare un classico effetto al rallentatore, le immagini mancanti vengono quindi create da zero. Per quanto riguarda l’AI Super Rez, mirerà ad aumentare la risoluzione di un’immagine di un fattore 2, 4 o addirittura 8, offrendo una finezza e una precisione equivalenti a quello che avremmo ottenuto su una foto scattata nativamente in questo configurazione. Ma ci concentreremo sull’unica applicazione che inciderà sulla qualità del videogioco (IA Super Rez, ad esempio, mira ad essere integrata come strumento Ansel piuttosto che come alternativa al trattamento DSR):

GeForce RTX: un primo punto tecnico sull'architettura di Turing prima del test

Lo sai, lo sappiamo, lo sa: l’anti-aliasing è un vero problema da un punto di vista reso. In sintesi, è difficile farne a meno perché è un aspetto che ha un forte impatto sulla qualità visiva di un’immagine. E se vogliamo farlo bene, costa un sacco di risorse della GPU. Ci sono ovviamente alternative più leggere, che sono realizzate in post-elaborazione, ma hanno controparti visive. È qui che entra in gioco l’intelligenza artificiale. Di nuovo, molto schematicamente, il lavoro dell’IA nel quadro che ci riguarda sarà caratterizzato da due fasi consecutive: una di formazione o apprendimento e l’altra di inferenza. La prima fase avrà luogo a monte: sarà composta da calcolatori che lavorano su migliaia di immagini di riferimento, ciascuna in due versioni: con una qualità molto elevata di antialiasing e senza alcun trattamento. Nel nostro caso, le immagini probabilmente corrisponderanno (non abbiamo dettagli su di esso) a personaggi, luoghi, ambienti che saranno trovati in un dato gioco. Lo studio delle differenze tra ogni coppia di immagini renderà possibile creare una rete neurale, o per esempio una rete DLSS, che può essere paragonata a una serie di regole comparative che si sarebbero accumulate empiricamente. Una volta terminata la formazione, la rete AI viene reiniettata sia a livello del motore di gioco, sia a livello dei piloti, o tramite GeForce Experience, per poter essere sfruttata dal Tensore Core. Come tale, va notato che i calcoli AI sono simili ai calcoli a matrice, per i quali i tradizionali nuclei CUDA non sono stati tagliati.

GeForce RTX: un primo punto tecnico sull'architettura di Turing prima del test

Tutto questo va bene, ma qual è il punto di un trattamento come DLSS? Bene, ancora sulla carta poiché non abbiamo ancora testato la cosa, è importante. Se giudichiamo dalle poche dimostrazioni che abbiamo fatto, utilizzando DLSS implica un doppio guadagno si ottiene una qualità di rendering equivalente al trattamento 4X TAA per un contenuto di risorse colpo e soprattutto spostato. Comprendi che l’applicazione dell’anti-aliasing in questo modo libererà energia per i calcoli geometrici classici. Questo spiega il motivo per cui una demo basata sul Unreal Engine 4 svelato al gamescom, un RTX 2080 Ti sfruttando DLSS offerto un frame rate raddoppiato, a fronte di un 1080 GTX Ti TAA la gestione di un tipo di anti-aliasing. Infine, l’altro vantaggio di DLSS, come abbiamo suggerito un po ‘più alto, è che può essere spinto per ogni gioco direttamente da NVIDIA a livello dei driver della GPU. È questo il punto che ha permesso a NVIDIA di annunciare la compatibilità del DLSS con una quindicina di titoli alla fine di agosto, per poi aggiungerne altri nove poche settimane dopo.

GeForce RTX: un primo punto tecnico sull'architettura di Turing prima del test
GeForce RTX: un primo punto tecnico sull'architettura di Turing prima del test

Comprendiamo meglio la filosofia generale di Turing, che cercherà di creare altre risorse per gestire in modo più efficiente alcuni rendering, piuttosto che moltiplicare le frequenze operative e le unità di calcolo aritmetiche: la creazione di un’immagine sarà presto quando si utilizzano le forze congiunte di ray tracing, rasterizzazione e intelligenza artificiale per ottenere la migliore qualità possibile al minor costo dal punto di vista della GPU. Non stiamo mentendo, l’approccio ovviamente è un rischio: ancora una volta, NVIDIA fornisce una serie di nuovi strumenti qui. Spetterà agli sviluppatori determinare se vogliono possederli. Tuttavia, diremmo che per RTX 2070, 2080 e 2080 Ti, questo rischio si avvantaggia da un contesto particolarmente favorevole,

ANCORA NESSUN HBM2 MA GDDR6

Ma continuiamo la nostra esplorazione dell’architettura di Turing, facendo un passo indietro: abbiamo appena passato le novità che vestiranno il cuore delle nuove GPU, vediamo cosa ci hanno riservato i team NVIDIA nella gestione della memoria, motore video e sulla mappa stessa. Entro la fine del 2017, NVIDIA stava lanciando la sua GeForce Titan V, un prodotto basato sull’architettura Volta, i cui RTX contengono molti elementi e che in particolare hanno sfruttato una memoria HBM2. Che mi dici delle carte di Turing? Bene, il marchio avrà finalmente fatto la scelta del GDDR6. Una scelta di motivi, rispetto alla HBM2, che rimane decisamente troppo complessa e troppo costosa per essere prodotta. Rispetto al GDDR5X che montava le schede GTX 1070, 1080 e 1080 Ti della generazione precedente, il nuovo GDDR6 a 14 Gbps porterà un guadagno netto in larghezza di banda: dal 25 al 75% a seconda del bus di memoria associato. Inoltre, la cache L2 è raddoppiata da 3 a 6 Mb sulle serie 80Ti e da 2 a 4 Mb sulle serie 70 e 80. A ciò si aggiungeranno i guadagni ottenuti grazie agli algoritmi di compressione. sempre più successo.

GeForce RTX: un primo punto tecnico sull'architettura di Turing prima del test

Dal lato del display, GeForce continua a evolversi per essere pronto a gestire gli standard visivi di domani. RTX supporterà lo standard DisplayPort 1.4a, che sposterà il display su 8K a 60 Hz su due schermi. A questo proposito, NVIDIA ha aggiunto una nuova uscita di tipo USB-C sulla staffa posteriore di GeForce RTX, ribattezzata Virtual-link. Rilascerà 4 linee HBR3 DP, che potrebbero facilitare in particolare la connessione di cuffie per realtà virtuale. Infine, la codifica e la decodifica video non vengono tralasciate: il codificatore NVENC integra il supporto H.265 (HEVC) in 8K / 30 FPS mentre la parte NVDEC è arricchita con i seguenti supporti: HEVC 10 / 12b HDR a 30 FPS, H.264 8K e VP9 10 / 12b HD.

GeForce RTX: un primo punto tecnico sull'architettura di Turing prima del test

Ed è su queste specifiche che chiuderemo il nostro primo round di schede grafiche di Turing. Naturalmente, non abbiamo discusso di tutte le innovazioni che vestiranno questa nuova generazione … Ad esempio, abbiamo saltato i progressi fatti sul gioco Shader / Gameworks, su Ansel, su GeForce Experience o sui miglioramenti apportati alla gestione SLI. Neanche una parola sulla gestione dell’overclocking. Manteniamo tutto questo per la prossima settimana, con l’obiettivo soprattutto di attirarvi oggi i principali orientamenti tecnologici di questa nuova generazione di GPU. In conclusione, ti invitiamo a goderti alcune immagini della prima carta che abbiamo ricevuto: la GeForce RTX 2080 Ti.