Nvidia ha annunciato Tesla V100, nuova scheda acceleratrice per il machine learning, deep learning e intelligenza artificiale. La GPU sarà la nuovissima GV100 con ben 5170 CUDA.

Nvidia ha annunciato nel corso della GTC 2017 la prima soluzione basata su architettura Volta. Si tratta di una scheda acceleratrice Tesla che prende il nome di Tesla V100.

La GPU GV100 occupa un’area di 815 mm2, conta 21,1 miliardi di transistor e 5120 CUDA core, ha sei GPC, 84 SM Volta, 42 TPC (ognuno con due SM) e otto controller a 512 bit (4096 bit totali).

Ogni SM integra 64 core FP32, 64 core INT32, 32 core FP64 e 8 Tensor Core. Ogni SM è dotato di quattro unità texture. Grazie agli 84 SM, il chip conta perciò un totale di 5376 core FP32, 5376 core INT32, 2688 core FP64, 672 core Tensor e 336 unità texture. Ogni controller è collegato a 768 KB di cache L2 e ogni stack di HBM2 è controllato da un paio di controller di memoria. Una GPU GV100 completa include 6144 KB di cache L2. GV100 è realizzato con processo produttivo a 12 nanometri FFN da TSMC.

Accanto al chip troviamo 16 GB di memoria HBM2 a 900 GB/s prodotti da Samsung. La scheda ha un’interfaccia NVLink di seconda generazione a 300 GB/s.

La nuova GPU uscirà quest’anno, nel corso del terzo trimestre. Rispetto alla GPU precedente (GP100), questa GPU (GV100) è un gran passo in avanti. Infatti la GP100 è basata sull’architettura Pascal è un chip da 610 mm2 con 15,3 miliardi di transistor e 3840 CUDA core, ed è creato con processo a 16 nanometri FinFET. Anche quella GPU ha le memorie HBM2, ma con un bandwidth di picco di 720 GB/s.

Di seguito è riportata la tabella delle specifiche delle ultime GPU per accelerazione scientifica.

Nvidia in questa GPU ha integrato quelli che Nvidia definisce “Tensor core“, dedicati alle reti neurali. Grazie a questi core Tesla V100 raggiunge prestazioni fino a 12 volte maggiori rispetto ai prodotti basati su architettura Pascal con operazioni FP32 e fino a 6 volte maggiori con calcoli FP16.

Nvidia ha annunciato due versioni PCI Express di V100. La prima è una scheda dual-slot con TDP di 300 watt, mentre la seconda è una scheda a singolo slot da 150 watt chiamata “Tesla V100 for Hyperscale Inference” (mostrata in foto). Quest’ultima è pensata per configurazioni server dense e si presume che lavori a frequenze minori e che abbia prestazioni inferiori .