Nie mając zbyt dużego wyboru z uwagi na prezentowane przez AMD produkty NVIDIA zapowiedziała swoją kartę Volta V100, należącą do rodziny Tesla V100. Ten szczególny model ma zdobyć rynek wydajnych komputerów i stacji roboczych, aczkolwiek wszystko zależy od ceny jaką za nią przyjdzie nam zapłacić.
Zapowiedziana po raz pierwszy na GTC 2017 Volta V100 wykorzystuje 12nm układ FFN (FinFET NVIDIA) TSMC, specjalnie przeprojektowany na potrzeby kart NVIDII. Niemniej jednak, amerykańska firma pokazała wtedy wersję SXM2, zaś teraz pochwaliła się odmianą PCI Express. Obecnie jest to największy układ zielonych, mierzący 815 mm2 oraz wspierający pamięć HBM2.
Specyfikacja układu Volta V100
NVIDIA Volta GV100 to jak wspominaliśmy jeden z największych rozmiarowo układ tej firny, zawierający aż 6 jednostek przetwarzających GPC (Graphics Processing Clusters). Nowy układ może się ponadto pochwalić 84 procesorami strumieniującymi Volta i 42 TPC, każdy zawierający dwa SM.
Każdy z 84 procesorów SM (stream multiprocesor) posiada 64 rdzenie CUDA, w rezultacie czego uzyskujemy 5376 CUDA. Wszystkie z 5376 rdzeni CUDA można wykorzystać zarówno z instrukcjami FP32 jak i INT32, przy czym decydując się na podwójną precyzję, do dyspozycji jest 2688 FP64.
Poza tym NVIDIA wyposażyła Voltę V100 w 672 procesory Tensometryczne oraz 336 jednostek teksturujących TU. Patrząc na specyfikację dowiadujemy się, że układ jest w stanie dostarczyć taktowania 1370 MHz w trybie Boost, a także 28 TFLOP przy FP16, 14 TFLOPs przy FP32 oraz 7 TFLOP przy FP64.
Nie mniej imponująca jest liczba 112 DLOPs (Deep Learning Teraflops), która jest nie tylko czyni z Volty V100 najszybszy układ NVIDII, lecz także wśród obecnie dostępnych na rynku. Takie osiągnięcie było możliwe dzięki oddzielnym rdzeniom Tensor Core, których zadaniem są zadania związane z zaawansowanym uczeniem (deep learning).
Ważne jest również to, że NVIDIA wykazała się pod względem wskaźnika TDP, który w tym konkretnym przypadku wynosi 250W. Dla porównania wersja SXM2 osiągała spore 300 W.
Najnowsza Volta powiada zmodyfikowany 512-bitowy kontroler pamięci, który dokłada się do 4096-bitowej szyny danych wspierającej do 16 GB VRAM typu HBM2. Przepustowość została podbita częstotliwością 878 MHz, dzięki czemu udało się osiągnąć okolice 900 GB/s, a nie 720 GB/s jak to miało miejsce w przypadku układu Pascal GP100. Co więcej, każdy z kontrolerów pamięci posiada do dyspozycji 768 KB pamięci cache drugiego poziomu (L2 cache), a 6 MB jeśli chodzi o cały układ.
Jeśli chodzi o istotne różnice między wersją PCI Express układu Volta V100 a SXM2 jest brak wsparcia NVLINK w przypadku tego pierwszego.
Porównując opisywany tu układ do konkurencyjnych rozwiązań, NVIDIA oferuje znacznie większą wydajność przy mniejszym zużyciu energii i jej efektywniejszym wykorzystaniu. Na uwagę zasługuje również to, że zieloni mogą pochwalić się zarówno podwójną, pojedynczą, pół-precyzją oraz INT8, na poziomie chwilowo niedostępnym u konkurencji.
NVIDIA rozpoczęła już dostarczanie układów bazujących na Volta V100 do serwerów, a zaprezentowana dziś wersja kart z interfejsem PCI Express ma się pojawić w sprzedaży jeszcze w tym roku w bliżej nie określonej cenie.
Porównanie układów graficznych NVIDIA | |||||
GV100 | GP100 | GK110 | |||
CUDA Cores | 5376 | 3840 | 2880 | ||
Tensor Cores | 672 | N/A | N/A | ||
SMs | 84 | 60 | 15 | ||
CUDA Cores/SM | 64 | 64 | 192 | ||
Tensor Cores/SM | 8 | N/A | N/A | ||
Texture Units | 336 | 240 | 240 | ||
Memory | HBM2 | HBM2 | GDDR5 | ||
Memory Bus Width | 4096-bit | 4096-bit | 384-bit | ||
Shared Memory | 128KB, Configurable | 24KB L1, 64KB Shared | 48KB | ||
L2 Cache | 6MB | 4MB | 1.5MB | ||
Half Precision | 2:1 (Vec2) | 2:1 (Vec2) | 1:1 | ||
Double Precision | 1:2 | 1:2 | 1:3 | ||
Die Size | 815mm2 | 610mm2 | 552mm2 | ||
Transistor Count | 21.1B | 15.3B | 7.1B | ||
TDP | 300W | 300W | 235W | ||
Manufacturing Process | TSMC 12nm FFN | TSMC 16nm FinFET | TSMC 28nm | ||
Architecture | Volta | Pascal | Kepler |