Per la prima volta, Intel fornisce dati più concreti sulla potenza di calcolo del suo acceleratore GPU Ponte Vecchio e parla anche delle sue decisioni in merito alle dimensioni della cache. a ISC 22 in primavera Si chiamano i primi dati di Intel sulla potenza di calcolosembra che l’architettura del chiplet sia stata ulteriormente testata e un clock finale impostato, in modo che ora possano essere forniti dati sulle prestazioni più accurati per varie risoluzioni.
Senza dover nominare singolarmente i valori di FP64, FP32, ecc., abbiamo confrontato le informazioni ufficiali con quelle di NVIDIA per l’H100:
Salute | Ponte Vecchio | H100 |
64PQ | 52 FLOPS | 30 FLOPS |
FP32 | 52 FLOPS | 60 FLOPS |
XMX Float (TF32) / Core a corda | 419 TFLOPS | 1.00 TFLOPS |
XMX BF16.0 | 839 TFLOPS | 2000 TFLOPS |
XMX FP16 | 839 TFLOPS | 2000 TFLOPS |
XMX INT8 | 1.678 TFLOPS | 4000 TFLOPS |
Mentre Intel con Ponte Vechhio ha una maggiore potenza di calcolo per offrire la massima risoluzione con FP64, NVIDIA abbandona l’H100 basato sull’architettura del secchio per una risoluzione inferiore. Ciò si ottiene principalmente con i core Tensor di quarta generazione, che NVIDIA ha ulteriormente migliorato e che, grazie a Sparsity, ottengono un’accelerazione significativa nei casi estremi.
Ponte Vecchio e H100 di NVIDIA operano entrambi nel modulo OAM con un TDP di oltre 500 watt. NVIDIA punta a 700 W per l’acceleratore H100 e Intel punta a 600 W.
Intel potrebbe rivendicare alcuni vantaggi rispetto all’attuale soluzione A100 di NVIDIA durante la presentazione, ma se il Ponte Vecchio non arriverà sul mercato nei prossimi mesi, non avrà a che fare con l’acceleratore A100, ma con il suo successore, l’H100.
Per Ponte Vecchio, Intel funziona senza la cache L3, dopo che la cache L2 segue la memoria grafica al livello di memoria successivo e questo è HBM2E da 128 GB in Ponte Vecchio. La gerarchia della cache è simile a questa:
64 MB di file di registro in Cores Xe. A 64 MB, la cache L1 ha le stesse dimensioni del file di registro. Tuttavia, la larghezza di banda della cache L1 scende da 419 a 105 TB/s nell’intero pacchetto. La cache L2 è ridimensionata a 408 MB ed è quindi 6:1 più grande della cache L1. Secondo Intel, ci sono buone ragioni per questo, perché alcune app fanno un ottimo uso di questa grande cache L2 e altre no. La larghezza di banda di accesso in lettura scende nuovamente da 105 TB/s nella cache L1 a 13 TB/s nella cache L2. Da qui si sposta con 3,2 TB/s su HBM2E.
Intel mostra gli effetti della cache L2 per due applicazioni. Per una rete 2D FFT, la potenza di calcolo relativa è di poco superiore al 50% a 80 MB invece di 408 MB – con 32 MB il calo è molto inferiore. Quindi il grande bunker L2 di Ponte Vecchio sta dando i suoi frutti a questo punto.
Questo è diverso da una rete neurale deconvoluzionale (DNN). Sebbene anche qui la potenza di calcolo sia ridotta di circa il 15%, la dipendenza non è molto grande.
Intel vuole mostrare i suoi vantaggi in termini di prestazioni rispetto all’A100 di NVIDIA in più benchmark. Conosciamo già alcuni di questi valori e lo diciamo ancora: Intel confronta l’ancora non disponibile acceleratore Ponte Vecchio con hardware che era disponibile due anni fa. Il vero avversario è l’H100 di NVIDIA e la Radeon Instinct MI250X di AMD.