La risposta non è solo nell’hardware. NVIDIA presenta a SIGGRAPH una valanga di novità. Google non sta ferma, e lancia TPU v5e, la sua proposta non GPU. Intanto sul mercato si affacciano nuovi provider di hardware e servizi infrastrutturali, come il cloud AI-specific di CoreWeave.
Il New York Times ha pubblicato quest’estate i risultati di un’inchiesta sugli effetti che la carenza di GPU prodotte da NVIDIA sta generando sull’ecosistema delle startup attive nel settore dell’intelligenza artificiale (The Desperate Hunt for the A.I. Boom’s Most Indispensable Prize, 16 agosto 2023). Ad emergere è uno scenario in divenire, che potrebbe evolvere in diverse direzioni. Proviamo qui a delineare un quadro delle principali tendenze.
TPU, Google ci crede
Intanto le big tech stanno cercando di diventare autosufficienti dal punto di vista dell’hardware. Google, in particolare, sembra essere in una posizione di vantaggio da questo punto di vista. E c’è chi indica nei nuovi processori TPU v5e, presentati il 30 agosto e realizzati dal colosso di Mountain View per equipaggiare la propria infrastruttura a supporto dei grandi calcoli, la chiave di una strategia vincente. Ricordiamo che la tecnologia TPU (tensor processing unit) non è nuova. Google ha cominciato a svilupparla nel 2016, proprio per applicazioni specifiche nel campo delle reti neurali. Pare tuttavia che la nuova versione sia particolarmente performante, grazie a configurazioni di clustering inedite, sia in termini di efficienza sia per quanto riguarda la scalabilità. In base ai dati forniti dalla stessa Google, TPU v5e è due volte più efficiente nella fase di training e 2,5 volte nell’esecuzione di modelli inferenziali.
La seconda tendenza è costituita dalla nascita di fornitori alternativi, supportati in questa fase con entusiasmo dai fondi di venture capital. È il caso di CoreWeave, a cui abbiamo fatto cenno in un precedente articolo. Si tratta di una piattaforma cloud basata sulla tecnologia di orchestrazione Kubernetes e ottimizzata per l’impiego di GPU in parallelo. Nata nel 2018, CoreWeave ha già raccolto 400 milioni di dollari di equity e 2,3 miliardi di debito.
Infine, potrebbe succedere che grandi consumatori di GPU, nell’ambito di una parziale e/o temporanea conversione del loro modello di business, mettano parte della potenza di calcolo di cui dispongono al servizio di altri consumatori, attivi nel campo dell’intelligenza artificiale. È il caso di Bitcoin, ma anche delle principali infrastrutture di gaming.
Le mosse di NVIDIA
Nel frattempo, ovviamente, NVIDIA non sta ferma. Anzi, all’ultimo SIGGRAPH (6-10 agosto 2023) ha presentato numerose novità. Alcune di esse sono assai significative, proprio perché evidenziano lo sforzo di NVIDIA di rispondere a questa fame di capacità di calcolo dell’AI offrendo non solo hardware, ma anche un contesto infrastrutturale e una serie di servizi. Ecco di che cosa si tratta:
- DGX GH200, è la nuova versione del Grace Hopper Superchip che integra una CPU 72-core Grace con una GPU Hopper.
- AI Enterprise 4.0, nuova versione della suite software di NVIDIA a supporto dell’intelligenza artificiale generativa.
- Partnership con Hugging Face per accelerare l’addestramento e la messa a punto di LLM, semplificando la personalizzazione dei modelli (l’accordo potrebbe garantire accesso al supercalcolo ai milioni di data scientist aderenti alla comunità di Hugging Face).
- Aggiornamento di Omniverse, con l’introduzione di numerose capability orientate all’intelligenza artificiale (oltre che allo spatial computing).
- Nuove workstation RTX per GPU di generazione ADA – segnatamente i modelli RTX 5000, RTX 4500 e RTX 4000 – per offrire le più recenti tecnologie di AI, grafica e rendering in tempo reale.
Un modo di ricchi e poveri
Una cosa sembra essere fuori discussione: chi ha più potenza di calcolo, vince. Da questo punto di vista, nel mondo ci sono pochi ricchi e molti poveri. I ricchi sono quelli che possono fare affidamento su almeno 20.000 GPU di tipo A/H100 e, secondo Dylan Patel e Daniel Nishball, si contano oggi sulle dita di due mani. Parliamo di OpenAI, Google, Anthropic, Inflection, X e Meta. Ad esse si aggiunge un manipolo di aziende cinesi, che potrebbero addirittura disporre di oltre 100.000 GPU per la fine del prossimo anno. I poveri sono tutti gli altri, comprese migliaia di startup, università e altre istituzioni dedite alla ricerca scientifica. Per le quali la strada per il momento percorribile non è certo quella dell’efficienza, proprio a causa della relativa scarsità di potenza di calcolo di cui possono disporre.
L’approccio seguito dai “poveri” è in genere quello basato su modelli transformer a matrice densa, che ben difficilmente possono scalare. A differenza di ciò che avviene nel cervello umano, i modelli densi sono completamente connessi, nel senso che tutti i “neuroni” di uno strato si collegano a tutti i “neuroni” dello strato successivo. Ciò consente al modello di apprendere interazioni complesse e funzioni non lineari. Si tratta dell’architettura impiegata da GPT-3 di OpenAI, PaLM di Google, LLAMA di Meta, Falcon di TII e MPT di MosaicML. In teoria i modelli densi scalano bene in termini di numero di parametri e token, ma nella realtà si scontrano con due limiti fra loro connessi: la disponibilità di hardware e i costi.
L’annuncio di Gemini
In uno scenario di questo tipo diversi osservatori ritengono che Google disponga di una posizione competitiva unica. Ciò dipende dalla supremazia detenuta da Google nel campo infrastrutturale (anche grazie all’utilizzo di processori TPU v5, come già detto), la quale rende i sistemi più importanti rispetto alla microarchitettura del singolo modello. Non a caso, grandi aspettative a creato l’annuncio di Gemini, il nuovo modello che Google rilascerà pubblicamente in dicembre. Gemini ha una potenza di calcolo dichiarata cinque volte maggiore di GPT-4.