Sono arrivati gli SLM. Sono LLM di dimensioni relativamente ridotte, molto specializzati e più economici dei loro fratelli maggiori. Una nuova tendenza nell’ambito dell’intelligenza artificiale generativa.
Spesso si discetta intorno ai limiti di scalabilità degli LLM (ne abbiamo parlato qui). Secondo alcuni la questione andrebbe posta in termini diversi. Dovremmo domandarci: abbiamo davvero bisogno di modelli linguistici sempre più grandi? In altri termini: la scalabilità è l’unica strada percorribile per rendere l’intelligenza artificiale generativa sempre più capace di risolvere una generalità di problemi? A partire da questo dubbio, si è fatto strada di recente un paradigma per certi versi alternativo a quello dei LLM, i quali sono fondati sull’assunzione che «più grande è meglio». È nato così l’acronimo SLM, che sta per small (o smaller) language model.
Un’opportunità per la GenAI di tipo open-source
Si tratta in effetti di modelli più piccoli, altamente specializzati e più accessibili per casi d’uso specifici. Spesso si tratta di modelli di intelligenza artificiale generativa open-source. Il che non deve stupire. Nel capo dell’intelligenza artificiale generativa, l’open-source è di fronte a un bivio. Da un lato la strada è quella di mettere a punto LLM capaci di eguagliare o addirittura superare le prestazioni di quelli proprietari (è l’approccio seguito da LLaMA 3). L’alternativa è partire dall’idea di realizzare LLM che diventino la base per modelli o agenti perfezionati in scenari altamente specializzati. Ed è questa seconda strada che gli SLM tentano di percorrere.
Qual è la filosofia corretta, fra le due? La risposta deve tenere conto degli obiettivi di business che, di volta in volta, giustificano l’impiego dell’intelligenza artificiale generativa. Ci sono contesti nei quali è facile immaginare che il fattore chiave di successo non sia l’estrema qualità del modello, ma conti di più esercitare un maggiore controllo sulla messa a punto e sull’ottimizzazione del modello stesso. Senza contare la questione dei costi, che è ormai diventata centrale nella discussione sui vantaggi e gli svantaggi dell’intelligenza artificiale generativa e che condiziona molti business case.
Microsoft e Meta ci credono
Fra coloro che si stanno muovendo rapidamente, esplorando diversi scenari proprio nell’ambito degli SLM, ci sono Microsoft e Meta. La prima ha annunciato il rilascio di Phi-2, un SLM altamente specializzato nel ragionamento matematico, che rappresenta la seconda iterazione delle idee delineate nell’articolo Textbooks are all You Need (Arxiv, 20 giugno 2023, rivisto il 2 ottobre). Sempre Microsoft ha annunciato Orca2, un SLM iper-ottimizzato per compiti di ragionamento come il ragionamento di senso comune, la risoluzione di problemi matematici, la comprensione della lettura e molti altri casi d’uso (si veda Orca 2: Teaching Small Language Models How to Reason, Microsoft Research Blog, 20 novembre 2023). Orca 2 è la seconda versione di un modello linguistico di piccole dimensioni che presenta capacità di ragionamento superiori a quelle di alternative molto più grandi. Il modello è stato creato mettendo a punto LLaMA 2 con un sofisticato set di dati di ragionamento sintetico.