Il prompt engineering è l’arte degli input. Ma, nel caso dei LLMs, non sempre pochi colpi sono sufficienti a produrre il risultato giusto. Per imitare ragionamenti complessi, i grandi modelli linguistici hanno bisogno di una spinta. Benvenuti nel mondo del chain-of-thought (CoT) prompting e del reprompting.
Che nell’ambito della intelligenza artificiale generativa sia in gran parte una questione di prompt engineering, ormai lo sanno tutti. Tuttavia, tecniche di prompt engineering avanzato sono ancora relegate all’ambito accademico e sperimentale. Il tema è però di grande rilevanza, visto che si tratta di aiutare i modelli linguistici di grandi dimensioni (LLMs) ad andare oltre alcuni limiti apparentemente intrinseci al ramo sub-simbolico dell’intelligenza artificiale, che applica l’approccio dell’inferenza induttiva (classica o bayesiana) per interpretare gli eventi, supportare e automatizzare le decisioni e compiere azioni.
Fortissimi sotto il profilo dell’induzione, I LLMs sono inefficaci sul piano della deduzione logica e del ragionamento. Per questo faticano a eseguire compiti che richiedono uno sviluppo in più fasi, perché hanno difficoltà a propagare regole o vincoli da una fase a quelle successive. Nel 2022 un team di 450 autori, coordinati da Aarohi Srivastava, ha messo a punto un metodo per misurare il livello di maturità del LLMs sul piano del ragionamento complesso (per questa e per le altre fonti menzionate, si rimanda alla bibliografia in fondo al post).
Il test, denominato Beyond the Imitation Game Bench (BIG-Bench), prevede che il modello esegua con successo 204 compiti, ritenuti al di là delle capacità degli attuali LLMs. Si tratta di compiti che attingono problemi eterogenei: dalla linguistica allo sviluppo infantile, dalla matematica al ragionamento di senso comune, dalla biologia alla fisica, dal riconoscimento dei pregiudizi sociali allo sviluppo di software e altro ancora.
Da BIG-Bench a BBH
Un sottoinsieme di questa lista, comprendente 23 compiti particolarmente complessi, è stato poi estrapolato da Mirac Suzgun e altri. È nato così BIG-Bench Hard (BBH), un test nel quale la performance dei LLMs appare inferiore a quella degli agenti umani. Gli stessi autori hanno poi messo alla prova PaLM e Codex applicando – nell’esecuzione del BBH – il metodo del chain-of-thought (CoT) prompting, a sua volta sviluppato da Jason Wei e altri. In pratica si tratta di potenziare le capacità del modello attraverso l’esecuzione di un ragionamento in più fasi. La soluzione di un problema complesso è raggiunta attraverso una serie di passaggi intermedi. Combinato con il più tradizionale few-shot prompting, il CoT prompting ottenere risultati migliori su compiti più complessi che richiedono un ragionamento prima di rispondere. L’esempio riportato qui sotto evidenzia la differenza fra l’approccio standard e il CoT prompting.
Esempio di COT prompting (fonte: Wei e altri 2022)
Lo studio di Suzgun dimostra che l’applicazione del CoT prompting ai compiti previsti dal BBH consente a PaLM e a Codex di superare la prestazione media del valutatore umano rispettivamente in 10 e in 17 casi su 23.
L’ora del reprompting
Per migliorare ulteriormente le prestazioni dei LLMs nell’ambito del ragionamento complesso, di recente Weijia Xu e altri hanno elaborato il concetto di reprompting, un approccio automatizzato all’ottimizzazione per la risoluzione di problemi in più fasi. Si tratta di integrare il processo con un campionatore di Gibbs, ovvero un algoritmo di campionamento iterativo che identifica in modo autonomo le richieste di CoT più efficaci, rispetto a uno specifico LLM, a partire da un insieme di coppie domanda-risposta. Il campionatore di Gibbs appartiene alla famiglia dei metodi MCMC, che utilizzano catene di Markov per generare campioni di dati dipendenti.
Su cinque BBH che richiedono un ragionamento in più fasi, il metodo reprompting ottiene prestazioni nettamente migliori rispetto ai prompting zero-shot, few-shot e con CoT manuale. Il reprompting può anche facilitare il trasferimento di conoscenze da un modello più forte a uno più debole, con un sostanziale miglioramento delle prestazioni del modello più debole. Nel complesso, il reprompting apporta fino a 17 punti di miglioramento rispetto all’approccio che utilizza prompt CoT scritti dall’uomo.
Bibliografia
Carlos Rodriguez, Reprompting: Automated Problem-solving Optimization for LLMs, “Towards Data Science”, 30 maggio 2023: https://towardsdatascience.com/reprompting-automated-problem-solving-optimization-for-llms-53a0a2f9db38.
Aarohi Srivastava et al., Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, 12 giugno 2023: https://arxiv.org/abs/2206.04615.
Mirac Suzgun et al., Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them, 17 ottobre 2022: https://arxiv.org/abs/2210.09261.
Weijia Xu et al., Reprompting: Automated Chain-of-Thought Prompt Inference Through Gibbs Sampling, 17 maggio 2023: https://arxiv.org/abs/2305.09993.
Jason Wei et al., Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, 28 gennaio 2022: https://arxiv.org/abs/2201.11903.
Prompt Engineering Guide: https://www.promptingguide.ai/.