Le tecnologie di intelligenza artificiale generativa continuano a stupire per la loro capacità di creare immagini realistiche a partire da semplici descrizioni testuali. Tuttavia, una sfida apparentemente semplice rimane insormontabile per questi sofisticati sistemi: rappresentare correttamente un bicchiere di vino riempito fino all’orlo.
La sfida inaspettata dei bicchieri pieni per l’IA generativa
Un fenomeno sorprendente è stato recentemente oggetto di accese discussioni su Reddit. Gli utenti hanno notato che nessuna delle principali IA generative di immagini è in grado di produrre l’immagine di un bicchiere di vino veramente pieno fino all’orlo, nonostante le istruzioni esplicite.
Quando si chiede a Dall-E di OpenAI di generare “un bicchiere di vino pieno fino all’orlo”, il sistema propone invariabilmente un bicchiere riempito per un terzo o per metà. Anche con richieste insistenti e riformulate, l’IA persiste nella sua rappresentazione moderata, pur affermando di aver eseguito correttamente la richiesta.
Questa limitazione non si limita a Dall-E. Gemini di Google mostra esattamente lo stesso comportamento, offrendo bicchieri parzialmente riempiti pur affermando di aver soddisfatto la richiesta iniziale. Questa incapacità condivisa solleva interrogativi sui parametri di addestramento e sulle restrizioni imposte a questi sistemi di IA.
Cautela generalizzata nell’ecosistema dell’IA
Si potrebbe pensare che questo comportamento sia specifico dei grandi attori come Google e OpenAI, soggetti a pressioni normative e di immagine. Tuttavia, anche le IA specializzate nella generazione di immagini come Stable Diffusion, Ideogram.ai e Flux mostrano la stessa riluttanza a rappresentare bicchieri troppo pieni.
Leonardo.ai si è rivelato il più vicino a soddisfare la richiesta, mentre Recraft ha optato per un’interpretazione creativa generando un bicchiere che schizza il tavolo. Queste variazioni riflettono i diversi approcci adottati dagli sviluppatori, ma nessuno soddisfa pienamente la richiesta iniziale.
La sorpresa più notevole viene da Grok, l’IA sviluppata da Elon Musk. Nonostante il suo posizionamento di marketing come alternativa “anti-woke” a ChatGPT, Grok si rifiuta altrettanto di generare l’immagine di un bicchiere pieno fino all’orlo. Questa apparente contraddizione tra il discorso libertario di Musk e i limiti della sua IA sottolinea la complessità delle questioni etiche in questo campo.
Le ragioni alla base di questa limitazione universale
Diversi fattori possono spiegare questa apparente impossibilità per le IA di rappresentare un bicchiere di vino pieno. Da un lato, l’esperienza enologica suggerisce che un bicchiere di vino non dovrebbe mai essere riempito fino all’orlo per consentire alla bevanda di ossigenarsi e liberare i suoi aromi. I dati di addestramento delle IA riflettono probabilmente questa realtà culturale.
D’altra parte, gli sviluppatori di IA hanno integrato delle misure di sicurezza per evitare di produrre immagini che potrebbero incoraggiare il consumo eccessivo di alcol. Un bicchiere pieno fino all’orlo potrebbe essere interpretato come un invito al consumo eccessivo, il che spiegherebbe la riluttanza sistematica di questi sistemi.
Questa cautela fa parte di un quadro più ampio di controlli etici implementati nell’IA generativa. GPT-4 evita domande ritenute inappropriate, ChatGPT Voice rifiuta di svolgere il ruolo di compagna virtuale e le prime versioni di Gemini sono state criticate per la loro eccessiva attenzione all’inclusività, arrivando persino a rappresentare soldati nazisti di varie origini etniche.
Limiti tecnologici o scelte deliberate?
Questa incapacità apparentemente universale solleva la domanda: si tratta di un limite tecnico o di una scelta deliberata? La risposta si trova probabilmente a metà strada tra le due cose. I sistemi di IA sono addestrati su set di dati che riflettono pratiche socialmente accettabili, creando un pregiudizio intrinseco nei confronti di alcune rappresentazioni.
Allo stesso tempo, gli sviluppatori implementano consapevolmente delle restrizioni per prevenire usi problematici delle loro tecnologie. Il caso del bicchiere di vino troppo pieno illustra perfettamente come questi sistemi, nonostante la loro capacità di creare immagini surreali o fantasiose, rimangano ancorati a determinati standard sociali.
Questo fenomeno rivela in definitiva un aspetto affascinante dell’IA generativa: anche quando sembra libera dai vincoli della realtà, rimane profondamente influenzata dai valori e dalle pratiche culturali integrati nei suoi dati di addestramento e nei suoi parametri.