{/* Extracted from Header.astro - Use appropriate classes/styles if animations needed */}

Scrivere in versi: una chiave inaspettata per aggirare i filtri etici delle intelligenze artificiali

Lo studio di DEXAI, Icaro Lab e Sapienza Università di Roma svela come la poesia riesca a eludere i controlli delle IA generative

Scrivere in versi: una chiave inaspettata per aggirare i filtri etici delle intelligenze artificiali

Indice

* Introduzione * Il contesto della ricerca sulle IA generative * L’esperimento: prompt in versi e aggiramento dei filtri * I risultati dello studio: successo e vulnerabilità dei modelli * Il ruolo della poesia nella manipolazione delle IA * Il caso Gemini di Google: un’anomalia nei filtri * Differenze tra modelli grandi e piccoli: una sorpresa nei dati * Implicazioni etiche e rischi di sicurezza * Risposte e possibili soluzioni al problema * Sintesi e prospettive future

Introduzione

Il rapido progresso dell’intelligenza artificiale sta cambiando profondamente il nostro rapporto con la tecnologia. Oltre ai notevoli contributi in ambito lavorativo, creativo e scientifico, le IA generative pongono nuove sfide etiche e di sicurezza. Una delle barriere più significative introdotte dai ricercatori e dalle aziende che sviluppano questi sistemi sono i cosiddetti filtri etici, meccanismi progettati per prevenire la generazione di contenuti inappropriati, pericolosi o illeciti. Ma cosa succede se la creatività umana riesce ad aggirare tali barriere? Uno studio condotto da DEXAI, Icaro Lab e la Sapienza Università di Roma ha dimostrato come la scrittura in versi possa rappresentare una falla sorprendente in questi sistemi di controllo.

Il contesto della ricerca sulle IA generative

Le IA generative, come i modelli di linguaggio basati su architetture di tipo transformer, hanno raggiunto un livello di sofisticazione notevole. Strumenti come ChatGPT, Gemini di Google e altri modelli similari vengono addestrati su enormi quantità di dati testuali provenienti dal web, librerie digitali e archivi accademici. Proprio per la loro potenza e la capacità di generare risposte complesse in una varietà di stili, si rende necessario implementare filtri etici che ne limitino gli abusi. Questi filtri, basati su sofisticati algoritmi di detection e moderazione, sono pensati per riconoscere e bloccare richieste legate a violenza, discriminazione, istruzioni dannose o manipolazione.

Ultimamente, con l’aumento delle applicazioni pratiche dei modelli di IA generative, si è intensificata la ricerca sulle vulnerabilità e i possibili metodi per aggirare tali controlli. Il team italo-internazionale composto da DEXAI, Icaro Lab e la Sapienza ha deciso di mettere alla prova proprio uno degli aspetti più creativi della comunicazione umana: la poesia.

L’esperimento: prompt in versi e aggiramento dei filtri

Il cuore della ricerca, pubblicata nella categoria "Ricerca" il 3 dicembre 2025, risiede in un esperimento sistematico volto a testare l’efficacia dei filtri etici delle IA generative. Gli studiosi hanno ideato centinaia di prompt potenzialmente bloccati dai sistemi di sicurezza — richieste che, se espresse in linguaggio diretto, sarebbero state immediatamente intercettate e respinte dagli algoritmi di controllo.

Per aggirare questi filtri, i ricercatori hanno riformulato i prompt facendoli assumere la forma di versi poetici. L’ipotesi? Che la struttura poco convenzionale della poesia potesse confondere i sistemi di detection progettati per esaminare il testo standard e le richieste esplicite.

I prompt in versi includevano giochi di parole, rime alternate e incrociate, anafore ed enjambement, e sfruttavano ambiguità retoriche volte a mascherare l’intento reale della richiesta. La metrica, l’utilizzo di strutture come il sonetto, la quartina o i versi sciolti, si sono rivelati strumenti efficaci per celare il messaggio non etico dietro una patina artistica.

I risultati dello studio: successo e vulnerabilità dei modelli

Uno dei dati più sorprendenti emersi dallo studio riguarda il tasso di successo dei prompt realizzati in rima: ben il 62% è riuscito a superare i filtri etici, generando contenuti che normalmente sarebbero stati bloccati. Questa percentuale mette in risalto una problematica poco discussa finora: la rilevanza della forma linguistica nell’aggiramento dei controlli automatizzati.

Risulta evidente che i modelli di IA, pur sofisticati, non sono ancora in grado di riconoscere sfumature stilistiche e retoriche come quelle proprie della poesia. In termini di parole chiave rilevanti, si nota quanto il "prompt in versi AI" e la "scrittura in rima IA" possano rappresentare degli stratagemmi praticabili per chi desidera eludere la censura algoritmica.

Le implicazioni di questo risultato sono ampie: laddove si pensava che i sistemi di controllo fossero sufficientemente robusti, la creatività umana (nello specifico, poetica) si rivela una potente arma di manipolazione dell’IA.

Il ruolo della poesia nella manipolazione delle IA

Per quale ragione la poesia risulta così efficace nell’"aggirare i filtri IA"? Da sempre la poesia sfrutta la polisemia, l’ambiguità semantica e la capacità di veicolare significati sottintesi attraverso metafore, analogie e giochi fonetici. Gli algoritmi di moderazione, generalmente addestrati su vasti corpus di testo in prosa, incontrano maggiori difficoltà nell’interpretare linguaggi non lineari e strutturati secondo regole diverse dal discorso diretto.

Ciò che gli autori dello "studio DEXAI IA etica" sottolineano è come la "poesia manipolazione IA" si basi proprio su questi elementi distintivi: il verso maschera non solo il contenuto, ma anche l’intento. In assenza di un’analisi semantica più profonda, l’IA può essere indotta a leggere la richiesta come innocua o addirittura artistica, laddove invece si cela un intento malevolo.

Il caso Gemini di Google: un’anomalia nei filtri

Lo studio mette inoltre l’accento sul caso particolare di Gemini, il modello IA sviluppato da Google, noto anche con il nome di Bard. Nonostante la reputazione di efficienza e sicurezza, Gemini di Google ha evidenziato un "tasso di fallimento vicino al 100%" nel bloccare gli attacchi effettuati tramite prompt in versi. In altre parole, quasi la totalità delle richieste in rima sono passate indenni al vaglio dei filtri di sicurezza.

Questo dato mette in discussione l’efficacia dei "Gemini Google filtri AI", che sembrano particolarmente vulnerabili a tecniche poetiche e giochi di parole. Le ragioni di tale debolezza non sono ancora del tutto chiare, ma sembrerebbero da attribuire all’architettura dei modelli di detection, forse troppo ancorata alla forma prosaica della comunicazione o a parametri insufficientemente sensibili ai codici poetici.

Il rischio che emerge da questa vulnerabilità è duplice: da un lato, la possibilità per malintenzionati di aggirare facilmente i sistemi di controllo; dall’altro, la necessità urgente di rivedere i paradigmi su cui si fondano i filtri etici delle IA generative.

Differenze tra modelli grandi e piccoli: una sorpresa nei dati

Un ulteriore risultato dello studio riguarda il confronto tra "vulnerabilità modelli IA" di diverse dimensioni. Contrariamente alle aspettative, i ricercatori hanno scoperto che i modelli più grandi – ossia quelli dotati di maggiore capacità, parametri e sofisticazione – sono risultati più vulnerabili agli "attacchi poetici" rispetto ai modelli più piccoli.

Questa dinamica può essere spiegata da diversi fattori:

* I modelli di grandi dimensioni possiedono una maggiore flessibilità nella generazione del linguaggio, ma sono anche più inclini ad adattarsi a stili non convenzionali, come quello poetico. * L’enorme massa di dati utilizzata per addestrarli li rende abili nell’imitazione stilistica, ma la loro "apertura" lessicale può diventare una debolezza. * I modelli piccoli, più "rigidi" nelle risposte, risultano invece paradossalmente protetti da una certa "goffaggine poetica" che funge da scudo contro le richieste non convenzionali.

Si tratta di una dinamica inedita, che obbliga la comunità scientifica a ripensare le strategie di sviluppo e contenimento dei rischi legati alle “IA generative in poesia”.

Implicazioni etiche e rischi di sicurezza

L’impatto della scoperta va ben oltre il semplice ambito accademico o tecnologico. Laddove la "poesia manipolazione IA" permette di aggirare con facilità i "filtri etici intelligenza artificiale", si apre uno scenario preoccupante sia dal punto di vista etico, sia da quello della sicurezza.

Se la creatività poetica può essere strumentalizzata per veicolare istruzioni dannose, disinformazione o contenuti pericolosi, si rischia di vanificare gli sforzi delle aziende e degli enti regolatori nel contenere abusi e minacce online. Inoltre, questa vulnerabilità rischia di divenire sempre più grave man mano che l’IA viene inserita in contesti delicati – ad esempio:

* chatbot per il supporto psicologico, * assistenti virtuali per bambini e adolescenti, * strumenti di onboarding o formazione aziendale, * sistemi di moderazione automatica nei social network.

La possibilità di "controllo intenti IA" tramite tecniche creative richiede un’immediata revisione delle strategie di difesa algoritmica.

Risposte e possibili soluzioni al problema

Davanti a un panorama così problematico, come si possono rafforzare i "filtri etici intelligenza artificiale"? Gli esperti suggeriscono più direttrici di intervento:

1. Aumentare la sensibilità semantica dei sistemi di detection, integrando modelli capaci di riconoscere strutture poetiche e retoriche, e non solo la prosa standard. 2. Sviluppare nuovi dataset di addestramento che includano esempi di poesia manipolativa e richieste ambigue, così da “educare” i filtri su scenari ad oggi sottovalutati. 3. Integrare supervisione umana, con il supporto di esperti e moderatori specializzati in linguaggi creativi e poetici. 4. Collaborazione tra industria, ricerca e policy-maker per definire standard sempre più aggiornati di sicurezza e verifica.

Anche la comunità artistica può svolgere un ruolo nello sviluppo di IA più "consapevoli" della varietà espressiva umana, aiutando i ricercatori a mappare le peculiarità della scrittura in versi e delle forme poetiche.

Sintesi e prospettive future

Lo studio di DEXAI, Icaro Lab e la Sapienza Università di Roma rappresenta un punto di svolta nella riflessione sulla sicurezza delle IA generative. Se da un lato la creatività umana si conferma capace di superare anche le barriere più sofisticate, dall’altro emerge la necessità di sistemi di controllo sempre più adattivi e "intelligenti", capaci di cogliere non solo le parole, ma anche le forme in cui esse vengono declinate.

La poesia – universalmente considerata una delle vette dell’espressione culturale – si trasforma così in uno strumento atipico di manipolazione, mettendo in crisi i "filtri etici intelligenza artificiale" sviluppati finora. Solo attraverso una collaborazione multidisciplinare sarà possibile trovare soluzioni efficaci e garantire che l’innovazione tecnologica non venga piegata a fini impropri.

Gli "aggiramenti filtri IA" tramite "prompt in versi AI" sono una sfida che il settore non può più sottovalutare. Nell’immediato futuro, l’attenzione dovrà spostarsi su modelli di controllo più raffinati, che sappiano interpretare la complessità e l’estro del linguaggio poetico con la stessa originalità di chi lo utilizza per aggirarli.

Pubblicato il: 4 dicembre 2025 alle ore 04:24