Il TransCODE Consortium, rete internazionale di oltre 60 ricercatori in più di 30 istituzioni, ha pubblicato nel maggio 2026 i risultati di una mappatura sistematica delle microproteine umane codificate da regioni genomiche non canoniche. Il studio TransCODE su Nature ha identificato 1.785 microproteine non ancora registrate nei database proteici di riferimento, ampliando di circa il 9% il catalogo delle proteine umane note. I ricercatori introducono anche il concetto di peptideina, una nuova categoria classificatoria che si affianca alle proteine canoniche nell'annotazione del proteoma umano.
Indice: In breve | Il proteoma umano e il dark proteome | Come il TransCODE Consortium ha identificato le microproteine | Cosa sono le peptideine | Errori comuni nel leggere questa scoperta | Domande frequenti
In breve
* Il Consortium ha analizzato 7.264 ncORF in 95.520 esperimenti di proteomica
* Il 25% produce peptidi rilevabili: identificate 1.785 nuove microproteine, il +9% rispetto al proteoma canonico
* Le microproteine con funzione incerta vengono classificate come peptideine: terza categoria tra proteina funzionale e sequenza non codificante
* Alcune peptideine presentate dal sistema HLA potrebbero diventare bersagli per l'immunoterapia oncologica
* Dati e strumenti pubblici disponibili su GENCODE e PeptideAtlas
Il proteoma umano e il dark proteome
Il proteoma umano è l'insieme completo delle proteine prodotte dall'organismo. I database di riferimento GENCODE e UniProtKB catalogano circa 19.500 geni proteici canonici: geni il cui prodotto proteico ha struttura e funzione verificate sperimentalmente. Fino a pochi anni fa, questo numero sembrava sostanzialmente stabile.
Il genoma umano contiene però migliaia di regioni aggiuntive chiamate ncORF (open reading frame non canonici): sequenze capaci di essere tradotte in piccole catene di aminoacidi, ma escluse dai cataloghi ufficiali perché non soddisfacevano i criteri classici di riconoscimento dei geni proteici. Questi elementi costituiscono il cosiddetto dark proteome, ovvero i prodotti proteici di segmenti genomici che i database tradizionali non avevano ancora registrato.
Nel corso dell'ultimo decennio, ricerche su singoli tipi cellulari o stati di malattia avevano osservato la traduzione di questi ncORF. La domanda rimasta aperta era quanti di essi producano davvero molecole proteiche rilevabili e biologicamente significative su scala complessiva. Lo studio del TransCODE Consortium offre la prima risposta sistematica.
Come il TransCODE Consortium ha identificato le microproteine
Il Consortium è stato fondato nel 2022 con l'obiettivo di definire standard per l'annotazione degli ncORF e delle microproteine che codificano, riunendo i team di GENCODE, PeptideAtlas, HUPO-HPP e HUPO-HIPP. L'approccio metodologico si è sviluppato in tre fasi principali:
1. Selezione dei candidati: 7.264 ncORF supportati da GENCODE sono stati selezionati sulla base di segnali di traduzione già documentati in studi precedenti. 2. Analisi su larga scala: ogni ncORF è stato cercato in due build di PeptideAtlas. La build non-HLA 2023-06 conteneva 3,5 miliardi di spettri di spettrometria di massa. La build HLA 2023-11 aggiungeva 240 milioni di spettri da dataset di leucociti umani. In totale: 95.520 esperimenti, 3,7 miliardi di punti dati, circa 20.000 ore di calcolo informatico. 3. Validazione evolutiva con ORBL: il team ha sviluppato il metodo ORF Relative Branch Length (ORBL) per misurare la conservazione evolutiva di ciascun ncORF tra specie diverse. Gli ncORF con vincoli evolutivi più forti avevano maggiore probabilità di essere biologicamente funzionali.
Il risultato finale mostra che circa il 25% dei 7.264 ncORF analizzati produce peptidi rilevabili con evidenza sufficiente per un'annotazione formale: 1.785 microproteine, pari a un incremento del 9% rispetto al proteoma umano canonico.
Cosa sono le peptideine
Non tutte le 1.785 microproteine identificate presentano lo stesso grado di evidenza funzionale. Quelle con sufficiente supporto proteomico vengono inserite direttamente nei database canonici come proteine umane. Quelle con potenziale biologico ma caratterizzazione ancora incompleta vengono classificate con un termine introdotto dallo stesso Consortium: peptideina.
Una peptideina è una microproteina codificata da un ncORF il cui ruolo funzionale rimane indeterminato. Il concetto introduce una terza opzione nell'interpretazione di una sequenza genomica: il DNA può tradursi in una proteina funzionale, in una peptideina con potenziale da esplorare, oppure non produrre nulla di rilevabile. Questa classificazione consente di separare le molecole biologicamente significative da quelle che non hanno ancora prove sufficienti, senza escluderle a priori.
Per verificare la pertinenza biologica del concetto, i ricercatori hanno applicato l'analisi ORBL a una peptideina derivata dall'RNA non codificante lungo OLMALINC. I test di genomica funzionale hanno mostrato che questa peptideina ha un fenotipo cellulare pan-essential: la sua rimozione incide negativamente sulla sopravvivenza cellulare in più tipi di cellule, un segnale tipico delle proteine con funzioni centrali per la vita della cellula.
Un altro elemento riguarda l'immunoterapia oncologica. Alcune peptideine vengono presentate sulla superficie delle cellule attraverso il sistema HLA (Human Leukocyte Antigen), che espone frammenti proteici al sistema immunitario. Se una microproteina è specifica delle cellule tumorali e assente nei tessuti sani, può diventare un bersaglio per terapie immunologiche come vaccini oncologici personalizzati o terapie con linfociti T modificati.
Errori comuni nel leggere questa scoperta
Il proteoma non è stato raddoppiato: alcuni titoli hanno evocato un raddoppio delle proteine umane note. Le 1.785 microproteine rappresentano il 9% delle circa 19.500 proteine canoniche: una crescita rilevante, non una rivoluzione immediata del catalogo. La maggior parte delle peptideine richiede anni di ulteriore caratterizzazione prima di ricevere un'annotazione formale.
Le microproteine non equivalgono alle proteine canoniche: una microproteina differisce da una proteina standard per dimensioni (tipicamente molto più piccola), per il livello di caratterizzazione strutturale e per la certezza della funzione biologica. Il concetto di peptideina è stato introdotto proprio per distinguere questo livello intermedio: molecole rilevabili e potenzialmente funzionali, ma non ancora classificabili come geni proteici completi.
Il dark proteome non è il DNA spazzatura: il termine DNA spazzatura si riferisce storicamente a sequenze senza funzione nota. Il dark proteome descrive invece i prodotti proteici di sequenze genomiche che i database non avevano ancora catalogato: non sequenze inutili, ma molecole reali il cui ruolo deve ancora essere determinato.
L'applicazione terapeutica non è prossima: il legame tra microproteine e immunoterapia oncologica è un ambito di ricerca di base, non uno sviluppo clinico imminente. Le peptideine presentate dal sistema HLA potrebbero essere bersagli tumorali specifici, ma la strada verso un farmaco richiede validazione in studi clinici che non sono stati ancora avviati per questi target specifici.
Domande frequenti
Cos'è un ncORF e perché non era annotato prima?
Un ncORF (open reading frame non canonico) è una sequenza del genoma capace di essere tradotta in una catena di aminoacidi, ma esclusa dai cataloghi ufficiali dei geni proteici. I criteri storici richiedevano che un ORF superasse soglie minime di lunghezza, mostrasse omologie evolutive solide e avesse evidenza sperimentale diretta. Molti ncORF non soddisfacevano queste condizioni, pur producendo molecole rilevabili con tecniche di spettrometria di massa.
Le 1.785 microproteine entrano subito in GENCODE o UniProt?
Solo le microproteine con evidenza proteomics di qualità ricevono un'annotazione formale immediata nei database canonici. Le restanti vengono classificate come peptideine, una categoria riconosciuta dal Consortium ma integrata in modo separato rispetto alle proteine canoniche. Il database PeptideAtlas e GENCODE hanno reso pubblici gli strumenti per consultare le evidenze raccolte nello studio.
Cosa significa 'fenotipo pan-essential' per una peptideina?
Un fenotipo pan-essential indica che la rimozione di una proteina causa perdita di vitalità cellulare in più tipi cellulari diversi, non solo in uno specifico contesto. Per la peptideina derivata da OLMALINC, i test di genomica funzionale hanno mostrato che la sua assenza incide negativamente sulla sopravvivenza cellulare in modo trasversale: un segnale tipico di molecole con funzioni essenziali per la cellula.
Le microproteine possono già essere usate in terapia?
Allo stato attuale le microproteine identificate sono oggetto di ricerca di base. Alcune presentate dal sistema HLA potrebbero essere bersagli tumorali specifici, e ricerche collegate hanno già individuato peptidi crittici come potenziali antigeni nel carcinoma pancreatico. Nessun trattamento clinico basato su queste molecole è però disponibile: si tratta di candidati per future terapie immunologiche, in attesa di validazione negli studi clinici.
La pubblicazione del TransCODE Consortium stabilisce uno standard metodologico che altri laboratori potranno adottare per proseguire la mappatura del dark proteome. Con strumenti pubblici disponibili su GENCODE e PeptideAtlas, la ricerca sulle microproteine entra in una fase più strutturata: dall'identificazione di singoli casi alla catalogazione sistematica, con una nomenclatura condivisa che facilita il confronto tra studi. Le implicazioni concrete per la diagnostica, lo sviluppo farmacologico e l'immunoterapia dipenderanno dalla velocità con cui la comunità scientifica riuscirà a caratterizzare le 1.785 microproteine identificate e quelle che analisi future porteranno alla luce.