La mappa del pangenoma umano pubblicata in questi giorni è l’ultimo e forse definitivo progetto per catalogare le diverse varianti genetiche umane ed è destinata a diventare il nuovo riferimento per la genomica.
Sapevamo fin dall’inizio che la mappa del genoma era insufficiente a descrivere la variabilità genetica umana, come ho discusso ampiamente nei miei libri sul DNA. Si tratta infatti di una sequenza di riferimento costruita a partire da un pugno di individui che non rappresenta affatto la diversità genetica della specie.
Non che finora le differenze individuali siano state ignorate, così come i limiti della sequenza di riferimento. Possiamo dire con buona approssimazione che la genomica contemporanea si basa sullo studio delle differenze, alimentata anche dal numero sempre crescente di genomi individuali presenti nei database e dai progetti di ricerca sulla variabilità umana che erano già iniziati all’alba della genomica; alcuni li ho vissuti in prima persona e raccontati.
Di molte varianti conosciamo già la frequenza nelle diverse popolazioni e quasi tutte le applicazioni biomediche, nonché i siti di home genomics, tengono conto dell’esistenza di queste differenze. Si è fatto tuttavia finora a spizzichi e bocconi, tenendo conto di una miriade di sequenze genomiche da fonti diverse, con tecniche e qualità diverse e soprattutto senza un vero e proprio riferimento con cui confrontare i dati.
Un po’ come se tutti i geometri del mondo prendessero le misure in modo piuttosto preciso usando i loro strumenti e anche con un discreto scambio di dati, ma senza avere un metro di riferimento universale a cui rapportare i dati.
La mappa pangenomica è importante perché ci aiuta a catalogare e comprendere meglio la diversità genetica umana e a identificare varianti genetiche associate a malattie e ad altre caratteristiche umane.
L’applicazione più pratica e immediata che forse non tutti colgono riguarda invece la qualità delle analisi genetiche che si fanno ormai a milioni, quotidianamente e in tutto il mondo. Per capire, devo spiegare brevemente cosa succede quando si decodifica un DNA umano.
Quando si legge un genoma umano, non si può avere una sequenza ininterrotta delle lettere che lo compongono: con le tecniche attuali si possono leggere al massimo pezzi di qualche decina di migliaia di lettere (chiamate long reads) o più spesso di qualche centinaia di lettere (short reads). Un genoma umano diploide è però di 6 miliardi di lettere. Si tratta quindi di leggere tantissimi frammenti del DNA e poi metterli uno dietro l’altro in modo che siano una rappresentazione fedele di quel particolare genoma.
Questo assemblaggio (genome assembly) è un po’ come unire i pezzi di un puzzle, considerato però che qui i pezzi di DNA possono sovrapporsi, il che rende ancora più difficile l’opera. Ogni volta che si legge un genoma (il mio, ad esempio, è stato letto, e forse anche il vostro), gli algoritmi di assemblaggio mettono i vari pezzi in ordine usando come riferimento la mappa (di riferimento, appunto) del genoma umano. La mappa del genoma è come la foto del puzzle completo stampato sulla scatola e su quella si lavora per mettere insieme i pezzi.
Tuttavia, come abbiamo detto, la mappa di riferimento attuale non rappresenta la variabilità umana ma solo il genoma di pochi individui. Il mio DNA e il vostro contengono sicuramente alcune sequenze in più o in meno rispetto a quella mappa, così come sequenze orientate in modo diverso o spostate altrove. Ognuno di noi possiede pezzi del puzzle che nella foto di riferimento mancano oppure sono sistemati diversamente.
Per questo, ogni volta che si legge un genoma, gli algoritmi di genome assembly devono fare i salti mortali per dargli un senso e utilizzare i dati disponibili e la statistica per riempire in modo convincente i pezzi che non combaciano. Il risultato è spesso troppo incerto per le applicazioni di precisione. Pensiamo ad esempio alla diagnosi di varianti legate ai tumori o alla previsione di malattie. Inoltre, alcune popolazioni sono sottorappresentate nelle statistiche, complicando ulteriormente le cose.
Una mappa pangenomica è un passo importante per superare questi limiti. Si tratta infatti di un riferimento aggiornato, e più rappresentativo con cui gli algoritmi confronteranno ciascuna nuova lettura, trovando molti meno pezzi discrepanti. Sistemare tutto ciò in termini computazionali sarà forse un piccolo incubo, ma per questo abbiamo ottimi programmatori e potenze di calcolo sempre migliori.