Den genetiska koden styr inte bara vilka proteiner cellen tillverkar, utan bestämmer också till stor del hur mycket. Den här enligt forskarna banbrytande upptäckten om allt biologiskt liv har systembiologer på Chalmers gjort genom att utnyttja superdatorer och artificiell intelligens, AI. Deras forskningsresultat, som i förlängningen även kan kasta nytt ljus över cancergåtan, publicerades nyligen i Nature Communications.
Med hjälp av AI och superdatorer har forskarna funnit återkommande mönster och kombinationer av genetikens fyra molekylära byggstenarna med beteckningarna A, C, G och T – så kallade motiv – som kan kopplas till genuttryck i form av genomsnittligt producerade proteinnivåer.
Fotograf: PIxabay/Chalmers
Att DNA-molekylen innehåller instruktioner för de olika proteiner som cellerna tillverkar har varit känt ända sedan den långa dubbelspiralen identifierades som livets informationsbärare i mitten av förra seklet. Men vad som avgör i vilken mängd ett visst protein ska tillverkas har länge varit oklart. Mätningar har visat att en enda cell kan innehålla allt ifrån ett fåtal ”beställda” molekyler av ett visst protein upp till flera tio tusentals.
Forskningen om vad som styr detta så kallade genuttryck har nu tagit ett stort kliv framåt i och med att forskargruppen på Chalmers kunnat visa att även informationen som reglerar ”hur mycket” till stor del ligger inbäddad i själva DNA-koden. Samt dessutom att denna information kan avläsas med hjälp av superdatorer och utnyttjande av AI.
Liknar resultaten med orkestrars partitur
– Man kanske kan jämföra med ett orkesterpartitur. Noterna talar om vilka toner de olika instrumenten ska spela. Men enbart tonerna säger inte så mycket om hur musiken kommer att låta, förklarar forskarassistent Aleksej Zelezniak, på institutionen för biologi och bioteknik vid Chalmers, som leder gruppen.
Därtill krävs även exempelvis beteckningar för musikens tempo och dynamik. Men i stället för skrivna anvisningar som allegretto och forte i anslutning till notskriften, så sprider genetikens språk ut motsvarande information över stora delar av DNA-molekylen.
– Tidigare kunde vi läsa noterna, men inte hur musiken skulle spelas. Men nu kan vi göra det. Man skulle också kunna uttrycka det som att vi har funnit reglerna och grammatiken för det genetiska språket, säger Zelezniak
Vari består då denna grammatik, som bestämmer nivån på genuttrycket?
Enligt Zelezniak handlar det om återkommande mönster och kombinationer av genetikens ”nottecken” – de fyra molekylära byggstenarna med beteckningarna A, C, G och T – så kallade motiv.
Avgörande är relationen mellan dessa motiv, hur ofta de upprepas och exakt på vilka positioner i DNA-koden som de uppträder.
– Vi har funnit att den här informationen fördelar sig över både de kodande och de icke-kodande delarna av DNA, det vill säga även i det som tidigare brukade betecknas som ”skräp-DNA”.
Upptäckten giltig för allt biologiskt liv
Även om det finns flera faktorer som påverkar genuttrycket i cellen, så kan enligt Chalmersforskarnas studie ända upp till över 80 procent av nivåerna förklaras med den information som ligger inbäddad i själva den genetiska koden.
Forskarna har testat metoden i sju olika modellorganismer – allt från jästsvamp och bakterie till fruktfluga, mus och människa – och funnit att mekanismen är densamma.
Enligt forkarna är det alltså en universell upptäckt de gjort, giltig för allt biologiskt liv.
Upptäckten hade enligt Aleksej Zelezniak aldrig varit möjlig utan dagens tillgång till superdatorer och AI. Forskargruppen har gjort massiva datakörningar både på Chalmers och på andra håll i landet.
– Det här verktyget låter oss titta på tusentals positioner samtidigt, det blir ett slags automatiserad undersökning av DNA. Det är förutsättningen för att man ska kunna identifiera mönster i så stora datamängder som det är fråga om här.
Jan Zrimek, postdoc i gruppen och studiens förstaförfattare, fyller i:
– Med tidigare tekniker var forskarna tvungna att tala om för systemet vilka motiv i DNA-koden som det skulle söka efter.
– Men tack vare AI lär sig nu systemet på egen hand att identifiera olika motiv och motivkombinationer som är relevanta för att styra genuttrycket.
Men han tillägger att upptäckten också beror på ansatsen att i ett enda svep undersöka en betydligt större del av DNA än vad som gjorts i tidigare studier.
Snabbt värde inom läkemedelsindustrin
Aleksej Zelezniak räknar med att upptäckten kommer att väcka stort intresse i forskarvärlden och att metoden kan bli ett viktigt verktyg inom flera forskningsfält – genetik och evolutionsforskning, systembiologi, medicin och bioteknologi.
Den nya kunskapen kan också göra det möjligt att bättre förstå hur enstaka mutationer kan påverka genuttrycket i cellen och därmed i förlängningen hur cancer uppkommer och fungerar.
Den tillämpning som snabbast skulle kunna få betydelse för gemene man tror han finns inom läkemedelsindustrin.
– Man kan tänka sig att det här verktyget gör det möjligt att förbättra genmodifieringen av de mikroorganismer som redan idag används som ”biologiska fabriker”, säger han.
– Det skulle kunna leda till att det går snabbare att ta fram och producera nya läkemedel, vilket i förlängningen kan ge oss billigare mediciner.
Läs artikeln i Nature Communications:’
Deep learning suggests that gene expression is encoded in all parts of a co-evolving interacting gene regulatory structure
Mer om: Forskningen som har kartlagt DNA-kodens motiv
Forskarna använde inledningsvis DNA från en jästsvamp för sina experiment. Självlärande algoritmer, i form av så kallade artificiella neuronnät, tränades upp för att kunna förutsäga sambandet mellan DNA-data och genomsnittliga mängder proteiner i cellerna.
För jäst fann man att 82 procent av genuttryckets variation kunde förutsägas enbart med hjälp av DNA-data. När samma metodik prövades på sex andra organismer, inklusive människa, uppmättes det genomsnittliga sambandet mellan DNA-kod och genuttryck till 60 procent. Vidare analyser av enskilda geners uttryck visade att det som styr nivån är förekomsten av vissa ”motivkombinationer” i DNA-koden, som finns i olika delar av DNA-koden – både i de så kallade kodande regionerna och de icke-kodande regionerna.
Forskningen har fått stöd av Nvidia Corporation, Swedish National Infrastructure for Computing (SNIC), SciLifeLab och Europeiska unionens forsknings- och innovationsprogram Horizon 2020.