最新研究破解癌癥全基因組密碼
《自然》雜志以封面專題的形式刊載了一組超重磅研究論文,包括《自然》主刊刊發(fā)的6篇論文在內(nèi),《自然》及其旗下子刊共計發(fā)表21篇論文、3篇新聞報道及評論。
這些研究報告出自近年來備受關(guān)注癌癥基因組研究,是以全球癌癥基因組協(xié)會(ICGC)和癌癥基因組圖譜計劃(TCGA)工作為基礎(chǔ)的癌癥全基因組泛癌分析(PCAWG,Pan-Cancer Analysis of Whole Genomes Consortium)。
過去,人類對癌癥基因組的研究集中在功能基因,即編碼蛋白質(zhì)的突變后致癌的基因,而這些編碼蛋白質(zhì)的功能基因僅占全基因組的不到2%。剩余98%的基因中哪些變異可能與癌癥有關(guān),正是全基因組分析的意義所在,進一步探索編碼區(qū)和非編碼區(qū)中體細胞和種系基因變異的性質(zhì)及后果,特別關(guān)注順式調(diào)控位點、非編碼RNA及大規(guī)模結(jié)構(gòu)變異。
PCAWG項目主導(dǎo)下,來自四大洲744個科研機構(gòu)科研人員對38個瘤種2658份癌癥及相應(yīng)正常組織樣本進行了全基因組測序和整合分析,帶來了關(guān)于癌癥全基因組的全新認識。
PCAWG研究
數(shù)據(jù)概述
發(fā)表在《自然》雜志的6篇論文報告分別從不同角度介紹了癌癥全基因組的分析結(jié)果。本次報告的研究成果揭示了大規(guī)模結(jié)構(gòu)突變在癌癥中所發(fā)揮的廣泛作用,在基因調(diào)控區(qū)域找到了新的癌癥相關(guān)突變,推斷了多種腫瘤的進化等。
在第一篇文章中,研究人員概述了PCAWG數(shù)據(jù)的深度和廣度。平均看,每個腫瘤基因組樣本中,大約有4~5個驅(qū)動癌癥發(fā)生的突變,給這些腫瘤細胞帶來生存的選擇性優(yōu)勢,有5%的樣本未檢出驅(qū)動性突變,提示我們在癌癥驅(qū)動突變的發(fā)現(xiàn)中還有很多工作要做。
研究所用的腫瘤樣本中,很多出現(xiàn)了復(fù)雜的DNA重排(17.8%為染色體重排,chromoplexy;22.3%為染色體碎裂,chromothripsis),它們導(dǎo)致了基因組結(jié)構(gòu)的變化。
其余5篇文章中,不同小組的研究人員分別從基因組突變特征、癌癥進化史、RNA改變和非編碼DNA這幾個方面進行了詳細的討論。
基因組突變特征
5篇文章有2篇分析了不同類型的突變特征,其中一篇是關(guān)于體細胞突變。
癌癥基因組中的體細胞突變是由多個突變過程引起的,每個突變過程都會產(chǎn)生具有特征性的突變特征。研究人員通過對4645個全基因組和19184個外顯子序列的測序,確定了49個單堿基取代,11個雙堿基取代,4個簇堿基取代和17個小插入/缺失特征。
在這些突變特征中,既包含過去研究已經(jīng)發(fā)現(xiàn)的,也有一些全新的。雖然有些突變特征的誘因沒有找到,但是在這些數(shù)據(jù)的基礎(chǔ)上建立突變特征庫并確定它們在不同癌癥中的作用,可以幫助研究人員更系統(tǒng)地了解癌癥的發(fā)展。
另一篇則是關(guān)注了結(jié)構(gòu)變異。結(jié)構(gòu)變異也是癌癥的關(guān)鍵突變過程,研究人員共找到了16種結(jié)構(gòu)變異特征并且解析了它們在癌癥中的作用。例如缺失,在各種癌癥類型和患者中分布不均,在晚期復(fù)制區(qū)域富集,并且和倒位相關(guān)。
總的來說,這些突變特征的發(fā)現(xiàn)為理解癌癥發(fā)展機制以及風(fēng)險因素的誘變暴露的作用奠定了基礎(chǔ)。
癌癥進化史
關(guān)于癌癥進化史的文章中,研究人員重建了38種癌癥的發(fā)展史以及突變過程和驅(qū)動突變序列的演變。
通過比較不同細胞亞群里的突變,可以倒推出這些突變出現(xiàn)的先后順序。分析發(fā)現(xiàn),早期腫瘤發(fā)生的特征是一組受限制的驅(qū)動基因的突變,以及特定的拷貝數(shù)增加;而后期,驅(qū)動基因突變有了近4倍的多樣化,基因組的不穩(wěn)定性增加。在整個腫瘤發(fā)展過程中,有至少40%的腫瘤突變譜會發(fā)生顯著變化。
在癌癥早期,最常出現(xiàn)的是驅(qū)動型突變。值得注意的是,驅(qū)動基因突變的發(fā)生通常要比癌癥的診斷早幾年甚至幾十年,驅(qū)動基因突變可在診斷數(shù)年甚至幾十年前出現(xiàn),這可能對癌癥早期診斷或生物標志物的開發(fā)有重要意義。
時序分析表明,環(huán)境對腫瘤進展的影響隨時間推移而逐漸減弱,DNA修復(fù)缺陷的頻率和嚴重性逐漸增加,即隨著時間推移,環(huán)境造成的影響會越來越小,DNA修復(fù)缺陷造成的影響則會越來越大。
RNA改變
在癌癥研究中,針對RNA改變的研究相對較欠缺,這次的新研究利用龐大的樣本量為我們提供了迄今為止最全面的數(shù)據(jù)。
研究人員分析了1188個轉(zhuǎn)錄組的數(shù)據(jù),發(fā)現(xiàn)拷貝數(shù)變異仍是癌細胞中驅(qū)動基因表達變化的主要因素,但數(shù)百個單核苷酸突變也會影響到周圍的基因表達。此外,癌細胞里的一些突變還會引起轉(zhuǎn)錄信息的變化,如產(chǎn)生新的蛋白編碼序列等。
通過匹配的全基因組測序,研究人員將幾類RNA改變(包括過表達和基因融合等)與DNA改變功能性地關(guān)聯(lián)在一起,共確定了649個影響基因表達的體細胞單核苷酸變異和1900個與體細胞突變有關(guān)的剪切改變。
此外,高達82%的基因融合和結(jié)構(gòu)變異有關(guān),包括75種新的“橋接”融合(兩個基因中插入第三個基因并發(fā)生融合)。
研究人員觀察到,轉(zhuǎn)錄組改變的特征在不同癌癥中是不同的,且與DNA突變特征的變化相關(guān)。這種RNA改變?yōu)榱私馀c癌癥相關(guān)的功能性基因和機制提供了新的可能。
非編碼DNA
研究人員嘗試從非編碼DNA里尋找癌癥的驅(qū)動因素,發(fā)現(xiàn)了一些全新的癌癥驅(qū)動突變,如抑癌基因TP53的一段非編碼區(qū)里,反復(fù)出現(xiàn)了一種突變。而編碼端粒酶的基因TERT的非編碼區(qū),也有會導(dǎo)致其過度表達的突變,這或許會促進癌細胞異常分裂。
由于準確檢測非編碼區(qū)突變比編碼區(qū)突變難度更大,因此研究人員開發(fā)了兩種新的發(fā)現(xiàn)驅(qū)動突變的方法。
研究人員檢測發(fā)現(xiàn)了一些新的突變,包括TP53的5’端非編碼區(qū),NFKBIZ和TOB1的3’端非翻譯區(qū)的點突變等,同時,也對過去發(fā)現(xiàn)的個別突變提出了質(zhì)疑,例如NEAT1和MALAT1。
研究人員還發(fā)現(xiàn)端粒酶基因TERT的非編碼區(qū)中相對頻繁的突變導(dǎo)致端粒酶的過表達,會促進癌細胞的分裂。
雖然驅(qū)動癌癥的點突變和結(jié)構(gòu)變異在非編碼基因和調(diào)控序列中發(fā)生的頻率比編碼基因和序列中要低,但隨著更大的基因組分析,還會有很多非編碼DNA突變被發(fā)現(xiàn)。
線粒體與癌癥
線粒體是人體內(nèi)的能量工廠,由于能量代謝改變是癌癥的普遍特征,因此一直以來,很多科學(xué)家懷疑線粒體也參與到癌癥的發(fā)病過程中。
此外,線粒體在細胞的生物合成、信號傳導(dǎo)、分化、凋亡、維持細胞周期和細胞生長的控制等方面也起重要的作用,上述過程也都與癌癥發(fā)生有內(nèi)在聯(lián)系。
雖然之前也有研究探索了線粒體與癌癥的關(guān)系,但未充分探索線粒體基因組和核基因組之間的相互作用,以及線粒體改變的生物學(xué)意義。
PCAWG為上述研究提供了充足的數(shù)據(jù)。MD Anderson癌癥中心的研究人員,從多個方面分析了線粒體基因組數(shù)據(jù)和相關(guān)的RNA測序數(shù)據(jù)。
研究人員繪制了線粒體基因突變圖譜,還確定了幾個超突變病例。他們發(fā)現(xiàn),線粒體基因的截斷突變在腎癌、結(jié)直腸癌和甲狀腺癌中非常多,提示這些基因信號的改變有致癌作用。
研究人員還發(fā)現(xiàn),線粒體DNA存在頻繁的細胞核轉(zhuǎn)移,其中一些線粒體DNA片段會破壞治療靶基因。而且,線粒體拷貝數(shù)在癌癥內(nèi)部和之間差異很大,并且與一些臨床變量相關(guān)。
共表達分析凸顯了線粒體基因在氧化磷酸化、DNA修復(fù)和細胞周期中的功能,而且還發(fā)現(xiàn)它們與臨床上可干預(yù)基因位點之間存在聯(lián)系。該研究為線粒體生物學(xué)意義轉(zhuǎn)化成臨床應(yīng)用奠定了基礎(chǔ)。
拓撲相關(guān)結(jié)構(gòu)域與癌癥
人類體內(nèi)的DNA是以特定的三維結(jié)構(gòu)折疊在一起的。早有研究發(fā)現(xiàn),具有相同拓撲相關(guān)結(jié)構(gòu)域(TAD)的基因,表現(xiàn)出相似的表達水平和組蛋白修飾。且區(qū)分不同結(jié)構(gòu)域的邊界,對于維持上述特點的穩(wěn)定性至關(guān)重要。
實際上,學(xué)界已經(jīng)發(fā)現(xiàn),在人類癌癥中,這種結(jié)構(gòu)域破壞,會導(dǎo)致基因表達的失調(diào)。不過結(jié)構(gòu)域的在癌癥中被破壞的程度,仍了解較少。PCAWG數(shù)據(jù)庫提供了一個研究此類問題的好機會。
MD Anderson癌癥中心等研究機構(gòu)的研究人員分析了PCAWG數(shù)據(jù)庫中的288457個結(jié)構(gòu)變異,以了解結(jié)構(gòu)變異在拓撲相關(guān)結(jié)構(gòu)域中的分布,以及對拓撲相關(guān)結(jié)構(gòu)域的影響。
分析發(fā)現(xiàn),結(jié)構(gòu)變異可導(dǎo)致離得很遠的拓撲相關(guān)結(jié)構(gòu)域發(fā)生融合,或發(fā)生復(fù)雜的重排,最終破壞癌癥基因組染色質(zhì)折疊圖譜。此外,只有14%的結(jié)構(gòu)域邊界缺失,導(dǎo)致附近基因表達水平變化超過2倍。
該研究探索了體細胞結(jié)構(gòu)變異在不同類型腫瘤中的分布,及其在染色體折疊和基因調(diào)控中的作用。
LINE-1逆轉(zhuǎn)錄轉(zhuǎn)座子與癌癥
LINE-1逆轉(zhuǎn)錄轉(zhuǎn)座子是人類基因組中一個廣泛存在的重復(fù)元件,占整個DNA的17%??赏ㄟ^轉(zhuǎn)錄和逆轉(zhuǎn)錄的轉(zhuǎn)座過程產(chǎn)生新的DNA拷貝,插入到基因組不同的位置。
顯然,LINE-1轉(zhuǎn)座會影響基因組中其他基因的表達和調(diào)控,進而影響基因組的穩(wěn)定性。在約一半的癌癥中發(fā)現(xiàn)了逆轉(zhuǎn)錄轉(zhuǎn)座子的這種破壞行為。不過LINE-1的插入對癌癥的影響,還了解較少。
英國威康桑格研究所等機構(gòu)的研究人員,以PCAWG數(shù)據(jù)庫為基礎(chǔ),分析了癌細胞的逆轉(zhuǎn)錄模式和機制。研究人員發(fā)現(xiàn)了19166個獲得性逆轉(zhuǎn)錄事件,影響了35%的腫瘤樣本。
LINE-1插入是食管腺癌中最常見的結(jié)構(gòu)變異類型,是頭頸腫瘤和直腸癌中第二常見的體細胞結(jié)構(gòu)變異類型。且異常的LINE-1插入甚至可導(dǎo)致染色體上數(shù)百萬堿基對的DNA片段被刪除,有些抑癌基因就在被刪除的DNA片段之中。
此外,LINE-1插入還會誘發(fā)復(fù)雜的DNA片段異位和大規(guī)模的重復(fù),甚至還會導(dǎo)致癌基因表達水平大幅上升。
這些發(fā)現(xiàn)闡明了LINE-1逆轉(zhuǎn)錄轉(zhuǎn)座子在重塑癌癥基因組中的作用,對腫瘤的發(fā)展存在潛在的影響。
病毒感染與癌癥
世衛(wèi)組織估計,15.4%的癌癥歸因于感染,9.9%的癌癥與病毒有關(guān)??梢姴《靖腥九c癌癥之間存在密切關(guān)系。在癌癥相關(guān)的病毒中,最為人們熟知的是HPV、HBV、HCV和EBV四種。
德國癌癥研究中心的研究人員在PCAWG數(shù)據(jù)庫中,發(fā)現(xiàn)382個基因組數(shù)據(jù)和68個轉(zhuǎn)錄組數(shù)據(jù)集中存在病毒的蹤跡。他們發(fā)現(xiàn),在發(fā)現(xiàn)的病毒數(shù)據(jù)集之中,EBV、HBV和HPV(尤其HPV16和HPV18)的出現(xiàn)頻率較高。
研究人員還發(fā)現(xiàn),在頭頸腫瘤中,HPV的存在與驅(qū)動基因突變之間存在顯著的排他性;而HPV與APOBEC(有廣譜的抗病毒作用)突變間的相關(guān)性,意味著抗病毒能力的減弱,是宮頸癌、膀胱癌和頭頸癌的驅(qū)動因素。
HBV、HPV16、HPV18和AAV2病毒的整合,與基因組拷貝數(shù)的局部變異有關(guān)。在TERT啟動子處發(fā)生的病毒整合,與端粒酶表達水平高有關(guān),意味著這個腫瘤驅(qū)動基因被激活。高水平的內(nèi)源性逆轉(zhuǎn)錄病毒(ERV1)表達,與腎癌患者的預(yù)后差有關(guān)。
該研究提示,病毒感染與癌癥的關(guān)系值得深入研究。
染色體碎裂與癌癥
在染色體的復(fù)制過程中,有時會出現(xiàn)一種被科學(xué)家稱為染色體碎裂的災(zāi)難性大規(guī)?;蛑亟M。染色體碎裂的細胞一般會死亡,若不幸存活下來,就會引發(fā)癌癥。
雖然近年來科學(xué)家對染色體碎裂的機制有了一些研究,但對于染色體碎裂的成因、出現(xiàn)頻率及對細胞的影響還知之甚少。
哈佛大學(xué)路德維希中心等研究機構(gòu)的研究人員,基于PCAWG數(shù)據(jù)庫,對癌癥中的染色體碎裂事件進行了深入研究。
研究發(fā)現(xiàn),染色體碎裂事件普遍存在于所有類型腫瘤中。在幾種類型腫瘤中,出現(xiàn)頻率甚至超過50%。從功能上看,染色體碎裂有助于癌基因的擴增,還會導(dǎo)致DNA錯配修復(fù)相關(guān)基因失活。
該研究表明,染色體碎裂是驅(qū)動癌癥基因組進化的重要過程。
云計算與癌癥基因組數(shù)據(jù)分析
歐洲分子生物學(xué)實驗室(EMBL)發(fā)在《自然·生物技術(shù)》的研究成果,介紹了一種名為Butler的計算工具,它可以幫助科學(xué)家在公有云和學(xué)術(shù)云上開展大規(guī)模的基因組分析。
Butler包括創(chuàng)新的異常檢測和自我修復(fù)功能,與當前方法相比,該方法將數(shù)據(jù)處理和分析的效率提高了43%。通過Butler,可以高效、統(tǒng)一地處理PCAWG項目中的725TB癌癥基因組數(shù)據(jù)。
結(jié)語
數(shù)千位科學(xué)家合力帶來了這些突破,讓我們對癌癥基因組有了全新的認識。正如一篇報道中指出的,我們目前還比較缺乏臨床上與患者治療和預(yù)后相關(guān)的數(shù)據(jù),這些數(shù)據(jù)有助于我們更好地了解這些基因組信息與治療的相關(guān)性。
如今,科研的方式已經(jīng)與幾十年前大不相同,全球的科學(xué)家們通過云技術(shù)分享,數(shù)據(jù)的獲取不再是難題?!蹲匀弧冯s志評論中的數(shù)據(jù)顯示,2019年,共有來自146個國家和地區(qū)的83000余名研究者從歐洲信息學(xué)研究所獲取DNA數(shù)據(jù),總下載量達到6.7PB,相當于約2300億個完整的人類基因組。這樣的共享還會隨著數(shù)據(jù)的可及性而增加。
當前科研界要考慮的已經(jīng)不再僅僅是基因數(shù)據(jù)本身,還包括與其匹配的臨床信息的收集、基因組信息與醫(yī)療保健系統(tǒng)的整合、參與者的隱私保護、國際統(tǒng)一標準的建立等這些當下需要思考解決的問題。
(編譯 余新)
