人民網
人民網>>經濟·科技

最后一塊基因“拼圖”揭開哪些生命謎團

張佳欣
2023年09月01日08:54 | 來源:科技日報
小字號

原標題:最后一塊基因“拼圖”揭開哪些生命謎團

編者按 8月23日,兩篇發表在《自然》雜志的論文宣告:科學家組裝了人類Y染色體的第一個完整序列,補齊了人類基因組這部“生命天書”。多年以來,“生命天書”初稿被科學家反復打磨、拾遺補闕。等待了20多年后,Y染色體的完整“章節”姍姍來遲。而這還只是一個開始,未來,有關遺傳、生育、疾病、進化的諸多密碼有望被一一破解。

好消息傳來。美國國家人類基因組研究所領導美國約翰斯·霍普金斯大學、加州大學聖克魯斯分校等多家機構的科學家組裝了人類Y染色體的第一個完整序列。這是最后一個被完全測序的人類染色體,新序列填補了Y染色體長度的一半以上的空白。兩篇相關論文於8月23日發表在《自然》雜志上。

幾十年來,Y染色體作為人類兩性染色體之一,由於其結構的復雜性,一直是基因組學界難啃的“硬骨頭”。現在,這一難以捉摸的基因組區域已經被完整測序,這意味著,人類泛基因組的最后一塊“拼圖”被補上了。

這次測序為當前人類參考基因組增加了逾3000萬個鹼基對,揭示了多個基因家族的完整結構,並確認了41個新的蛋白質編碼基因,為研究生殖、進化和人口變化相關的重要問題提供了關鍵信息。

Y染色體測序困難重重

深圳華大生命科學研究院副院長金鑫在接受科技日報記者採訪時說:“人類基因組測序是理解人類疾病、健康和進化的關鍵。通過將個體基因序列與參考基因組進行比對,科學家可以找到與疾病相關的基因,進而為個體提供更精准的診斷和治療方案。”

深圳華大生命科學研究院研究員周旸介紹說,完整人類基因組中約有30億個鹼基對,科學家其實很難通過直接測序把序列測通,所以在測序的時候,需要將大片段的DNA進行隨機打斷再進行測序。對於常染色體是如此,對於X和Y染色體亦然。所以在測序結束后,科學家需要通過對測序數據進行拼接來得到完整真實的基因組序列。

1999年,人類首次成功完成對人體染色體完整基因序列的測定。科學家使用“短讀長”測序技術來做到這一點,將DNA切成大約一百個鹼基的小片段,然后像拼拼圖一樣重新組裝它們。

2022年,最新版人類參考基因組(T2T-CHM13)問世。該基因組包含22條常染色體和X染色體的無間隙序列,共有30.55億對鹼基,比之前的人類參考基因組(GRCh38)增加了近2億鹼基對的遺傳信息,約等於整個基因組8%的序列信息,達到了前所未有的完整程度。然而,人類參考基因組中的Y染色體,仍有約一半序列是缺失的。

Y染色體的測序為什麼如此棘手?周旸說:“這些未知區域主要集中在異染色質區域。該區域主要由微衛星序列組成。要通過測序數據確定其序列是一件非常困難的事情。”

微衛星序列通常屬於重復序列,是一種在基因組中廣泛存在的特殊DNA序列重復單元。金鑫表示,由於Y染色體包含大量重復或“回文”序列,共有多達百萬個鹼基對。而“短讀長”技術無法跨越這麼長的重復序列,從而無法確定正確的序列順序,也就無法繪制出完整序列。

組裝測序數據就像嘗試閱讀一本被切成條狀的長書,每一條都是書中的一句話。如果書中的所有句子都是唯一的,那麼就更容易確定句子的順序。但是,如果同一句話重復了數千或數百萬次,那麼這些句子的原始順序就沒有那麼清楚了。Y染色體上約有3000萬個鹼基字母是重復序列,就好像這本書的一半篇幅都重復著同樣的幾句話。

技術“組合拳”助力測序

如果把染色體比作一本書,那麼被稱為“短讀長”的DNA測序技術一次隻能讀取相對較短的序列,但現在,“長讀長”DNA測序技術可在不影響准確性的情況下生成更長的DNA序列讀數,甚至可一次閱讀整個“句子”或“段落”。這樣,研究人員能夠更准確地判斷“句子”“段落”之間的排列順序,從而更有助於完成完整的測序。

得益於“長讀長”DNA測序技術和創新的序列組裝方法,科學家們終於實現了對Y染色體的無間隙讀取。

周旸說:“科學家利用‘長讀長’DNA測序技術,一定程度上降低了組裝Y染色體的難度。另外,科學家也針對新技術的測序數據開發了新的組裝算法進行自動化組裝,提升了組裝效率。”

今年2月,美國國立衛生研究院研究人員發布了一種創新的軟件工具Verkko,用於組裝來自各種物種的真正完整的基因組序列。研究人員稱,有了Verkko,研究人員現在隻需按下一個按鈕就能自動獲取完整的基因組序列。

英國《新科學家》雜志網站8月23日報道,研究人員還運用了英國牛津納米孔公司所開發的納米孔(Nanopore)測序技術。當單個DNA分子穿過一個納米孔時,就能讀取該分子的序列,產生數百萬個DNA鹼基字母的片段,而不僅僅是幾百個。

在本次研究中,得益於上述方法,團隊能夠應對Y染色體測序中的種種挑戰。

Y染色體上的新發現

此次發表的一篇論文稱,Y染色體包含62460029個鹼基對序列。該數字比參考基因組GRCh38裡的Y染色體數據多了3000萬個鹼基對,標志著測序完整性的顯著進步。

通過改進GRCh38中的錯誤並闡明DAZ和RBMY等基因家族的結構(這兩個基因家族都有助於精子的產生),該團隊增進了對Y染色體遺傳結構的理解。

此外,這條完整的Y染色體有106個蛋白質編碼基因,比參考基因組多了41個。但幾乎所有這些額外的基因都只是一種被稱為TSPY的基因的副本。他們還辨識出以前被誤解為是細菌DNA的序列,這些序列其實是之前未知的人類Y染色體序列。

在另一篇論文中,包括美國杰克遜基因組醫學實驗室在內的聯合團隊組裝了代表世界21個不同人群的43名男性的Y染色體。這些組裝結果更詳細地闡釋了Y染色體在人類演化歷史中的遺傳差異。研究結果揭示了新的DNA序列、保守區域的特征,以及促進Y染色體復雜結構的分子機制。

金鑫表示,去年公布的T2T-CHM13完整基因組樣本取自一個葡萄胎的單倍基因組(完全性葡萄胎是一種罕見的妊娠並發症,由來源於胎盤的細胞異常生長引起),而此次樣本取自健康的人類個體。

上海交通大學長聘教軌副教授毛亞飛告訴記者,目前來看,這個數目的樣本已經是人類基因組測序上很大的突破。不過,下一步還應該選擇更廣泛的樣本,包括不同種族、地理區域和人群,這樣才能更好地代表全球人類遺傳多樣性,進而有助於揭示人類種群之間的遺傳差異和相似性,從而提供更准確的基因組參考。

完整基因測序意義非凡

Y染色體通常與生理性別為男性的個體相關聯,但它也可能存在於雌雄同體者中。盡管Y染色體上的基因相對較少,但這些基因復雜且處在動態變化中,並具有編碼精子生成等重要功能。完整的Y染色體參考序列將使科學家能夠以前所未有的方式更好地研究人類基因組中Y染色體的各種特征。

研究發現,不同個體含有10到40個TSPY基因拷貝。例如,一名男子的Y染色體有與精子形成有關的TSPY基因的23個拷貝,而另一名男子則有39個拷貝。現在,科學家可以使用新的參考圖譜和已建立的Y染色體測序方法更好地研究這種進化。這可能是未來體外受精領域或其他生殖和不孕症領域的研究焦點。

完整的、無間隙的Y染色體序列對於研究人類群體進化和遷移至關重要。毛亞飛補充說:“我們與猴子、黑猩猩等有共同的演化線索,通過解析基因組變化,可以了解人類是如何演化而來的。”

“此前,人們其實已經根據Y染色體的基因組草圖定位了許多與雄性發育、精子生成等過程相關的基因,也發現了Y染色體與諸如癌症等疾病的關聯﹔而最近發表的Y染色體完整序列將會為探索這些區域序列的功能提供扎實的數據基礎。”周旸指出,“新研究也進一步揭示了個體間Y染色體的差異。這些Y染色體上的變異以及與人類性狀的關聯分析將有助於人群演化、遺傳、疾病等方面的研究。”

總之,完整的人類Y染色體將為許多新發現打開大門。下一步,研究人員計劃通過將Y染色體納入未來版本的人類泛基因組參考圖譜來進一步改善Y染色體的研究。泛基因組是一種新的基因組參考,它將來自不同祖先背景的多個人的基因組信息結合起來,最終可以實現更客觀的研究和臨床發現,如幫助診斷疾病、預測醫療效果和指導治療等。

受訪專家均相信,目前發表的Y染色體的組裝結果只是一個開始。隨著技術的不斷發展,總有一天全世界的每一個人都可以對自己的基因進行測序。

金鑫展望道:“現在,我們去醫院都是做血常規、尿常規等檢測,未來有了臨床基因測序技術后,我們可能要先做個基因常規檢測,把最主要的遺傳信息跟疾病的關系、藥物的禁忌都先了解清楚,醫生再對症下藥。所以,基因組測序會對整個人類,尤其是對了解我們自身的健康起到非常重要的作用。”

(責編:楊曦、陳鍵)
關注公眾號:人民網財經關注公眾號:人民網財經

分享讓更多人看到

返回頂部