首個基因挖掘大模型問世

近日,北京大學定量生物學中心錢瓏團隊研發、構建了全球首個針對功能基因挖掘任務的大語言模型SYMPLEX。該模型能夠自動高效地從海量生物文獻中發現具有目標功能的關鍵基因,並進行精准篩選和功能驗証,為后續的蛋白質功能設計、生物制劑開發以及生物制造的應用提供科學依據。團隊與中科院深圳先進技術研究院婁春波研究員合作,將SYMPLEX應用於mRNA加帽酶基因的挖掘,獲得的新加帽酶活性顯著優於mRNA疫苗生產中採用的商業化酶,展示了大語言模型賦能生物制造的巨大潛力。相關研究成果日前發表於國際學術期刊《科學·進展》。
“自然界生物體內蘊含著數量龐大的有用基因,這些基因經過億萬年自然選擇,形成了豐富多樣的序列組成和基因組合,演化出各種精妙的功能,幫助生物在各種不同環境中更好地生存繁衍。隨著測序獲得的生物序列累計達數十億量級,這些天然基因也為生物制造與合成生物技術提供了基因元件的‘寶庫’。”錢瓏告訴記者,盡管天然基因具備極為豐富的功能和潛力,但目前隻有一小部分熱門基因被高質量注釋並構建了序列或結構模型。“原因在於,基於序列、結構或深度學習的基因挖掘與蛋白質設計方法由於技術瓶頸無法拓展至復雜基因,進而制約了對高價值基因元件的挖掘與開發利用。”
針對上述問題,團隊創造性地將大型語言模型與結構化生物知識庫深度融合,開發出SYMPLEX智能基因挖掘平台。這一平台是強大的功能基因搜索引擎,可通過自動化閱讀與理解千萬級體量的生物學文獻,在基因、功能和知識水平上對文獻內容進行提取分析,並與專家數據庫進行概念對齊、交互和統計模式生成,從而產生高質量候選基因集合。對比結果表明,SYMPLEX大模型相比傳統方法具有顯著優勢。
研究團隊還通過大模型挖掘了mRNA加帽酶,並進行了實驗驗証。“以前,mRNA疫苗背后的一項關鍵工藝——mRNA 5’端加帽,一直是效率較低、成本高昂的‘卡脖子’環節。SYMPLEX發現了近2萬個新型加帽酶,並對其中十余個序列進行了驗証。我們從中找到了新酶,其活性超過當前mRNA疫苗制備使用的加帽酶的2倍。SYMPLEX挖掘的加帽酶數據庫,有望為mRNA疫苗和基於mRNA的基因療法研究提供關鍵技術。”錢瓏介紹。
“本項研究開創了功能基因挖掘的新范式,為mRNA疫苗規模化生產提供了關鍵酶資源庫。”錢瓏表示,研究團隊正在利用這一大模型進行更多可用於合成生物學的關鍵酶元件挖掘,並將該平台拓展至合成通路設計等領域,有望推動生物制造進入“人工智能驅動的科學研究”的新階段。(記者 晉浩天)

分享讓更多人看到
- 評論
- 關注