5月20日,Nature子刊《Nature Communications》在線發(fā)表了重慶大學大數(shù)據(jù)與軟件學院曾遠松團隊研究論文,“CellFM: a large-scale foundation model pre-trained on tran omics of 100 million human cells”,開發(fā)了當前全球最大的單細胞基礎(chǔ)模型。
單細胞測序技術(shù)的飛速發(fā)展,帶來了海量數(shù)據(jù),也伴隨噪聲、稀疏性和批次效應(yīng)等挑戰(zhàn)。如何使用統(tǒng)一的框架最大程度地利用這些數(shù)據(jù),成為領(lǐng)域里亟待解決的問題。大語言模型(LLM)如ChatGPT等,已經(jīng)在多個領(lǐng)域展現(xiàn)了強大的泛化能力,這為單細胞大語言模型的誕生提供了靈感。然而,現(xiàn)有的單細胞大模型大多受限于數(shù)據(jù)規(guī)模,性能難以突破瓶頸。
曾遠松(第一作者兼第一通訊)聯(lián)合中山大學、華為、新格元兩家各領(lǐng)域龍頭公司共同研發(fā)的單細胞基礎(chǔ)大模型 CellFM 正式發(fā)表在 Nature Communications 雜志上。該模型基于超1億個人類細胞進行訓練(數(shù)據(jù)規(guī)模為同類模型的兩倍以上),并依托廣州超算中心的強大計算資源與華為昇騰芯片的高效算力,構(gòu)建了一個超過8億參數(shù)的模型,參數(shù)規(guī)模達同類模型的8倍以上。

億級人類細胞數(shù)據(jù)×8億參數(shù):CellFM引領(lǐng)單細胞大模型升級
目前,面向單一物種的單細胞轉(zhuǎn)錄組大模型大多基于千萬級細胞數(shù)據(jù)進行訓練,模型的泛化能力和對復(fù)雜生物過程的表征能力仍存在一定局限。為此,研究團隊收集了公開的人類單細胞轉(zhuǎn)錄組開源數(shù)據(jù),經(jīng)過篩選、清洗、均一化等預(yù)處理流程,建立了目前已知最大規(guī)模的超過1億細胞的高質(zhì)量訓練數(shù)據(jù)集;通過利用這些多樣化的單細胞數(shù)據(jù)集,研究團隊開發(fā)了一個具有8億參數(shù)的模型CellFM(圖1),這在規(guī)模和能力上是一個顯著的飛躍,使其比當前的單一物種LLMs大8倍。CellFM的核心是ERetNet,這是一種為效率和性能而設(shè)計的Transformer架構(gòu)變體,使研究團隊的模型能夠輕松處理龐大且復(fù)雜的數(shù)據(jù)集。研究團隊的實驗表明,CellFM在包括細胞注釋、擾動預(yù)測和基因功能預(yù)測在內(nèi)的各種單細胞下游應(yīng)用中,性能超過了現(xiàn)有模型。隨著單細胞RNA測序領(lǐng)域的不斷發(fā)展,研究團隊的工作有望激發(fā)科學界及更廣泛領(lǐng)域的想象力。

圖1 CellFM模型圖
CellFM賦能高精度基因功能預(yù)測
基因功能預(yù)測是生命科學研究的基礎(chǔ)。傳統(tǒng)的生物學研究需要大量實驗,而CellFM大模型通過虛擬預(yù)測,能夠快速鎖定功能靶點,依靠“計算先行、實驗驗證”,構(gòu)建AI for Science高效研究新范式。CellFM可以對不同生物學功能的基因進行準確分類,在三種二分類問題中準確率(Accuracy,縮寫ACC)都位列第一,如劑量敏感性任務(wù)取得最佳的ACC,較UCE和scGPT分別提升5.68%和5.86%,且UMAP可視化顯示出更清晰的基因簇分布。

圖2 各模型在3種基因功能二分類任務(wù)中的ACC對比。CellFM在3種任務(wù)中都獲得了最高的ACC。
CellFM助力靶點預(yù)測與擾動響應(yīng)模擬
CellFM能夠模擬細胞對基因敲除、過表達或藥物處理的響應(yīng),快速篩選潛在的藥物作用或基因調(diào)控結(jié)果。用CellFM的基因嵌入向量替換經(jīng)典擾動模型GEARS的嵌入向量,在Adamson和Norman數(shù)據(jù)集上,差異基因變化的Pearson相關(guān)系數(shù)在所有對比模型中最優(yōu)。CellFM還能夠根據(jù)擾動反向預(yù)測靶點基因,例如基于疾病樣本中的異常細胞,逆推出可能導致該表型的關(guān)鍵基因或藥物靶點。CellFM反向擾動預(yù)測的Top10命中率達81.8%,比scGPT高18.1%;且Top3命中率達到了scGPT的2倍,顯著提升尋找靶點基因的效率。

圖3 各模型擾動靶點基因預(yù)測命中率。CellFM的Top1-Top10命中率均領(lǐng)先其他模型。
作者介紹:
曾遠松博士現(xiàn)任重慶大學大數(shù)據(jù)與軟件學院弘深青年教師,2023年7月博士畢業(yè)于中山大學計算機科學與技術(shù)學院。曾博長期專注于“人工智能+”單細胞和空間多組學數(shù)據(jù)分析領(lǐng)域,并在Nature Computational Science、Nature Communications、Communications biology、Bioinformatics等期刊上發(fā)表了二十余篇文章。他主持了國家自然科學基金青年項目、國家資助博士后研究人員計劃項目、中國博士后面上項目和中央高?;究蒲袠I(yè)務(wù)費“基礎(chǔ)與前沿交叉專項”(青年項目)等項目。此外,他還獲得了2024年度ACM SIGBIO China“優(yōu)博獎”和2024年度川渝科技學術(shù)優(yōu)秀論文二等獎。
論文地址:https://www.nature.com/articles/s41467-025-59926-5
代碼地址:https://github.com/biomed-AI/CellFM
來源:大數(shù)據(jù)與軟件學院
作者:曾遠松 蒲姝穎