單細胞 RNA 測序 (single-cell RNA-seq, scRNA-seq) 技術作為最新一代測序技術,能夠獨立提供每個細胞的 RNA 表達譜,曾被Science雜誌列為年度最值得關注的六大領域榜首。深入挖掘scRNA-seq數據信息對腫瘤研究、細胞免疫研究以及腦神經學研究等多個領域具有重要作用,對臨牀疾病的診斷以及治療也有重要指導意義,因此scRNA-seq數據分析與建模是生物信息學的前沿和熱點研究領域。隨着測序技術的不斷髮展,規模更大的scRNA-seq數據不斷湧現,發展準確高效的scRNA-seq數據分析與建模方法對生物醫學研究具有重要意義。
近日,青島科技大學數理學院人工智能與生物醫學大數據團隊於彬副教授,在生物信息學頂級期刊Briefings in Bioinformatics(IF=8.990) 上發表題為“scGMAI: a Gaussian mixture model for clustering single-cell RNA-Seq data based on deep autoencoder”的研究論文。報道了一種新的scRNA-seq數據聚類模型—scGMAI。該模型基於深度學習方法可以顯著提高scRNA-seq數據的聚類結果並能準確識別細胞類型。於彬副教授為論文的第一作者及通訊作者,研究生陳晨為第二作者,青島科技大學為第一完成單位。
本研究首次使用深度自編碼網絡挖掘scRNA-seq數據中的重要信息並重構數據,提高了scRNA-seq數據下游分析能力。並且利用快速獨立成分分析方法對數據降維,獲取表徵scRNA-seq數據的有效信息並提高計算效率。利用基於EM算法的高斯混合模型對細胞進行更為準確的聚類。在17個公開的scRNA-seq數據集上與其它先進聚類方法比較,結果表明scGMAI的性能明顯優於其它聚類方法。scGMAI能夠準確挖掘scRNA-seq數據中的基因表達信息並聚類細胞,為基因差異表達研究、細胞發育軌跡推斷等下游分析提供有效的幫助,對臨牀疾病診療具有重要的指導意義。
文章鏈接://doi.org/10.1093/bib/bbaa316
Briefings in Bioinformatics是牛津大學出版社(Oxford Academic)出版的JCR一區頂級期刊,2020年的影響因子為8.990,在SCI收錄的59個“Mathematical & Computational Biology”類期刊中排名第1,在SCI收錄的79個“Biochemical Research Methods”類期刊中排名第3。
(撰稿:李磊; 審核:王明輝)