News

2025年度“中国生物信息学十大进展”公布

ADMIN | 2026-03-24 09:28:07

为推动我国生物信息学的学科发展和创新研究，充分展示和宣传我国生物信息学领域的重大研究成果，《基因组蛋白质组与生物信息学报（英文）》（Genomics, Proteomics & Bioinformatics，简称GPB）组织评选了2018-2024年每年度的“中国生物信息学十大进展”。在此基础上，GPB继续组织2025年度评选活动，经过100多名国内外生物信息学领域专家推荐、初选和复选投票、以及复核程序，现公布2025年度“中国生物信息学十大进展”评选结果（排名不分先后，按标题首字母顺序排序）。感谢所有专家秉持专业和公正的态度参与本年度十大进展的推荐和评选；祝贺所有入选工作的团队！同时祝愿大家在2026年跃马扬鞭、马到功成！

评审委员会

2026年3月23日

野生稻-栽培稻泛基因组图谱

普通野生稻是亚洲栽培稻的祖先，是水稻育种重要的种质资源。中国科学院分子植物科学卓越创新中心韩斌、赵强团队对16份亚洲栽培稻及129份普通野生稻进行测序与组装，构建了一个覆盖野生稻-栽培稻全谱系的高精度图谱，新增38.7亿个碱基对；涵盖69,531个基因，其中近20%为野生稻特有基因，这些基因与抗病防御、环境适应性等性状密切相关。该研究还进一步证实亚洲栽培稻单起源假说，定义了一个新的栽培稻亚群，成功绘制了一幅完整的水稻进化和驯化路线图。这是全球首个近饱和的野生稻泛基因组，为挖掘野生稻抗性基因，精准培育高产优质水稻奠定了分子基础。

该成果发表于Nature 期刊。

推荐理由：提供了野生稻与栽培稻的泛基因组参考图谱，系统化解决“单一参考导致的缺失变异与结构变异盲区”，对群体遗传、结构变异、重要农艺性状位点挖掘与育种设计具有深远的奠基价值。

图：野生稻-栽培稻泛基因组图谱

数据库和代码链接

http://ricepandb.ncgr.ac.cn/

https://ngdc.cncb.ac.cn/bioproject/browse/PRJCA024131

https://www.ncbi.nlm.nih.gov/bioproject/PRJEB73710/

https://doi.org/10.25452/figshare.plus.25697817

https://github.com/dongling-hub/Wild-rice-Pangenome-Project

https://doi.org/10.5281/zenodo.14881729

原文信息

Guo D, Li Y, Lu H, Zhao Y, Kurata N, Wei X, et al. A pangenome reference of wild and cultivated rice. Nature 2025;642:662–671. PMID: 40240605.

原文链接

https://www.nature.com/articles/s41586-025-08883-6

▲ 长按阅读原文

非小细胞肺癌单细胞免疫图谱揭示免疫治疗微环境异质性及耐药机制

肺癌免疫治疗耐药是临床重大挑战。北京大学张泽民、朱琳楠团队联合中国医学科学院肿瘤医院高树庚团队、同济大学附属上海市肺科医院陈昶、佘云浪团队、广东省人民医院钟文昭团队、郑州大学第一附属医院张毅团队、昌平国家实验室/重庆医科大学程斯进团队、深圳市人民医院邹畅团队、中国科学技术大学田志刚团队，利用单细胞转录组技术构建了抗PD-1治疗后非小细胞肺癌（non-small cell lung cancer，NSCLC）的免疫图谱。研究定义了五类肿瘤免疫微环境（tumor immune microenvironment，TIME）亚型，发现特定NK细胞亚群在疗效较好患者中富集并揭示其杀伤机制。此外，研究识别了不同耐药机制的免疫特征，并证实耗竭T细胞前体（precursor exhausted T cell，Texp）的丰度预测复发风险的能力显著优于传统病理指标。该成果为解析免疫治疗异质性及制定精准临床方案提供了重要资源。

该成果发表于Cell 期刊。

推荐理由：建立非小细胞肺癌新辅助免疫联合化疗的大规模单细胞数据资源，揭示肺癌免疫治疗异质性，支撑耐药机制解析与复发风险预测。

图：非小细胞肺癌新辅助免疫治疗后的免疫微环境异质性示意图

数据链接和代码链接

https://ngdc.cncb.ac.cn/gsa-human/browse/HRA005191

https://github.com/zwj-tina/neoadjuvant-treatment-of-NSCLC

原文信息

Liu Z, Yang Z, Wu J, Zhang W, Sun Y, Zhang C, et al. A single-cell atlas reveals immune heterogeneity in anti-PD-1-treated non-small cell lung cancer. Cell 2025;188:3081–3096.e19. PMID: 40147443.

原文链接

https://www.cell.com/cell/fulltext/S0092-8674(25)00291-0

▲ 长按阅读原文

基于人工智能的通用蛋白质工程方法—AiCE

蛋白质工程基于蛋白质具有的灵活性，通过人工手段改变氨基酸序列，实现对蛋白质结构和功能的修饰和改造，但常规方法往往成功率低且效益有限。中国科学院遗传与发育生物学研究所高彩霞团队基于整合了结构与进化约束的通用逆折叠模型，开发了一种新型人工智能(AI)蛋白质工程计算模拟方法AiCE (AI-informed Constraints for protein Engineering)。该方法无需训练专属AI模型，即可实现高效的蛋白质进化模拟和功能设计。利用AiCE对多种基因编辑工具进行进化优化，成功实现了效率和精度的快速提升，并以此开发了高效、精准的新型碱基编辑器，拓展了精准基因组编辑和蛋白质工程的边界。

该成果发表于Cell 期刊。

推荐理由：该研究开发了一种新型AI蛋白质工程计算模拟方法AiCE，无需训练专属AI模型，即可实现高效的蛋白质进化模拟和功能设计。

图：AiCE方法的概念与验证

工具链接

https://github.com/ScorpioLea/AiCE

原文信息

Fei H, Li Y, Liu Y, Wei J, Chen A, Gao C. Advancing protein evolution with inverse folding models integrating structural and evolutionary constraints. Cell 2025;188:4674–4692. PMID: 40628259.

原文链接

https://doi.org/10.1016/j.cell.2025.06.014

▲ 长按阅读原文

单细胞长读长染色质可及性图谱揭示小鼠早期胚胎发育表观调控规律

哺乳动物早期胚胎发育伴随着全基因组表观遗传重编程。由于样本稀少、细胞状态快速变化且不同步，现有方法难以在单细胞水平解析其染色质可及性，尤其难以刻画占基因组一半的重复序列的动态调控。北京大学汤富酬、文路团队与清华大学纪家葵团队合作开发了基于单分子测序平台的单细胞起始的长读长染色质可及性测序技术scNanoATAC-seq2及配套的高效生物信息学分析体系，系统绘制了小鼠着床前胚胎发育全过程的高精度单细胞染色质可及性图谱，揭示合子基因组激活、谱系分化及X染色体印记失活与重激活的表观调控规律，并拓展对非经典印记基因及MERVL、LINE1等重复序列表观调控机制的理解。

该成果发表于Science 期刊。

推荐理由：首创单细胞长读长染色质可及性技术，首次揭示小鼠早期胚胎发育全过程的表观遗传动态全景图。

图：scNanoATAC-seq2鉴定调控小鼠着床前胚胎合子基因组激活、谱系分化等重要生物学事件的主导转录因子

数据库链接

https://www.ncbi.nlm.nih.gov/bioproject/?term=PRJNA1084244

https://zenodo.org/records/14030067

https://zenodo.org/records/14584910

原文信息

Li M, Jiang Z, Xu X, Wu X, Liu Y, Chen K, et al. Chromatin accessibility landscape of mouse early embryos revealed by single-cell NanoATAC-seq2. Science 2025;387:eadp4319. PMID: 40146829.

原文链接

https://www.science.org/doi/10.1126/science.adp4319

▲ 长按阅读原文

绘制横跨半世纪的人类蛋白质组衰老图谱

蛋白质是生命活动的核心执行者，其稳态失衡是衰老的重要特征。中国科学院动物研究所刘光慧团队、国家生物信息中心张维绮团队、中国科学院动物研究所曲静团队与四川大学华西医院杨家印团队合作，融合超高灵敏度质谱与AI机器学习算法，首次构建横跨半世纪的人类蛋白质组衰老图谱。研究解码了mRNA–蛋白质解耦联与病理性淀粉样沉积协同导致蛋白稳态崩解的衰老规律；建立了首个AI驱动的器官衰老蛋白时钟，建立了血液蛋白预测器官衰老的框架；定义动脉血管为全身系统性的“衰老枢纽”。该研究提出的“蛋白质稳态失衡–血管衰老枢纽”模型，为系统性衰老机制提供研究新范式。

该成果发表于Cell 期刊。

推荐理由：构建了跨越50年的人类多器官蛋白质组图谱，揭示了衰老过程中转录组与蛋白质组的解偶联及蛋白质稳态失衡的分子机制，开发了AI驱动的器官衰老蛋白时钟，发现驱动血管和系统性衰老的关键循环蛋白（如GAS6）。

图：人类多组织蛋白质组图谱解析衰老的轨迹和特征

数据链接

https://www.iprox.cn/page/project.html?id=IPX0010296000

https://ngdc.cncb.ac.cn/gsa-human/browse/HRA009355

https://ngdc.cncb.ac.cn/gsa-human/browse/HRA011245

原文信息

Ding Y, Zuo Y, Zhang B, Fan Y, Xu G, Cheng Z, et al. Comprehensive human proteome profiles across a 50-year lifespan reveal aging trajectories and signatures. Cell 2025;188:5763–5784.e26. PMID: 40713952.

原文链接

https://doi.org/10.1016/j.cell.2025.06.047

▲ 长按阅读原文

单细胞表观基因组基础模型—EpiAgent

表观基因组是连接DNA序列与人体表型、解析致病机制的关键桥梁。清华大学江瑞团队建立了国际上首个单细胞表观基因组基础模型EpiAgent，原创性地将单个细胞的百万调控元件压缩为“细胞语句”，构建14亿参数的大模型统一解析复杂的基因调控规律。该模型通过独创的预训练任务，在涵盖500万细胞、350亿调控元件的自建超大规模人类染色质开放性图谱（Human-scATAC-Corpus）上完成训练。EpiAgent不仅使大规模表观基因组数据整合分析成为可能，更在肿瘤细胞中实现了内外源扰动响应与调控元件虚拟敲除的精准推演，从而全面开启了表观基因组虚拟细胞研究与应用的新范式。

该成果发表于Nature Methods 期刊。

推荐理由：首个单细胞表观基因组基础大模型，通过14亿参数的细胞压缩语言模型解决数据分析与建模难题，开创了表观基因组研究新范式。

图：EpiAgent预训练数据、词元化过程、模型架构及预训练任务

工具链接

https://github.com/xy-chen16/EpiAgent

https://doi.org/10.5281/zenodo.16562787

原文信息

Chen X, Li K, Cui X, Wang Z, Jiang Q, Lin J, et al. EpiAgent: foundation model for single-cell epigenomics. Nature Methods 2025;22:2316–2327. PMID: 40999099.

原文链接

https://www.nature.com/articles/s41592-025-02822-z

▲ 长按阅读原文

东南亚大陆复杂人群遗传结构与演化史

东南亚大陆是全球人类演化关键区域，但长期缺乏系统性基因组研究，成为全球人群多样性图谱的“最后一块拼图”。由中国科学院昆明动物研究所宿兵团队、张亚平团队、孔庆鹏团队联合东南亚多国34个科研团队，历经十余年，建成全球最完整的东南亚人群基因组数据集SEA3K。研究首次全面描绘东南亚人群遗传变异图谱，揭示热带环境适应基因的演化机制，并发现丹尼索瓦人多次基因渗入信号。该成果填补了全球基因组南方盲区，为解析人类表型与环境协同演化及区域精准医学提供关键支撑，是中国主导跨国研究的重大突破，也是“一带一路”科技合作的典范。

该成果发表于Nature 期刊。

推荐理由：填补全球人群基因组“南方盲区”，绘制首张东南亚人群完整基因组图谱，主导“一带一路”跨国合作，揭示其独特演化史与热带适应机制，是推动人类多样性研究新图景的重大突破。

图：东南亚人群基因组计划一期SEA3K的主要发现

数据资源链接

https://ngdc.cncb.ac.cn/gsa-human/browse/HRA007135

https://ngdc.cncb.ac.cn/bioproject/browse/PRJCA028104

https://ngdc.cncb.ac.cn/gvm/getProjectDetail?project=GVM000730

原文信息

He Y, Zhang X, Peng MS, Li YC, Liu K, Zhang Y, et al. Genome diversity and signatures of natural selection in mainland Southeast Asia. Nature 2025;643:417–426. PMID: 40369069.

原文链接

https://doi.org/10.1038/s41586-025-08998-w

▲ 长按阅读原文

全组织切片水平的空间蛋白组学技术框架—PLATO

近年来，空间组学技术已成为解析组织异质性和复杂细胞相互作用的重要工具。然而，现有空间蛋白质组学技术受限于质谱检测通量和高昂成本，难以兼顾高分辨率与大面积组织分析需求，限制了其在复杂组织研究中的广泛应用。中国科学院动物研究所赵方庆、冀培丰团队通过整合AI深度学习算法与微流控技术，提出了全新的空间蛋白组学技术框架—PLATO，实现了全组织切片水平的高分辨率空间蛋白质组检测（25微米分辨率，数千个蛋白），突破了高通量原位蛋白组学技术的瓶颈。

该成果发表于Cell 期刊。

推荐理由：提出了全新的空间蛋白组学技术框架—PLATO，通过整合AI深度学习算法与微流控技术，实现了全组织切片水平的高分辨率空间蛋白质组检测，突破了高通量原位组学技术瓶颈。

图：空间蛋白组技术PLATO的实现过程

数据链接和工具链接

https://proteomecentral.proteomexchange.org/?pxid=PXD045687

https://ngdc.cncb.ac.cn/bioproject/browse/PRJCA032225

https://ngdc.cncb.ac.cn/gsa/browse/CRA020331

https://github.com/bioinfo-biols/Flow2Spatial

原文信息

Hu B, He R, Pang K, Wang G, Wang N, Zhu W, et al. High-resolution spatially resolved proteomics of complex tissues based on microfluidics and transfer learning. Cell 2025;188:734–748.e22. PMID: 39855194.

原文链接

https://doi.org/10.1016/j.cell.2024.12.023

▲ 长按阅读原文

复杂疾病相关细胞单细胞级空间精确定位方法—gsMap

描绘疾病根源细胞的空间分布对理解病理学至关重要。尽管空间转录组（spatial transcriptomics，ST）技术突飞猛进，但如何精准识别复杂疾病遗传风险相关细胞并绘制其空间图谱仍具挑战。西湖大学杨剑团队开发了gsMap方法，将高分辨率ST与全基因组关联研究（genome-wide association studies，GWAS）数据深度整合，实现疾病相关细胞单细胞级空间定位。研究发现，精神分裂症与抑郁症等不同疾病相关的谷氨酸能神经元，在大脑内部呈现出特异性的空间分布模式与分子通路特征。gsMap不仅填补了复杂疾病高精度空间细胞定位的方法学空白，也为疾病发病机理研究和潜在药物靶点发现提供了强大的“空间导航系统”。

该成果发表于Nature 期刊。

推荐理由：gsMap算法开创性地将大规模GWAS遗传信号精确映射到组织空间位置，解决了从“遗传风险位点”到“具体细胞生境”的功能定位难题, 为解析复杂疾病（特别是精神类疾病）的细胞空间异质性提供了全新的统计学范式。

图：gsMap方法原理示意图

工具链接和在线可视化平台链接

https://github.com/JianYang-Lab/gsMap

https://yanglab.westlake.edu.cn/gsmap

https://doi.org/10.5281/zenodo.14744887

原文信息

Song L, Chen W, Hou J, Guo M, Yang J. Spatially resolved mapping of cells associated with human complex traits. Nature 2025;641:932–941. PMID: 40108460.

原文链接

https://www.nature.com/articles/s41586-025-08757-x

▲ 长按阅读原文

国家生物信息中心组学原始数据管理体系—GSA Family

高质量、可共享的组学数据对揭示生命规律、阐明疾病机制及推动精准医学发展具有重要意义。国家生物信息中心赵文明、王彦青团队建成了面向全球科研工作者开放的组学原始数据管理体系（GSA Family），支持多组学与多模态数据的汇交、存储、管理与共享。该体系由组学原始数据归档库（GSA）、人类组学原始数据归档库（GSA-Human）、多元数据归档库（OMIX）以及新纳入的开放生物医学影像存档库（OBIA）组成，并通过持续技术创新，不断提升标准化与自动化数据治理能力，为生命科学与医学研究提供了坚实的数据支撑。

该成果发表于Genomics, Proteomics & Bioinformatics 期刊。

推荐理由：逐步构建了中国生命组学测序数据汇交体系，成为我国数据规模最大的生物信息数据库，服务多项国家战略。

图：GSA Family数据资源与功能更新概览图

数据库链接

https://ngdc.cncb.ac.cn/gsa

https://ngdc.cncb.ac.cn/gsa-human

https://ngdc.cncb.ac.cn/omix

https://ngdc.cncb.ac.cn/obia

原文信息

Zhang S, Chen X, Jin E, Wang A, Chen T, Zhang X, et al. The GSA Family in 2025: a broadened sharing platform for multi-omics and multimodal data. Genomics, Proteomics & Bioinformatics 2025;23:qzaf072. PMID: 40857552.

原文链接

https://doi.org/10.1093/gpbjnl/qzaf072

▲ 长按阅读原文