News

    2018年度“中国生物信息学十大进展”公布

    ADMIN | 2019-02-04 10:08:53.0

      为推动我国生物信息学的学科发展和创新研究,充分展示和宣传我国生物信息学领域的重大研究成果,《基因组蛋白质组与生物信息学报》(Genomics, Proteomics & Bioinformatics, 简称GPB)组织领域同行专家推荐、评选与审核,现公布2018年度“中国生物信息学十大进展”评选结果(排名不分先后)。

    GPB

    20190204


    中国科学院北京基因组研究所生命与健康大数据中心成为全球主要生物数据中心之一

    生物大数据是国家重要的基础性战略资源。我国已成为生物数据产出大国,能否有效管理和共享这些宝贵数据,直接关系到我国生物大数据的整合挖掘与转化利用水平。中国科学院北京基因组研究所生命与健康大数据中心团队 (BIG Data Center),面向人口健康和重要战略生物资源,建成以GSA为代表的我国首个基因组科学数据汇交共享平台和多组学数据资源体系,支撑国家科研项目的科学数据管理,为我国公益性科学研究与产业创新发展提供重要的基础数据资源和条件平台,被国际同行列为全球主要生物数据中心之一。

    该成果发表于《核酸研究》期刊。

    数据库链接:

    http://bigd.big.ac.cn

    原文信息:

    BIG Data Center Members. Database resources of the BIG Data Center in 2018. Nucleic Acids Res 2018;46:D1420. PMID: 29036542

    原文链接

    https://academic.oup.com/nar/article/46/D1/D14/4316108

    图片1.png


    新一代蛋白质组学开放式搜索引擎Open-pFind

    生物质谱数据的低解析率直接影响着肽段和蛋白质鉴定数目和鉴定精度的提高。究其原因,是由于数据中通常有大量存在意外修饰或发生意外酶切的肽段,而传统的限定式搜索因搜索空间有限,通常无法进行有效检索。中国科学院计算技术研究所pFind团队研发了新一代开放式搜索引擎Open-pFind,采用基于序列标签索引的开放式搜索流程,快速扫描蛋白质数据库,并全面考虑修饰、突变、半特异及非特异性酶切等因素。在四组典型质谱数据集上,Open-pFind解析率稳定达到70%‒85%;同时,在搜索空间是常规引擎5个量级的基础上,其速度仍然是常规引擎的23倍,是同类开放式引擎的数十倍甚至上百倍。在超大规模人类蛋白质组数据集上,Open-pFind报告了超过12,000种蛋白,且准确度远超以往常规分析结果。综上,Open-pFind基本解决了长期困扰蛋白质组学领域的低解析率问题,并已作为pFind 3软件的主力流程,助力国内外团队发表了20余篇应用文章。

    该成果发表于《自然生物技术》期刊。

    工具链接

    http://pfind.ict.ac.cn/software/pFind3/

    原文信息:

    Chi H, Liu C, Yang H, Zeng WF, Wu L, Zhou WJ, et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nat Biotechnol 2018;36:105961. PMID:  30295672

    原文链接:

    https://www.nature.com/articles/nbt.4236

    图片2.png

    调控细胞自噬的蛋白质与修饰数据库THANATOS

    细胞自噬是降解胞质内容物的保守性生物学过程,能够调控细胞的稳态平衡,决定细胞的生存或死亡。华中科技大学生命科学与技术学院薛宇研究团队审编和预测了164个真核生物的191,543已知或潜在参与调控细胞自噬和死亡的蛋白质,构建了数据库THANAOS。进化分析表明自噬核心基因在真核生物中高度保守;计算分析推测自噬相关蛋白质变异与人类疾病密切相关。通过整合翻译后修饰信息,研究团队重构了核心自噬蛋白质的激酶底物磷酸化网络,揭示了蛋白质翻译后修饰调控自噬的重要性和普遍性。THANATOS数据库为自噬研究提供了重要的数据资源。

    该成果发表于《自噬》期刊。

    数据库链接:

    http://thanatos.biocuckoo.org

    原文信息:

    Deng W, Ma L, Zhang Y, Zhou J, Wang Y, Liu Z, et al. THANATOS: an integrative data resource of proteins and post-translational modifications in the regulation of autophagy. Autophagy 2018;14:296310. PMID: 29157087

    原文链接:

    https://www.tandfonline.com/doi/full/10.1080/15548627.2017.1402990

    图片3.png


    基因组三维空间结构变化分析的新算法—FIND

    基因组三维空间结构变化是细胞应答外界信号、调控基因表达、决定细胞命运的关键。清华大学张奇伟、陈阳合作研究团队,在基因组三维空间结构捕获技术BL-Hi-C的基础上,充分考虑到基因组DNA是连续的线性结构并在邻近位置间存在空间依赖性,提出了利用空间泊松分布过程分析基因组三维空间结构变化的新方法FIND。该方法为从空间和时间维度上研究基因组功能增加了一项关键技术,将有望在精准医学、干细胞再生医学、合成生物学等方向获得广泛应用。

    该成果发表于《基因组研究》期刊。

    工具链接:

    https://bitbucket.org/nadhir/find

    原文信息:

    Djekidel MN, Chen Y, Zhang MQ. FIND: difFerential chromatin Interactions Detection using a spatial Poisson process. Genome Res 2018;28:41222. PMID: 29440282

    原文链接:

    https://genome.cshlp.org/content/28/3/412.long

    图片4.png


    极低分辨率Hi-C数据解析的高精度算法deDoc

    基因组三维结构是核内生命活动的舞台,具有关键的生物学功能。传统方法解析三维基因组需要超高分辨率的Hi-C数据。北京航空航天大学李昂生与中国科学院北京基因组研究所张治华两个研究团队合作,应用李昂生等人之前建立的结构信息理论,开发了利用极低分辨率Hi-C数据解析高精度拓扑结构域(TAD)的算法deDoc。在10个单细胞Hi-C数据聚合中应用deDoc,作者发现单细胞中的确存在类似TAD的结构单位。该发现后续被超高分辨率染色质显微成像证实。低成本、高精度的Hi-C数据解析方法将会使得三维基因组的研究可以更深入地扩展到大人群队列、罕见样本、及单细胞水平的问题中去,从而促进对基因组本身的理解。

    该成果发表于《自然通讯》期刊。

    工具链接:

    https://github.com/yinxc/structural-information-minimisation

    原文信息:

    Li A, Yin X, Xu B, Wang D, Han J, Wei Y, et al. Decoding topologically associating domains with ultra-low resolution Hi-C data by graph structural entropy. Nat Commun 2018;9:3265. PMID: 30111883

    原文链接: 

    https://www.nature.com/articles/s41467-018-05691-7

    图片5.png


    不依赖于蛋白抗体及靶序列的开放染色质相互作用捕获技术OCEAN-C

    真核细胞核中的染色质通过折叠成动态复杂的高级结构调控细胞重要功能。近年来,大量染色质捕获技术被提出。尽管这些技术各有优势,开发一种不依赖于探针序列或蛋白抗体,且能在较低测序量的条件下有效富集全基因组活跃转录调控元件间相互作用的技术仍是必须。为此,北京大学生命科学学院生物信息中心李程研究团队结合FAIRE-seq技术及Hi-C技术的关键步骤,开发了一种不依赖于蛋白抗体及靶序列的开放染色质相互作用捕获技术OCEAN-COCEAN-C可富集以结合大量转录因子为主的基因启动子、增强子间的相互作用及网络,并能与基因表达变化关联,帮助进一步阐明基因组结构、功能与疾病的关系。

    该成果发表于《基因组生物学》期刊。

    工具链接:

    https://github.com/ChengLiLab/OCEAN-C/

    原文信息:

    Li T, Jia L, Cao Y, Chen Q, Li C. OCEAN-C: mapping hubs of open chromatin interactions across the genome reveals gene regulatory networks. Genome Biol 2018;19:54. PMID: 29690904

    原文链接:

    https://genomebiology.biomedcentral.com/articles/10.1186/s13059-018-1430-4

    图片6.png


    RNA结合蛋白剪接调控作用的预测模型 
    基因组研究结果显示,人体内超过90%的基因存在选择性剪接。该过程在不同组织以及不同生理阶段受到严格的调控,其失调会导致多种疾病的发生。选择性剪接主要由各类反式剪接因子结合前体mRNA中的顺式元件来实现体内调控;典型的剪接因子包括一个或多个RNA结合域以及不同的功能模块,从而特异性地识别RNA并影响其剪接。中国科学院-马普学会计算生物学伙伴研究所中国科学院计算生物学重点实验室王泽峰研究团队首次利用机器学习方法来构建RNA结合蛋白剪接调控作用的预测模型,并在世界上首次从头设计合成带有特定活性的人工剪接因子。该研究揭示了RNA结合蛋白的序列组成对其选择性剪接调控活性的影响,为研究RNA结合蛋白的剪接活性提供了重要指导意义,也为全人工合成剪接因子提供了可行性。

    该成果发表于《细胞系统》期刊。

    原文信息:

    Mao M, Hu Y, Yang Y, Qian Y, Wei H, Fan W, et al. Modeling and predicting the activities of trans-acting splicing factors with machine learning. Cell Syst 2018;7:51020.e4. PMID: 30414922

    原文链接: 

    https://www.sciencedirect.com/science/article/pii/S2405471218303880

    图片7.png


    基因组拼接的新方法BAUM

    高质量的基因组是进化与遗传研究、精准医疗的基石。基因组拼接是以高通量测序技术为基础的核心计算生物学问题。中国科学院数学与系统科学研究院李雷研究团队将计算数学中的迭代、逐步逼近方法用于基因组拼接,研发了新方法BAUM。BAUM拼接方法的核心是以不同的准则反复映射序列,这可以通过该研究团队原创的SEME映射算法实现。BAUM通过调整映射唯一性准则,量化基因组中由重复序列导致的不确定性。该方法被成功地运用到了高原鼢鼠、鼠兔等基因组的拼接。由于采用逐步逼近方法,BAUM可以成为整合不同测序平台数据的工具。

    该成果发表于《生物信息学》期刊。

    工具链接:

    http://www.zhanyuwang.xin/wordpress/index.php/2017/07/21/baum

    原文信息:

    Wang A, Wang Z, Li Z, Li LM. BAUM: improving genome assembly by adaptive unique mapping and local overlap-layout-consensus approach. Bioinformatics 2018;34:201928. PMID: 29346504 

    原文链接: 

    https://academic.oup.com/bioinformatics/article-abstract/34/12/2019/4810438

    图片8.png


    追踪人体T细胞动态行为的新算法—STARTRAC

    单细胞转录组测序技术为系统了解人体T细胞的类别和状态提供了强大的实验工具,但是通常只能进行横断面式的“快照”,如何从中推断T细胞的动态行为是亟需解决的生物信息学问题。北京大学张泽民研究团队联合美国Amgen公司欧阳文军和北京大学人民医院申占龙以结直肠癌为例进行攻关,由任仙文副研究员根据T细胞受体的体内重排特性和信息论中熵的概念提出了一套名为STARTRAC的计算方法,为T细胞克隆扩增、迁移、状态转换以及组织偏嗜性等动态行为提供了定量刻画。STARTRAC为深入了解人体和动物体内(in vivoTB细胞的动态行为提供了强有力的工具。

    该成果发表于《自然》期刊

    工具链接:

    https://github.com/Japrin/STARTRAC

    原文信息:

    Zhang L, Yu X, Zheng L, Zhang Y, Li Y, Fang Q, et al. Lineage tracking reveals dynamic relationships of T cells in colorectal cancer. Nature 2018;564:26872. PMID: 30479382

    原文链接: 

    https://www.nature.com/articles/s41586-018-0694-x

    图片9.png


    基于流形学习的三维基因组结构重构新方法—GEM

    三维基因组结构蕴含着非常丰富的信息,与细胞内绝大多数生物过程相关联,解析基因组的三维结构对研究基因调控有着重要意义。近年来,基于高通量测序技术的三维基因组建模方法得到了广泛研究,然而大部分方法都依赖于对基因相互作用频率与染色体空间距离之间的关系进行假设。清华大学交叉信息研究院曾坚阳研究团队首次基于流形学习直接将基因相互作用数据映射到相应的欧几里得空间,并结合生物分子能量规律,提出新的框架算法GEM,对三维基因组结构进行建模。该方法取得了领先的效果,并首次利用解出的三维结构进一步重构出了测序实验中丢失的基因相互作用数据。

    该成果发表于《核酸研究》期刊。

    工具链接

    https://github.com/mlcb-thu/GEM

    原文信息:

    Zhu G, Deng W, Hu H, Ma R, Zhang S, Yang J, et al. Reconstructing spatial organizations of chromosomes through manifold learning. Nucleic Acids Res 2018;46:e50. PMID: 29408992

    原文链接: 

    https://academic.oup.com/nar/article/46/8/e50/4835049

    图片10.png