Volume: 13, Issue: 1

Perspective

On Bioinformatic Resources

null
null
null

Page 1-3


Review Article

Nanopore-based Fourth-generation DNA Sequencing Technology

Nanopore-based sequencers, as the fourth-generation DNA sequencing technology, have the potential to quickly and reliably sequence the entire human genome for less than $1000, and possibly for even less than $100. The single-molecule techniques used by this technology allow us to further study the interaction between DNA and protein, as well as between protein and protein. Nanopore analysis opens a new door to molecular biology investigation at the single-molecule scale. In this article, we have reviewed academic achievements in nanopore technology from the past as well as the latest advances, including both biological and solid-state nanopores, and discussed their recent and potential applications.
纳米孔单分子检测作为第四代DNA测序技术,有望将人类全基因组测序成本降低到$1,000甚至$100以下,实现低成本、快速、准确的DNA测序。该单分子检测技术可进一步研究DNA和蛋白质、蛋白质和蛋白质之间的相互作用,使分子生物学领域进入到了单分子研究水平。本文回顾了生物纳米孔和固态纳米孔单分子检测技术已有的研究成果和最新研究进展,并对该领域的应用前景及发展趋势进行展望。
纳米孔单分子检测作为第四代DNA测序技术,有望将人类全基因组测序成本降低到$1,000甚至$100以下,实现低成本、快速、准确的DNA测序。该单分子检测技术可进一步研究DNA和蛋白质、蛋白质和蛋白质之间的相互作用,使分子生物学领域进入到了单分子研究水平。本文回顾了生物纳米孔和固态纳米孔单分子检测技术已有的研究成果和最新研究进展,并对该领域的应用前景及发展趋势进行展望。

Page 4-16


Review Article

Exosome and Exosomal MicroRNA: Trafficking, Sorting, and Function

Exosomes are 40–100 nm nano-sized vesicles that are released from many cell types into the extracellular space. Such vesicles are widely distributed in various body fluids. Recently, mRNAs and microRNAs (miRNAs) have been identified in exosomes, which can be taken up by neighboring or distant cells and subsequently modulate recipient cells. This suggests an active sorting mechanism of exosomal miRNAs, since the miRNA profiles of exosomes may differ from those of the parental cells. Exosomal miRNAs play an important role in disease progression, and can stimulate angiogenesis and facilitate metastasis in cancers. In this review, we will introduce the origin and the trafficking of exosomes between cells, display current research on the sorting mechanism of exosomal miRNAs, and briefly describe how exosomes and their miRNAs function in recipient cells. Finally, we will discuss the potential applications of these miRNA-containing vesicles in clinical settings.
外泌体(exosome)是多种细胞释放的一类直径在30-100nm 的膜泡。这类膜泡普遍存在于各种体液中,如血液、唾液、泪液、尿液等。近期发现外泌体含有信使RNA和microRNA,可以随着外泌体经内分泌或旁分泌途径被受体细胞吸收,进而对受体细胞进行功能性调节。由于microRNA 在外泌体及其宿主细胞中的种类和表达水平不一样,提示存在着microRNA选择性进入外泌体的机制。外泌体包含的microRNA对疾病的发展有重要作用,如刺激血管生成和促进肿瘤迁移等。本文首先介绍外泌体的起源及在细胞间的运输;然后重点总结当前对外泌体所含microRNA的主动分选机制的研究;并简要描述这些载有microRNA的膜泡在癌症中发挥的功能;最后阐述外泌体及其microRNA在临床上的潜在应用价值。
外泌体(exosome)是多种细胞释放的一类直径在30-100nm 的膜泡。这类膜泡普遍存在于各种体液中,如血液、唾液、泪液、尿液等。近期发现外泌体含有信使RNA和microRNA,可以随着外泌体经内分泌或旁分泌途径被受体细胞吸收,进而对受体细胞进行功能性调节。由于microRNA 在外泌体及其宿主细胞中的种类和表达水平不一样,提示存在着microRNA选择性进入外泌体的机制。外泌体包含的microRNA对疾病的发展有重要作用,如刺激血管生成和促进肿瘤迁移等。本文首先介绍外泌体的起源及在细胞间的运输;然后重点总结当前对外泌体所含microRNA的主动分选机制的研究;并简要描述这些载有microRNA的膜泡在癌症中发挥的功能;最后阐述外泌体及其microRNA在临床上的潜在应用价值。

Page 17-24


Review Article

A Brief Review of Software Tools for Pangenomics

Since the proposal for pangenomic study, there have been a dozen software tools actively in use for pangenomic analysis. By the end of 2014, Panseq and the pan-genomes analysis pipeline (PGAP) ranked as the top two most popular packages according to cumulative citations of peer-reviewed scientific publications. The functions of the software packages and tools, albeit variable among them, include categorizing orthologous genes, calculating pangenomic profiles, integrating gene annotations, and constructing phylogenies. As epigenomic elements are being gradually revealed in prokaryotes, it is expected that pangenomic databases and toolkits have to be extended to handle information of detailed functional annotations for genes and non-protein-coding sequences including non-coding RNAs, insertion elements, and conserved structural elements. To develop better bioinformatic tools, user feedback and integration of novel features are both of essence.
在2005年, 泛基因组学概念被引入微生物研究中, 目前已开展多种生物的泛基因组学研究, 这也促进了泛基因组学分析软件和算法的开发。本文主要分析了目前使用较多和新近开发的12款泛基因组学分析软件的优缺点。虽然这些软件包各有特色,但是主要都集中在直系同源基因鉴定、泛基因组特征分析、基因注释的整合以及系统演化分析等几个方面。根据Web of science中收录的三大引文数据库中搜寻统计的信息,Panseq和PGAP是同行评审的科学出版物中引用次数最高的两个软件包。本文主要旨在帮助学生和生物信息学菜鸟迅速了解各类软件的功能特性, 为进行相关泛基因组学分析提供指导。另一方面,虽然已经有部分软件和算法被广泛使用,但仍存在许多提升空间,例如基因的详细注释以及非蛋白编码序列信息的分析等。作为一个较好的生物信息学工具,用户的反馈和新功能的开发无疑是两个非常重要的方面。
在2005年, 泛基因组学概念被引入微生物研究中, 目前已开展多种生物的泛基因组学研究, 这也促进了泛基因组学分析软件和算法的开发。本文主要分析了目前使用较多和新近开发的12款泛基因组学分析软件的优缺点。虽然这些软件包各有特色,但是主要都集中在直系同源基因鉴定、泛基因组特征分析、基因注释的整合以及系统演化分析等几个方面。根据Web of science中收录的三大引文数据库中搜寻统计的信息,Panseq和PGAP是同行评审的科学出版物中引用次数最高的两个软件包。本文主要旨在帮助学生和生物信息学菜鸟迅速了解各类软件的功能特性, 为进行相关泛基因组学分析提供指导。另一方面,虽然已经有部分软件和算法被广泛使用,但仍存在许多提升空间,例如基因的详细注释以及非蛋白编码序列信息的分析等。作为一个较好的生物信息学工具,用户的反馈和新功能的开发无疑是两个非常重要的方面。

Page 73-76


Review Article

Web resources for microbial data

There are multitudes of web resources that are quite useful for the microbial scientific research community. Here, we provide a brief introduction on some of the most notable microbial web resources and an evaluation of them based upon our own user experience.
随着高通量测序等技术的突破性发展,微生物基因组和元基因组的数据类型和数据规模飞速增长,微生物组学研究开始步入大数据时代。本文主要介绍了在微生菌种资源,基因组和元基因组领域的10个重要的网站资源。同时,根据我们的理解和使用经验,我们对这些网站的功能进行阐述和评分,帮助读者快速地了解微生物组学领域的重要网站资源。
随着高通量测序等技术的突破性发展,微生物基因组和元基因组的数据类型和数据规模飞速增长,微生物组学研究开始步入大数据时代。本文主要介绍了在微生菌种资源,基因组和元基因组领域的10个重要的网站资源。同时,根据我们的理解和使用经验,我们对这些网站的功能进行阐述和评分,帮助读者快速地了解微生物组学领域的重要网站资源。

Page 69-72


Review Article

Web Resources for Mass Spectrometry-based Proteomics

With the development of high-resolution and high-throughput mass spectrometry (MS) technology, a large quantum of proteomic data is continually being generated. Collecting and sharing these data is a challenge that requires immense and sustained human effort. In this report, we provide a classification of important web resources for MS-based proteomics and present rating of these web resources, based on whether raw data are stored, whether data submission is supported, and whether data analysis pipelines are provided. These web resources are important for biologists involved in proteomics research.
随着高通量蛋白质组实验技术和仪器平台的发展,基于质谱实验的蛋白质组研究飞速发展,在该过程中积累了大量的蛋白质组数据。这些数据对蛋白质组学及生命科学研究具有重大意义,因此许多生物信息学数据库纷纷收录与整合蛋白质组数据。本文将一些重要的以质谱实验数据为基础的蛋白质组数据库进行了分类和打分,打分方法取决于这些数据库是否储存质谱实验原始数据、是否支持数据的提交以及是否提供数据分析的流程,旨在描述这些蛋白质组数据库的作用和功能,并且为如何获得这些数据库中的数据提供参考。
随着高通量蛋白质组实验技术和仪器平台的发展,基于质谱实验的蛋白质组研究飞速发展,在该过程中积累了大量的蛋白质组数据。这些数据对蛋白质组学及生命科学研究具有重大意义,因此许多生物信息学数据库纷纷收录与整合蛋白质组数据。本文将一些重要的以质谱实验数据为基础的蛋白质组数据库进行了分类和打分,打分方法取决于这些数据库是否储存质谱实验原始数据、是否支持数据的提交以及是否提供数据分析的流程,旨在描述这些蛋白质组数据库的作用和功能,并且为如何获得这些数据库中的数据提供参考。

Page 36-39


Review Article

Databases and Web Tools for Cancer Genomics Study

Publicly-accessible resources have promoted the advance of scientific discovery. The era of genomics and big data has brought the need for collaboration and data sharing in order to make effective use of this new knowledge. Here, we describe the web resources for cancer genomics research and rate them on the basis of the diversity of cancer types, sample size, omics data comprehensiveness, and user experience. The resources reviewed include data repository and analysis tools; and we hope such introduction will promote the awareness and facilitate the usage of these resources in the cancer research community.
自二十世纪以来,癌症已成为危害人类健康的主要疾病之一。研究表明癌症的发生与基因组改变密切相关,传统生物学手段往往对单个独立的基因进行研究,再将研究结果综合起来比较,无法对癌症形成机制获得全面理解。伴随着高通量测序技术的迅猛发展,癌症的研究进入到基因组学阶段,人类可以在基因组水平详细而全面地揭示基因突变、表观修饰、DNA构象变化等信息,为科学家们攻克癌症提供了大量重要的研究数据。与此同时,面对这些大规模产出的数据,如何有效并且深入地进行信息挖掘成为了科学家们面对的一大难题,一是癌症基因组相关数据库种类多、数目庞杂,还没有有效地统筹分类造成了在信息查询上不便捷,二是分析工具多样化,造成了选择难的问题,选择不当也会降低数据分析效率。鉴于此,我们整理了目前应用较多的癌症基因组学数据库,以及相关的在线分析工具,在本文中予以介绍。希望为研究者分析利用数据提供方便。
自二十世纪以来,癌症已成为危害人类健康的主要疾病之一。研究表明癌症的发生与基因组改变密切相关,传统生物学手段往往对单个独立的基因进行研究,再将研究结果综合起来比较,无法对癌症形成机制获得全面理解。伴随着高通量测序技术的迅猛发展,癌症的研究进入到基因组学阶段,人类可以在基因组水平详细而全面地揭示基因突变、表观修饰、DNA构象变化等信息,为科学家们攻克癌症提供了大量重要的研究数据。与此同时,面对这些大规模产出的数据,如何有效并且深入地进行信息挖掘成为了科学家们面对的一大难题,一是癌症基因组相关数据库种类多、数目庞杂,还没有有效地统筹分类造成了在信息查询上不便捷,二是分析工具多样化,造成了选择难的问题,选择不当也会降低数据分析效率。鉴于此,我们整理了目前应用较多的癌症基因组学数据库,以及相关的在线分析工具,在本文中予以介绍。希望为研究者分析利用数据提供方便。

Page 46-50


Research Article

YPED: An Integrated Bioinformatics Suite and Database for Mass Spectrometry-based Proteomics Research

We report a significantly-enhanced bioinformatics suite and database for proteomics research called Yale Protein Expression Database (YPED) that is used by investigators at more than 300 institutions worldwide. YPED meets the data management, archival, and analysis needs of high-throughput mass spectrometry-based proteomics research ranging from a single laboratory, group of laboratories within and beyond an institution, to the entire proteomics community. The current version is a significant improvement over the first version in that it contains new modules for liquid chromatography-tandem mass spectrometry (LC-MS/MS) database search results, label and label-free quantitative proteomic analysis, and several scoring outputs for phosphopeptide site localization. In addition, we have added both peptide and protein comparative analysis tools to enable pairwise analysis of distinct peptides/proteins in each sample and of overlapping peptides/proteins between all samples in multiple datasets. We have also implemented a targeted proteomics module for automated multiple reaction monitoring (MRM)/selective reaction monitoring (SRM) assay development. We have linked YPED’s database search results and both label-based and label-free fold-change analysis to the Skyline Panorama repository for online spectra visualization. In addition, we have built enhanced functionality to curate peptide identifications into an MS/MS peptide spectral library for all of our protein database search identification results.
null
We report a significantly-enhanced bioinformatics suite and database for proteomics research called Yale Protein Expression Database (YPED) that is used by investigators at more than 300 institutions worldwide. YPED meets the data management, archival, and analysis needs of high-throughput mass spectrometry-based proteomics research ranging from a single laboratory, group of laboratories within and beyond an institution, to the entire proteomics community. The current version is a significant improvement over the first version in that it contains new modules for liquid chromatography-tandem mass spectrometry (LC-MS/MS) database search results, label and label-free quantitative proteomic analysis, and several scoring outputs for phosphopeptide site localization. In addition, we have added both peptide and protein comparative analysis tools to enable pairwise analysis of distinct peptides/proteins in each sample and of overlapping peptides/proteins between all samples in multiple datasets. We have also implemented a targeted proteomics module for automated multiple reaction monitoring (MRM)/selective reaction monitoring (SRM) assay development. We have linked YPED’s database search results and both label-based and label-free fold-change analysis to the Skyline Panorama repository for online spectra visualization. In addition, we have built enhanced functionality to curate peptide identifications into an MS/MS peptide spectral library for all of our protein database search identification results.

Page 25-35


Review Article

Biological databases for human research

The completion of the Human Genome Project lays a foundation for systematically studying the human genome from evolutionary history to precision medicine against diseases. With the explosive growth of biological data, there is an increasing number of biological databases that have been developed in aid of human-related research. Here we present a collection of human-related biological databases and provide a mini-review by classifying them into different categories according to their data types. As human-related databases continue to grow not only in count but also in volume, challenges are ahead in big data storage, processing, exchange and curation.
人类基因组计划的完成为系统研究人类进化及精准医疗奠定了坚实的基础。生物学数据的爆炸式增长,使得人类相关研究领域出现了大量的生物数据库。为此,我们搜集整理了近年来重要的人类生物数据库并依据数据类型进行分类阐述。由于人类数据库无论在数据库的数量上还是在数据容量方面都增长极为迅速,因此在大数据的存储、处理、交换和审编上均面临巨大挑战。
人类基因组计划的完成为系统研究人类进化及精准医疗奠定了坚实的基础。生物学数据的爆炸式增长,使得人类相关研究领域出现了大量的生物数据库。为此,我们搜集整理了近年来重要的人类生物数据库并依据数据类型进行分类阐述。由于人类数据库无论在数据库的数量上还是在数据容量方面都增长极为迅速,因此在大数据的存储、处理、交换和审编上均面临巨大挑战。

Page 55-63


Review Article

Web Resources for Model Organism Studies

An ever-growing number of resources on model organisms have emerged with the continued development of sequencing technologies. In this paper, we review 13 databases of model organisms, most of which are reported by the National Institutes of Health of the United States (NIH; http://www.nih.gov/science/models/). We provide a brief description for each database, as well as detail its data source and types, functions, tools, and availability of access. In addition, we also give a quality assessment about these databases. Significantly, the organism databases instituted in the early 1990s—such as MGD, SGD, and FlyBase—have developed into what are now comprehensive, core authority resources. Furthermore, all of the databases mentioned here update continually according to user feedback and with advancing technologies.
模式生物在生命科学研究过程中起到了重要的作用,科学家们通常会通过对模式生物的研究,来揭示具有某种普遍规律的现象。“Web Resources for Model Organism Studies”文章系统、全面的对现今比较常用的模式生物数据资源进行了整理和统计,从数据来源、数据类型、提供的软件工具以及用户获取数据的方式等几个方面进行了信息梳理和归纳,为科研人员提供了一个模式生物数据资源的概览,并对相关从事某个模式生物研究的人员提供基本指导和帮助。通过研究与分析,我们发现一些起步比较早的模式生物数据库,如MGD、SGD、FlyBase等,已经发展成为了综合的大型数据库,包含了丰富的数据资源,并提供多种数据浏览、检索以及图形化工具,这些数据库已经成为该模式生物研究领域的核心资源。尽管这些模式生物数据库中的资源非常丰富,但是我们也发现这些数据库所使用的实现技术、提供下载的数据格式、数据类型的内容展示等方面都不太统一,这在一定程度上会对用户想使用多个模式生物的数据时带来影响。未来,希望这些模式生物数据资源可以在数据标准、软件工具共享等方面进行加强,从而促进数据共享与交互,进一步扩大模式生物数据的应用价值。
模式生物在生命科学研究过程中起到了重要的作用,科学家们通常会通过对模式生物的研究,来揭示具有某种普遍规律的现象。“Web Resources for Model Organism Studies”文章系统、全面的对现今比较常用的模式生物数据资源进行了整理和统计,从数据来源、数据类型、提供的软件工具以及用户获取数据的方式等几个方面进行了信息梳理和归纳,为科研人员提供了一个模式生物数据资源的概览,并对相关从事某个模式生物研究的人员提供基本指导和帮助。通过研究与分析,我们发现一些起步比较早的模式生物数据库,如MGD、SGD、FlyBase等,已经发展成为了综合的大型数据库,包含了丰富的数据资源,并提供多种数据浏览、检索以及图形化工具,这些数据库已经成为该模式生物研究领域的核心资源。尽管这些模式生物数据库中的资源非常丰富,但是我们也发现这些数据库所使用的实现技术、提供下载的数据格式、数据类型的内容展示等方面都不太统一,这在一定程度上会对用户想使用多个模式生物的数据时带来影响。未来,希望这些模式生物数据资源可以在数据标准、软件工具共享等方面进行加强,从而促进数据共享与交互,进一步扩大模式生物数据的应用价值。

Page 64-68


Review Article

Web Resources for Pharmacogenomics

Pharmacogenomics is the study of the impact of genetic variations or genotypes of individuals on their drug response or drug metabolism. Compared to traditional genomics research, pharmacogenomic research is more closely related to clinical practice. Pharmacogenomic discoveries may effectively assist clinicians and healthcare providers in determining the right drugs and proper dose for each patient, which can help avoid side effects or adverse reactions, and improve the drug therapy. Currently, pharmacogenomic approaches have proven their utility when it comes to the use of cardiovascular drugs, antineoplastic drugs, aromatase inhibitors, and agents used for infectious diseases. The rapid innovation in sequencing technology and genome-wide association studies has led to the development of numerous data resources and dramatically changed the landscape of pharmacogenomic research. Here we describe some of these web resources along with their names, web links, main contents, and our ratings.
药物基因组学的研究内容是不同个体之间的基因组遗传变异或基因型和药物反应或药物代 谢之间的关系。因此相对于传统基因组学研究,药物基因组学研究更贴近临床实践。药物基 因组学研究的成果能够有效地帮助临床医生和健康服务工作者在为患者治疗过程中根据其 基因型选择合适的药物和合理的剂量,从而减少或避免药物副作用或不良反应,提高治疗的 效果。目前药物基因组的研究成果已经被用于心血管药物、抗肿瘤药物、芳香酶抑制药以及 一些传染病药物的临床实践中。测序技术的发展和全基因组关联研究的开展也加快了药物基 因组学研究的进程,并催生了一系列网络数据资源。本文对当前知名的药物基因组学网络资 源进行了介绍,并根据其数据量和实用性进行了评价,希望对药物基因组学的理解有所帮助。
药物基因组学的研究内容是不同个体之间的基因组遗传变异或基因型和药物反应或药物代 谢之间的关系。因此相对于传统基因组学研究,药物基因组学研究更贴近临床实践。药物基 因组学研究的成果能够有效地帮助临床医生和健康服务工作者在为患者治疗过程中根据其 基因型选择合适的药物和合理的剂量,从而减少或避免药物副作用或不良反应,提高治疗的 效果。目前药物基因组的研究成果已经被用于心血管药物、抗肿瘤药物、芳香酶抑制药以及 一些传染病药物的临床实践中。测序技术的发展和全基因组关联研究的开展也加快了药物基 因组学研究的进程,并催生了一系列网络数据资源。本文对当前知名的药物基因组学网络资 源进行了介绍,并根据其数据量和实用性进行了评价,希望对药物基因组学的理解有所帮助。

Page 51-54


Review Article

Web Resources for Stem Cell Research

In this short review, we have presented a brief overview on major web resources relevant to stem cell research. To facilitate more efficient use of these resources, we have provided a preliminary rating based on our own user experience of the overall quality for each resource. We plan to update the information on an annual basis
干细胞的研究属于再生医学的前沿领域。为了避开使用备受伦理道德约束的胚胎干细胞和体细胞核转移技术,诱导多能干细胞技术(iPSC)在近几年应运而生并获得勃勃生机。成纤维细胞或者其他形态的细胞能够在一些因子的诱导作用下被重编程为多能性iPS细胞;iPS细胞能够在一些组织特异性因子的诱导下分化成为多种组织;不同类型的体细胞也能够实现直接相互转化 (亦称“转分化”)。近些年,干细胞领域迅猛发展,相关文献和高通量研究如雨后春笋般涌现,相应的一些数据库和服务网站也逐渐建立。除了对原始数据的整理意外,一些网站还提供了数据分析服务,包括富集分析和调控网络的构建等。这里,我们简要介绍了这些网站资源,并根据各网站的综合情况进行了打分,希望能为大家的使用提供一定的借鉴作用。
干细胞的研究属于再生医学的前沿领域。为了避开使用备受伦理道德约束的胚胎干细胞和体细胞核转移技术,诱导多能干细胞技术(iPSC)在近几年应运而生并获得勃勃生机。成纤维细胞或者其他形态的细胞能够在一些因子的诱导作用下被重编程为多能性iPS细胞;iPS细胞能够在一些组织特异性因子的诱导下分化成为多种组织;不同类型的体细胞也能够实现直接相互转化 (亦称“转分化”)。近些年,干细胞领域迅猛发展,相关文献和高通量研究如雨后春笋般涌现,相应的一些数据库和服务网站也逐渐建立。除了对原始数据的整理意外,一些网站还提供了数据分析服务,包括富集分析和调控网络的构建等。这里,我们简要介绍了这些网站资源,并根据各网站的综合情况进行了打分,希望能为大家的使用提供一定的借鉴作用。

Page 40-45