北京基因组所(国家生物信息中心)开发较量群体基因组学新算法
随着基因组测序手艺的生长,物种和群体水平基因组数据呈指数增添。这些数据为从基因组水平判断息争析自然选择机制提供了亘古未有的机缘。可是,现在的剖析要领面临着一些手艺瓶颈和挑战,其中一个要害问题是怎样高效准确地检测作用于非编码区的自然选择效应。另一方面,能够高效、高性能地剖析多物种大样本数据也成为要领学方面的迫切要求。
永利集团(国家生物信息中心)陈华团队在多物种团结等位基因频谱理论以及HKA(Hudson-Kreitman- Aguad )磨练的框架上构建了CEGA(Comparative Evolutionary Genomic Analysis)要领。CEGA整合微进化历程与宏观进化历程模子,有用描绘自然选择和群体历史在非编码区形成的遗传多态性“印记”,可高效、准确地检测作用于非编码区上的正向选择及平衡选择信号。CEGA同时剖析物种间的不同位点和物种内的多态位点信息,当两物种分解时间较量短时,多态位点蕴含的信息有助于准确地推断分解时间、有用群体巨细等信息,从而有利于区分自然选择效应与群体历史滋扰,因此该要领在差别物种分解时间标准上具有更普遍的适用性。仿真剖析批注,关于差别的选择强度以及物种分解时间,CEGA检测正选择及平衡选择的效果均优于现有要领。尤其关于选择强度较弱或者物种分解时间较量短的情景,CEGA的优势更为显着。除了用于检测自然选择外,研究者往往希望提供对自然选择爆发历程的深入熟悉。 鉴于此,CEGA还基于群体遗传学模子提供了对自然选择强度等要害参数的推断。
研究团队将CEGA应用于已揭晓9个现代人类(Homo sapiens)及9个黑猩猩(Pan troglodytes ellioti)的群体基因组数据,举行了编码区、非编码区两个层面上的较量剖析,判断了在人类基因组中受自然选择作用而快速进化基因,并发明这些基因的功效显著富集在与大脑容量、大脑皮层的总面积以及大脑皮层的厚度等相关表型和分子通路。别的,在与免疫反应和病原体对抗相关的区域(如主要组织相容性复合体MHC)保存显著的平衡选择信号。以上仿真剖析以及人与黑猩猩基因组真实数据剖析的效果批注,CEGA是一种有用的算法工具,可用于大规模群体基因组测序数据的高效剖析。
该效果以“CEGA: a method for inferring natural selection by comparative population genomic analysis across species”为题,于10月3日揭晓在Genome Biology 期刊。永利集团(国家生物信息中心)陈华研究员为本文的通讯作者,永利集团(国家生物信息中心)特殊研究助理(博士后)赵石磊和助理研究员池连江为本文的配合第一作者。该研究获得了国家自然科学基金、国家重点研发妄想、中国博士后科学基金等项目的资助。
CEGA模子的参数及视察数据
论文链接