西湖大学生命科学学院教授杨剑团队开发出了一款专门针对二元性状的全基因组关联研究(GWAS)的广义线性混合模型(GLMM)关联分析工具,将其命名为fastGWA-GLMM。fastGWA-GLMM以及该团队之前开发的fastGWA(主要针对连续型性状)是目前唯一可应用于百万级生物样本库的混合模型GWAS分析工具。相关研究成果11月4日发表于《自然·遗传学》。
GWAS是一种被广泛用于检测遗传变异与表型之间关联的实验设计,但它数据分析能力有限。尤其是近年来,随着十万级甚至百万级大型生物样本库的出现,原有的GWAS分析工具“捉襟见肘”。而广义线性模型正好能弥补常用GWAS分析工具的缺陷,又有着比一般线性模型更高的计算复杂度。于是,科学家们开始思考如何开发出一种可高效分析大型生物样本库数据的广义线性模型方法。
人体的性状可以大致分为两类,一种是连续型数量性状,指的是个体间的差异可以用数量区别,例如身高、体重等;另一种是二元性状,表现为对立面的两种状态,例如患病还是不患病。
杨剑团队提出了一系列基于稀疏矩阵的算法,突破了传统广义线性模型和线性混合模型耗时、耗计算资源的瓶颈,开发出了一款极为高效的基于广义线性混合模型的二元性状全基因组关联分析工具——fastGWA-GLMM。
该团队用真实数据展示了fastGWA-GLMM极高的运算效率,远超同类二元性状关联分析方法,运算效率最高可达到传统方法的36倍。而在一个模拟的两百万人的群体中(每个人有约1200万个变异位点),fastGWA-GLMM在使用16个CPU核和32GB内存的情况下只需要17小时就可以完成一个二元性状的全基因关联分析,而这对于原有的工具是几乎不可能完成的任务。fastGWA-GLMM针对大量数据的快速处理能力,对即将到来的百万级生物样本库而言具有重大意义。
据介绍,作为一款稳健强大又高效的关联分析工具,fastGWA-GLMM可以应用于几乎所有的大型生物样本库的二元性状关联分析。杨剑团队已经利用fastGWA-GLMM分析了英国生物样本库中的2989个二元性状,并将所有的关联分析结果共享在他们的在线数据平台上。(记者温才妃)