我研究生破解生物大数据建模核心技术
近日,一项能驱动生物大数据重要信息挖掘的核心技术已被我校计算生物学中心博士研究生姜立波攻克。
我们正处于一个大数据时代,在生物研究中以组学数据为标志的大数据,正带动研究人员破解各种农林产量性状与人类疾病。然而,怎样建立合理的模型分析与解释这些生物大数据,从中获得能反映生物总体运行规则的结论一直是个世界难题。已有一大批统计学家与计算机工作者投入生物大数据建模工作,美国许多知名大学相继建立了“大数据研究中心”。
姜立波发明的这项技术,能用全基因组关联分析的大数据,准确推断出复杂性状发育的遗传调控机理,并对表型形成动态过程进行预测。这一技术首次把高通量基因组数据与高通量表型数据利用生物学原理相结合,为当前最前沿的生物学 –- 系统生物学 -- 提供极其重要的机理研究工具。
这项高端技术被命名为2HiGWAS, 发表在国际顶尖生物信息学期刊Briefings in Bioinformatics (2014影响因子9.617)上,自发表后已引起广泛关注。美国华盛顿大学Cheverud教授寄来老鼠关联分析数据,在利用姜立波这项技术分析后,成功挖掘出数十个决定动物体重性别差异的基因互作模式,这一结果为揭开人类肥胖疾病创造了重要理论基础。美国康奈尔大学Buckler教授寄来的玉米关联分析数据,则在分析后发现了几个传统方法无法找到的重要基因;2HiGWAS还为玉米高度生长性状精确勾画出基因与环境互作关系图。
姜立波这项基于参数模型的技术,与我校计算生物学中心老师王忠博士最近在顶尖统计刊物Annals of Applied Statistics (2014影响因子1.464)发表的另一生物大数据非参建模技术,互为补充,遥相呼应,这两篇论文均显示我校在统计遗传学研究中的国际领先地位。
姜立波的这项工作包括几个国内外合作者的贡献。我校计算生物学中心其他学生叶梅霞、祝绪礼、国家花卉工程技术研究中心孙丽丹博士等参与了2HiGWAS设计与生物学解释等工作。计算生物学中心主任邬荣领教授为论文通讯作者。
据悉,我校计算生物学中心正利用2HiGWAS,分析该中心研究人员早期设计的胡杨复杂性状基因解析大数据,可望获得调控树木生长、发育及对环境适应性重要生物学机理的原创性成果。利用计算与实验相结合的方法研究不同生物学问题,最可能产生重要突破,这一方法正为我校计算生物学中心使用。
论文链接:
姜立波论文 http://bib.oxfordjournals.org/content/early/2015/02/19/bib.bbv002.short
王忠论文 http://imstat.org/aoas/next_issue.html
来源:计算生物学中心作者:梁丹