科技支撑

科技支撑
当前位置: 首页 > 科技支撑 > 正文

利用动植物测序来研究不同物种的基因组,能帮助我们了解生命和进化。在农业领域,利用新一代测序(NGS)对牛的基因进行分析研究也有助于许开发更具生产力和可持续性的方法,从而使我们能够应对环境变化带来的挑战,满足不断增长的人口的粮食需求。

本项研究针对牛的非编码长转录本(Long non-coding RNA, lncRNA)和表达数量性状基因位置(expression Quantitative Trait Loci,eQTL)的研究,从而分析该物种的基因表达性状。对于lncRNA来说需要从海量的样本中比对,过滤抽取疑似的RNA,并在所有样本中交叉比对从而确定最终结果。对于eQTL来说,需要对样本数据进行变异检测,构建所有样本的变异结果、基因型等信息进行汇总分析,最终获得eQTL的相关数据。

该项目难点之一是需要大量数据支持。本项目从国际公开基因数据库(NCBI,GSA等)中下载了1万2千余个测序样本,共计源测序数据大小约11264GB(11T),每个样本的计算流程包含12步,所涉及的计算软件20余个,每个样本在个人电脑中计算时间长达10余小时。计算所产生的中间文件大小会达到原文件的5倍左右。目前该项目依托西电高性能计算中心,已成功检测到结果40000余个,截止目前项目仍在产出可靠结果。

该项成果拟在Nature子刊中发表。

下一篇:基于机器学习的新型多功能碳材料设计