上海交通大学生命科学技术学院韦朝春研究团队与澳大利亚阿德莱德大学、美国范德堡大学、上海第二军事医科大学研究人员合作,通过从DNA序列直接预测并结合其他证据预测人类基因组蛋白质。相关研究成果近日在线发表于《科学报告》。
尽管目前人们已经知道能够编码蛋白质的人类基因的数量是2万多个,但是由于可变剪切机制,同一个基因可以表达成多个不同的蛋白质,这2万多个人类基因究竟能编码多少个蛋白质目前仍然是个谜。
韦朝春研究团队开发了一个直接从基因组序列从头预测可变剪切的方法,结合现有的海量基因表达数据,包括转录组和蛋白质组数据,找到了约3万个现有数据库中没有的蛋白质序列。随机抽样并设计实验验证表明:约85%的预测结果可以得到实验验证。这些蛋白质序列使现有数据库中蛋白质序列数量增加到约9万个。和公共数据库中已有的蛋白质相比,这些新发现的蛋白质的表达具有更高的组织特异性,表达量相对较低,因而也更难被发现。根据这些结果,他们预测人类基因组编码的蛋白质数量不少于20万个。
专家认为,这一研究结果提高了对基因组复杂性的理解,为生物医学研究的广泛领域提供了更完整的人类参考基因组注释,具有重要的理论指导意义和实际应用价值。(来源:中国科学报 黄辛)