自2001年人类基因组计划的最终草案公布以来,蛋白质编码基因的数目先是被确定在2~2.5万个,此后,这一数目先后又被一些研究机构分别修改至1.9万个和超过2.1万个。近日,西班牙国家癌症研究中心一项研究又认为,人类基因组中的编码基因可能会减少20%!意味着对人类基因数目的统计或又要推翻重来。然而,这一数字的确定对于人类而言有着怎样的的意义呢?
自2001年人类基因组计划的最终草案公布以来,蛋白质编码基因的数目先是被确定在2~2.5万个,此后,这一数目先后又被一些研究机构分别修改至1.9万个和超过2.1万个。近日,西班牙国家癌症研究中心一项研究又认为,人类基因组中的编码基因可能会减少20%!意味着对人类基因数目的统计或又要推翻重来。然而,这一数字的确定对于人类而言有着怎样的的意义呢?
微信图片_20180903114724.jpg
这项发表在《Nucleic Acids Research》杂志、由西班牙国家癌症研究中心( CNIO )领导的新研究显示,多达20%的编码基因可能根本没有被编码,因为它们具有非编码或假基因(过时的编码基因)的典型特征。
编码基因数量及其鉴定对于包括癌症、心血管疾病等在内的多种疾病的研究至关重要。因此这一最新结论随之带来的人类基因组的缩小或会对生物医学产生重要影响。
编码基因与非编码基因
早期发现的基因多数是编码蛋白质的基因,即DNA序列通过一定的规则指导蛋白的合成。蛋白质是地球上大多数生物体的必要组成成分,参与了细胞生命活动的每一个进程。
DNA指导蛋白质合成的过程还有一个中间步骤,即RNA(核糖核酸),也就是以DNA为模板合成RNA,然后由RNA指导合成蛋白质。
除了用于指导合成蛋白的基因,即通常所说的编码基因,还有种产物是RNA的基因;后者不指导生成蛋白质,而是以RNA的形式起作用,常被称为非编码基因。非编码基因通常起调控作用。
以疾病防治为目标的基因检测通常针对蛋白编码基因,但随着对非编码基因研究的深入,针对它们的基因检测也越来越多。
编码基因数目
自2003年人类基因组测序完成以来,来自世界各地的专家一直致力于汇编最终的人类蛋白质组(基因产生的蛋白质总数)以及产生这些蛋白质的基因。鉴于人类基因组的复杂性以及我们有大约20,000个独立编码基因的事实,这项任务是巨大的。
研究人员分析了GENCODE / Ensembl、RefSeq和UniProtKB三大权威蛋白质数据库,详细比较发现了22,210个编码基因,但是3个数据库所有注释中只有19,446个基因存在。
当他们分析这些仅有一两个参考注释的2764个基因时,他们惊讶地发现,实验证据和人工注释表明几乎所有这些基因都更有可能是非编码基因或假基因。事实上,这些基因连同另外1,470个编码基因一起出现在三个参考目录中,并没有像典型的蛋白质编码基因那样进化。这项研究的结论是,这4234个基因中的大部分可能不编码蛋白质。
根据科学家的说法,这项研究已得到验证。“我们已能够详细分析这些基因中的多数,”研究人员解释道,“超过300个基因已经被重新归类为非编码基因。“这些结果已经被包括在GENCODE数据库对人类基因组的新注释中,CNIO研究人员是该机构成员。
这项工作再次凸显了对人类基因组测序15年后人类细胞中真基因数量的怀疑。尽管最近的数据表明编码基因数量可能超过20,000个,但这项研究的第一作者Federico Abascal说:“我们的证据表明,人类可能只有19,000个编码基因,但我们仍然不知道是哪19,000个基因。”
基因组规模重要吗?
其实,人体内仅有1%的基因控制着我们正常生活所需的蛋白质表达,其余7%的基因仅仅起基因调控作用,当然它们也同样重要。人类生物复杂性的来源,更多在于基因的选择性表达,而非基因的数量;基因组规模的大小对生物的遗传性状影响其实并不大。事实上,人类与灵长类动物在基因和蛋白质水平上的差异非常小,而灵长类动物之间的生理和发育差异很可能是基因调控而非蛋白质功能导致的。
因此,确定人类基因组的准确数目固然重要,但关于人类基因的研究,我们还有更多因素要考虑。如在掌握了对基因“动手术”的神奇技能后,人类对大自然创造的各种动植物的基因修改,尽管有些性状确实极大满足了人类需求,但由于我们对于基因的认知尚存在局限,未来经过基因修改的基因工程作物等隐忧或许依旧存在。基因“污染”如果真的发生,我们又如何保证这19,000个基因的正常功能呢?或许这也是除了简单获得一个基因数字外,人类更应关注的另一问题。
copyright© 版权所有,未经许可不得复制、转载或镜像
京ICP证120392号 京公网安备110105007198 京ICP备10215607号-1 (京)网药械信息备字(2022)第00160号