您的位置:首页 > 其它

基于WGS和CBC测序策略的DNA序列拼接算法研究(二)

2005-06-25 15:52 363 查看
第一章 概述
1.1 什么是生物信息学
1.1.1 前言
2000年6月26日是人类科技史上一个令人难忘的日子,参加者人类基因组计划研究,美国、英国、法国、德国、日本和中国科学家同时向世界宣布人类基因组工作草图已基本完成,已给制出人体97%的基因组,基中85%的基因组序列得到了精确测定,包含了人体约30亿个碱基对的正确排序。这一重大成就立刻受到全世界的瞩目,各国均给予了高度评价,人们认为人类基因组计划是断曼哈顿原子计划,阿波罗登月计划之后的第三大科学计划,它对人类认识自身,提高健康水平,推动生命科学、医学、生物技、制药业、农业等的发展具有极其重要的意义,人类基因组工作草图的完成是该计划实施的一个里程碑,标志着人类在研究自身的过程中迈出其不意关键的一步。有人将此成就与伽利略的天文发现相媲美,有人认为它的意义远远大于抗生素的发明。生物信息学在人类基因组计划中贯穿始终,并且得到长足的发展。

1.1.2 生物信息学的定义
生物信息学的定义有很多,从不同的角度有着不同的定义。
从生物信息学(bioinformatics)这个单词来看,Bio informaticsBiology +Informatics,就是生物学和信息学的一个融合,就是用数学、计算机科学与工程和生物学等的工具与技术对大量复杂的生物数据进行分析、加工和再处理。
从生物信息学的结构层次来定义,它是一个学科领域,包含着基因组信息的获取、处理、存储、分配 、分析和解释的所有方面。Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation. (The U.S. Human Genome Project: The First Five Years FY 1991-1995, by NIH and DOE)


从生物信息学的应用层次来说,生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。

1.1.3 生物信息学的研究内容
生物信息学主要包括以下几个主要研究领域,但是限于篇幅,这里仅列出其名称并只做简单介绍。

1、序列比对(Alignment)。


基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础,非常重要。两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包——BALST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。有时两个序列总体并不很相似,但某些局部片断相似性很高。Smith-Waterman算法是解决局部比对的好算法,缺点是速度较慢。两个以上序列的多重序列比对目前还缺乏快速而又十分有效的算法。

2、结构比对。


基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。

3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一。


从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。

4、计算机辅助基因识别(仅指蛋白质编码基因)。


基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。

5、非编码区分析和DNA语言研究,是最重要的课题之一。


在人类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。

6、分子进化和比较基因组学,是最重要的课题之一。


早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。可以设想,比较两个或多个完整基因组这一工作需要新的思路和方法,当然也渴望得到更丰硕的成果。这方面可做的工作是很多的。

7、序列重叠群(Contigs)装配。


一般来说,根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,这就有一个把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明,这是一个NP-完备性算法问题。

8、遗传密码的起源。


遗传密码为什么是现在这样的?这一直是一个谜。一种最简单的理论认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物最后的共同祖先里,一直延续至今。不同于这种“冻结”理论,有人曾分别提出过选择优化、化学和历史等三种学说来解释遗传密码。随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。

9、基于结构的药物设计。


人类基因组计划的目的之一在于阐明人的约10万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其3级结构的基础上,可以利用分子对接算法,在计算机上设计抑制剂分子,作为候选药物。这种发现新药物的方法有强大的生命力,也有着巨大的经济效益。

10、其他。


如基因表达浦分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域。这里不再赘述。

1.2 生物信息学的发展历史和现状
1.2.1 生物信息学的诞生和发展
生物信息学(Bioinformatic)就起萌生而言,是一门有“较长历史”的学科。因为早在计算机刚刚发明的时期1956年,就已经在美国田纳西州的Gatlinburg召开了“生物学的信息理论讨论会”。而就其发展而言,却是一门相当年轻的学科,因为继20余年的沉默之后,只有伴随八九十年代计算机的迅猛发展,它才得以巨大的发展。
二十世纪,尤其是末期,生命科学技术的迅猛发展,无论从数量上还是质量上,都极大地丰富了生物科学的数据资源。数据资源的急剧膨胀首先迫使我们不得不考虑寻求一种强有力的工具去组织他们,以利于对以知生物学知识的存储和进一步加工利用。大量多样化的生物学数据中必然蕴涵着大量重要的生物学规律,这些规律是我们解决许多生命之密的关键所在,然而继续沿用传统的手段以人脑来分析如此庞大的数据已经是不可能了。人们需要一种强有力的工具去协助人脑来完成这些分析工作。可以说,伴随二十一世纪的到来,生物科学的重点和潜在的突破点已经由二十世纪的实验分析和数据积累转移到数据分析及其指导下的实验验证上来,生物科学也正在经历着一个从分析还原思维到系统整合思维的转变。
那么,我们寻求的那种强有力的数据分析工具就成为生物信息学发展的关键所在。值得庆幸的是伴随着生物科学对着这一需求的加剧,以数据分析为本质的计算机科学技术和网络同样获得突飞猛进的进展,自然而然的成为生物学家必然的选择。于是计算机科学和网络技术日益渗透到生物科学的方方面面,一门崭新的,拥有巨大发展潜力的生物信息学也就悄然而坚定的发展和成熟起来!可以这样说,历史的必然性选择了生物信息学,这个生物学与计算机科学的融合体,成为下一代生物科学研究的重要工具。

1.2.2 生物信息学的发展现状
1.2.2.1 国外发展情况
国外一直非常重视生物信息学的发展,各种专业研究机构和公司如雨后春笋般涌现出来,生物科技公司和制药工业内部的生物信息学部门的数量也与日俱增。但由于对生物信息学的需求是如此迅猛,即使是象美国这样的发达国家也面临着供不应求、人才匮乏的局面。

从专业机构的角度来讲,美国于1988年在国会的支持下成立了国家生物技术信息中心(NCBI),其目的是进行计算分子生物学的基础研究,构建和散布分子生物学数据库;欧洲于1993年3月就着手建立欧洲生物信息学研究所(EBI),日本也于1995年4月组建了自己的信息生物学中心(CIB)。

从数据分析技术的角度来讲,早在1962年,Zuckerkandl和Pauling就将序列变异分析与其演化关系联系起来,从而开辟了分子演化的崭新研究领域;1964年,Davies开创了蛋白质结构预测的研究;1970年,Needleman和Wunsch发表了广受重视的两序列比较算法;1974年,Ratner首先运用理论方法对分子遗传调控系统进行处理分析;1975年,Pipas和McMahon首先提出运用计算机技术预测RNA二级结构;随着1976年之后大量生物学数据分析技术的涌现,Science于1980年第209卷就已经发表了关于计算分子生物学的综述;正如我们现在所看到的那样,在八九十年代,生物学数据分析技术在国外更是获得了突飞猛进的发展。

从专业出版业来看,由于没有专业领域专门的期刊,起初的专业文献都散落在各种其他领域的期刊中,到了1970年,出现了Computer Methods and Programs in Biomedicine这本相关期刊,到1985年4月,就有了第一种生物信息学专业期刊——Computer Application in the Biosciences;现在,我们可以看到的专业期刊已经很多了,包括书面期刊和网上期刊两种,如Bioinformatics (formerly Computer Applications in the Biosciences) 、Acta Biotheoretica 、Bio Informatics Technology & Systems 、Bioinform Newsletter 、Briefings in Bioinformatics 和Journal of Computational Biology 等。
从网络资源来看,国外互联网上的生物信息学网点非常繁多,大到代表国家级研究机构的、小到代表专业实验室的都有,大型机构的网点一般提供相关新闻、数据库服务和软件在线服务,小型科研机构一般是介绍自己的研究成果,有的还提供自己设计的算法的在线服务,总体而言,基本都是面向生物信息学专业人士,各种分析方法虽然很全面,但却分散在不同的网点,分析结果也需专业人士来解读。

目前,绝大部分的核酸和蛋白质数据库由美国、欧洲和日本的3家数据库系统产生;他们共同组成了DDBJ/EMBL/GenBank国际核酸序列数据库,每天交换数据,同步更新。其他一些国家,如德国、法国、意大利、瑞士、澳大利亚、丹麦和以色列等,在分享网络共享资源的同时,也分别建有自己的生物信息学机构、二级或更高级的具有各自特色的专业数据库以及自己的分析技术,服务于本国生物(医学)研究和开发,有些服务也开放于全世界。

1.2.2.2 国内发展情况
国内对生物信息学领域也越来越重视,自北京大学物理化学研究所于1996年建立了国内第一家生物信息学网络服务器以来,我国生物信息学也蓬勃发展了起来,国内近年来开展生物信息学研究的单位主要有:北京大学、清华大学、中国科学院生物物理所、军事医学科学院、上海生命科学院、中国科学院生物化学所、中国科学院微生物所、中国科学院遗传所人类基因组中心、中国医学科学院、天津大学、复旦大学、南开大学、中国科技大学、东南大学、内蒙古大学等。在一些著名院士和教授的带领下,在各自领域取得了一定成绩,有的在国际上还占有一席之地,如北京大学的罗静初和顾孝诚教授在生物信息学网站建设方面、中科院生物物理所的陈润生研究员在EST序列拼接方面以及在基因组演化方面、天津大学的张春霆院士在DNA序列的几何学分析方面、中科院理论物理所郝柏林院士、清华大学的李衍达院士和孙之荣教授、内蒙古大学的罗辽复教授、上海的丁达夫教授……北京大学于1997年3月成立了生物信息学中心,中科院上海生命科学研究院也于2000年3月成立了生物信息学中心,分别维护着国内两个专业水平相对较高的生物信息学网站……

但从全国总体上来看与国际水平差距很大。一方面,国内生物(医药)科学研究与开发对生物信息学研究和服务的需求市场非常广阔,另一方面,真正开展生物信息学具体研究和服务的机构或公司却相对较少,仅有的几家科研机构主要开展生物信息学理论研究,声称提供生物信息学服务的公司所提供的服务也仅局限于简单的计算机辅助分子生物学实验设计,而且服务体系并不完善;目前国内互联网上已经有了几家生物信息学网站,但大部分偏于所有生物(医)学领域的新闻报道,生物信息学专业技术服务的含量太少,研究力量薄弱,这就与国外有了较大差距。

1.3 生物信息学的展望
《第三次技术革命》写到:"一场与工业革命和以计算机为基础的革命有相同影响力的变化正在开始。下一个伟大时代将是基因组革命时代,它现在处于初期阶段。"可见基因组研究乃至整个生物信息学的发展对今后人类社会将产生的深远影响。
信息学的商业价值十分显著。国外很多大学,研究机构,软件公司甚至政府机构纷纷成立各种生物信息机构,建立自立的生物信息集成系统,研制这方面的软件,重金招聘人才,期望从中获取更多的生物信息和数据加以研究和利用,缩短药物开发周期,抢注基因专利,获取更大利润。我国如不加大资金投入力度,将来可能会花更多的钱去购买别人的软件,使用专利基因或购买新的药物。所幸,我国也开始重视这一学科:南、北方人类基因组中心的相继建成,北大生物城的破土动工等,标志着我国对生物信息学的重视。

作为计算机科学和数学应用于分子生物学而形成的交叉学科,生物信息学已经成为基因组研究中强有力的必不可少的研究手段。在我国,生物信息学随着人类基因组研究的展开才刚刚起步,但已显露出蓬勃发展的势头。许多科研单位已经开始或准备开始从事这方面的研究工作。北京大学研究建立起一个EMBL的镜像数据库,并提供数据检索服务。在复旦大学遗传学研究所,为克隆新基因而建立的一整套生物信息系统也已初具规模。中科院上海生化所、生物物理等在结构生物学和基因预测研究方面也有相当的基础,中科院计算所作为我国计算机科学的顶尖机构,利用自身优势,也开始在生物信息方面投入大量的人力物力,从事相关的研究。我们有理由相信,我国的生物信息学在21世纪会有巨大的飞跃。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: