免费论文网 首页

生物信息学习题

时间:2017-01-14 07:12:53 来源:免费论文网

篇一:生物信息学复习题及答案(陶士珩)

生物信息学复习题

一、 名词解释

生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept,折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。

二、 问答题

1)生物信息学与计算生物学有什么区别与联系?

2)试述生物信息学研究的基本方法。

3)试述生物学与生物信息学的相互关系。

4)美国国家生物技术信息中心(NCBI)的主要工作是什么?请列举3个以上NCBI维护的数据库。

5)序列的相似性与同源性有什么区别与联系?

6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?

7)简述BLAST搜索的算法。

8)什么是物种的标记序列?

9)什么是多序列比对过程的三个步骤?

10)简述构建进化树的步骤。

11)简述除权配对法(UPGMA)的算法思想。

12)简述邻接法(NJ)的算法思想。

13)简述最大简约法(MP)的算法思想。

14)简述最大似然法(ML)的算法思想。

15)UPGMA构树法不精确的原因是什么?

16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其含义。

17)试述DNA序列分析的流程及代表性分析工具。

18)如何用BLAST发现新基因?

19)试述SCOP蛋白质分类方案。

20)试述SWISS-PROT中的数据来源。

21)TrEMBL哪两个部分?

22)试述PSI-BLAST 搜索的5个步骤。

三、 操作与计算题

1)如何获取访问号为U49845的genbank文件?解释如下genbank文件的LOCUS行提供的信息:

LOCUSSCU49845 5028 bp DNA linearPLN21-JUN-1999

2)利用Entrez检索系统,对核酸数据搜索,输入如下信息,将获得什

么结果:

AF114696:AF114714[ACCN]。

3) 相比使用BLAST套件搜索数据库,BLAST2工具在结果呈现上有什么

优点?

4)MEGA2如何将其它多序列比对格式文件转化为MEGE格式的多序列比对文件?

5)什么简约信息位点Pi?

6)以下软件的主要用途是什么?

RepeatMasker, CpGPlot, Splice View, Genscan, ORF finder,

neural network promoter prediction.

7) 为下面的序列比对确定比对得分:匹配得分= +1,失配得分= 0,空位得分= -1。

TGTACGGCTATA

TC - -CGCCT –TA

分别是T,T,C和C,为每个内部节点推断的祖先序列标出最可能的候

选核苷酸,3棵可能的无根树中有几棵是一样简约的(因为他们有最

小替换数)?有几棵树的替换树是2?有大于2个替换的树吗?

10)如何将所研究的蛋白质与其他相关蛋白质做结构比对。

答案部分

一、名词解释:

生物信息学: 研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。

二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。P11,第2段。

FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。P13,第2段。

Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。P83-85。

BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94

查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98,第1段。

打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29,第2段。

空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29,第2段。

空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37,倒数第2段。

E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95

低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly

(A)。P100,第一段。

点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。P39-41。

多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。P48,需要概括。

分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。P112-113

系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。P112,第一段。

进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。P113,最后一段。

系统发育图:P114

直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。P28,P146

旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上的可能发生了改变。P28,P147

外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。P120 有根树:能够确定所有分析物种的共同祖先的进化树。P113

除权配对算法(UPGMA):最初,每个序列归为一类,然后找到距离最近的两类将其归为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。P119

邻接法(neighbor-joining method):是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。P118。

最大简约法(MP):在一系列能够解释序列差异的的进化树中找到具有最少核酸

或氨基酸替换的进化树。P120

最大似然法(ML):它对每个可能的进化位点分配一个概率,然后综合所有位点,找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。P122

一致树(consensus tree):在同一算法中产生多个最优树,合并这些最优树得到的树即一致树。P121

自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。P122

开放阅读框(ORF):开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列。P131

密码子偏好性(codon bias):氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致,大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子,这种效应称为密码子偏好性。P133

基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子与外显子边界,调控区,预测基因组序列中包含的基因。P134-145

简约信息位点:指基于DNA或蛋白质序列,利用最大简约法构建系统发育树时,如果每个位点的状态至少存在两种,每种状态至少出现两次的位点。其它位点为都是非简约性信息位点。P121,第2行

结构域(domain):保守的结构单元,包含独特的二级结构组合和疏水内核,可能单独存在,也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性。P158

模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。P161,最后一行

PAM矩阵:PAM指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性,通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间的比对。一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。P30-31

BLOSUM矩阵:模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如,在BLOSUM62矩阵中,比对的分值来自不超过62%一致率的一组序列。P34

折叠子(Fold):在两个或更多的蛋白质中具有相似二级结构的大区域,这些大区域具有特定的空间取向。P162

TrEMBL:是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。P21

PDB(Protein Data Bank):PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。P22

MMDB(Molecular Modeling Database):是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等 ,还提供生物大分子三维结构模型显示、结构分析和结构比较工具。?

SCOP数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依次是类(class)、折叠子(fold)、超家族(super family)、家族(family)、单个PDB蛋白结构记录。P23

PROSITE:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。 P22

RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的Genbank序列。?

PSI-BLAST:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵(scoring matrix)探测远缘相关的蛋白。P97

Gene Ontology 协会:编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。 从3个方面描述基因产物的性质,即,分子功能,生物过程,细胞区室。 表谱(PSSM):指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索序列数据库。P97

比较基因组学:P148

二、问答题

1.绪论

1) 生物信息学的发展经历了那几个阶段

2) 生物信息学步入后基因组时代后,其发展方向有哪几个方面。

1)请列举3个以上Entrez系统可以检索的数据库。

答:P83

2)序列的相似性与同源性有什么区别与联系?

答:相似性是指序列之间相关的一种量度,两序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系。P147

3)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?

答:blastn是将给定的核酸序列与核酸数据库中的序列进行比较;Blastp是使用蛋白质序列与蛋白质数据库中的序列进行比较,可以寻找较远的关系;Blastx将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对,对分析新序列和EST很有用;Tblastn将给定的氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对,对于寻找数据库中序列没有标注的新编码区很有用;Tblastx只在特殊情况下使用,它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对。P97

4)简述BLAST搜索的算法思想。

答:BLAST是一种局部最优比对搜索算法,将所查询的序列打断成许多小序列片段,然后小序列逐步与数据库中的序列进行比对,这些小片段被叫做字”word”;当一定长度的的字(W)与检索序列的比对达到一个指定的最低分(T)后,初始

篇二:生物信息学复习题及答案(陶士珩)

生物信息学复习题

名词解释

1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。

2.Orthologs(直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。

3.Paralogs(旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。

4.Xenologs (异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。

5.Identity Score:The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。

6.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。

7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。

8.P值:得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP(高分片段对)得分的期望分布联系起来计算的。通常使用低于0.05来定义统计的显著性。P=1-e-E

9. 打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法,是序列相似性分析的基础,其不同的选择将会出现不同的分析结果。

10.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。

11.NCBI:美国国家生物技术信息学中心,属于美国国立医学图书馆的一部分,具有BLAST, Entrez ,GenBank等工具,还具有PubMed文献数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc.

12.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有大于号(>)开始的核苷酸或者氨基酸序列的新文件,其中大于号后可以跟上序列的相关信息,其他无特殊要求。 13genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释,主要包含生物功能或数据库信息;第三部分是feature,对序列的注释;第四部分是序列本身,以“//”结尾。

14.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点,可以使用关键词如基因名字、物种名字及生物学功能检索等。

15.BLOSUM矩阵:模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如,在BLOSUM62矩阵中,比对的分值来自不超过62%一致率的一组序

16.系统发生树(Phylogenetic tree )是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系,是一种亲缘分支分类方法。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。是用来研究物种进化与多样性的基础,是相近物种相关生物学数据的来源。

17.基因树与物种树:物种树反映一组物种进化历程的系统树,其中每一个内部节点就代表一个物种形成的过程,而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树,而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。基因复制事件可能发生在物种形成之前或之后,造成基因树与物种树拓扑结构存在差异的(来自两个物种的两个基因的分化可能发生在物种形成事件之前)。

18. 有根树:包含一唯一的节点,将其作为树中所有物种的共同祖先,并且这一节点到其他节点的路径也是唯一的,最常用的确定树根的方法就是利用分子钟理论。在相同序列数条件下,有根树的可能的形式要多于无根树,这就有根树出错的概率明显高于无根树;无根树:找不到代表祖先树根的唯一节点的系统树。无根树只能确定之间的亲缘关系的远近,在相同序列数条件下,可能的构树形式相对有根树要少,并且无根树是没有方向的,其中线段的两个演化方向都有可能。

19.分子钟:认为在进化过程中物种间分子进化速率是恒定的或者几乎不变的假说,即蛋白序列间的氨基酸替换数正比于序列间的分歧世代数。意义:利用蛋白质序列的恒定的进化速率,可以推算不同物种序列发生分化的时间,从而将一些不同物种的系统发生关系确定下来以及推断出物种起源的时间。缺陷:不同生物体的分子进化速率差别是很大的,如病毒的一

些序列;不同基因的分子钟一般不同;只能用于长期进化历程中仍保持其生物学功能的那些基因,那些进化丢失功能或基因复制后改变功能的不能适用;进化速率是可变的,某些基因在自我扩增后进化速率大大提高;

20.生物信息学: 研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。

21. 邻接法(neighbor-joining method):其首先确定距离最近的分类单元对。然后使系统树的总距离达到最小,不断循环将相邻分类单元秉承一个新的分类单元,最终建立相应的系统发育树。其是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。

需要理解的地方:window size dotplot

1. 序列的相似性与同源性有什么区别与联系?

答:(1)相似性是指序列之间相关的一种统计学的量度,两序列的的相似性可以基于序列的一致性和相似度的百分比,也可以用相应的分数来衡量这种相似;而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系,不能用相应的数字去量化这种关系,我们只能说序列具有高的一致性的百分比的可能是同源的。

(2)相似的不一定是同源的,同源的则表现出一定的相似性。因为在进化中来源于不同的基因或序列由于不同的独立突变而趋同的并不罕见。相反同源序列由于来源于共通过祖先则表现出一定的相似性。

2. why the reliability of protein alignment is higher than that of DNA?

(1)核酸序列有四种碱基构成,当用两条核酸序列比对时出现随机匹配的概率是25%,而蛋

白序列由20种氨基酸序列组成,当用两条蛋白序列比对时出现随机匹配的概率是5%,因此用核酸序列比对时出现假阳性概率比较大,可靠性差。

(2)密码子的简并。由于密码子存在简并现象,导致密码子的变化不一定会导致氨基酸的变化,即一个氨基酸可以有多个密码子,因而在进化过程中蛋白质序列比核酸序列更为保守,采用蛋白序列比对更具有实际的意义。

(3)当序列相似性很高时可以选择DNA序列进行比对。

3.PAM矩阵的假设条件及PAM1与PAM250的关系。

(1)假设条件:a.临近突变独立。相邻位置的突变是独立的互不影响的。b.进化历程的独立。每个位点的突变概率仅由当前状态决定。c.位置独立。某个氨基酸突变为另一个氨基酸仅有这两个氨基酸决定。

(2)基于进化的点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个PAM就是一个进化的变异单位, 即100个氨基酸中有1个发生可能被自然选择接受的突变改变。PAM250则是PAM1自乘250次后得到的,即100个氨基酸中发生250个可被自然选择接受的点突变,但这并不意味250次PAM后,每个氨基酸都发生变化,最后仍然具有20%的相似性,因为其中一些位置可能会经过多次突变,甚至可能会变回到原来的氨基酸;PAM1常用于近缘序列(85%),而PAM250用于相似度为20%左右的的远缘序列。

(3)PAM1-PAM250生物学意义:PAM250矩阵适用于20%一致性的的远相关蛋白的比对,而PAM1适用于85%的近缘序列,说明了生物进化是朝着趋异进化的,但总能彼此保持一定的相似性。PAM 120: 40% similar; PAM 80: 50% similar; PAM 60: 60% similar;

(4)PAM矩阵的局限性:Basic assumption: No correlations in exchange frequencies between neighboring sites.Structural analysis has confirmed role of neighboring residues

篇三:生物信息学课后题及答案

生物信息学课后习题及答案

(由10级生技一、二班课代表整理)

一、绪论

1.你认为,什么是生物信息学?

采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋

白质等)的收集、加工、储存、分析、解释的一门学科。

2.你认为生物信息学有什么用?对你的生活、研究有影响吗?

(1)主要用于: 在基因组分析方面:生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分

子进化、蛋白质结构预测等

在医药方面:新药物设计、基因芯片疾病快速诊断、流行病学研究:SARS、人类基因

组计划、基因组计划:基因芯片。

(2)指导研究和实验方案,减少操作性实验的量;验证实验结果;为实验结果提供更多的

支持数据等材料。

3.人类基因组计划与生物信息学有什么关系?

人类基因组计划的实施,促进了测序技术的迅猛发展,从而使实验数据和可利用信息急剧

增加,信息的管理和分析成为基因组计划的一项重要的工作 。而这些数据信息的管理、分

析、解释和使用促使了生物信息学的产生和迅速发展。

4简述人类基因组研究计划的历程。

通过国际合作,用15年时间(1990-2005)至少投入30亿美元,构建详细的人类基因

组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其他生

物进行类似研究。

1990,人类基因组计划正式启动。

1996,完成人类基因组计划的遗传作图,启动模式生物基因组计划。

1998完成人类基因组计划的物理作图,开始人类基因组的大规模测序。Celera公司加

入,与公共领域竞争启动水稻基因组计划。

1999,第五届国际公共领域人类基因组测序会议,加快测序速度。

2000,Celera公司宣布完成果蝇基因组测序,国际公共领域宣布完成第一个植物基因组

——拟南芥全基因组的测序工作。

2001,人类基因组“中国卷”的绘制工作宣告完成。

2003,中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功,人类基

因组计划的.目标全部实现。

2004,人类基因组完成图公布。

2.我国自主知识产权的主要基因组测序计划有哪些?

水稻(2002),家鸡(2004),家蚕(2007),家猪(2012),大熊猫(2010)

二.第一章

1、生物信息指哪些?

主要有从DNA序列、蛋白质序列、蛋白质结构和功能研究中解读的:遗传信息、进化信息、

结构和功能信息。

2、基因组测序的基本策略有哪些?

逐个克隆法:小片段针对图谱的!!

全基因组鸟枪法:大片段-测序-组装

3.什么叫contig?

Contig:重叠群,基因组测序中将许多序列片段经过比对找到重叠区,从而连接成的长

片段。

4、生物信息学中最重要的贡献是什么?

1970: Needleman和Wunsch提出了著名的序列比对算法,是生物信息学发展中最重要的

贡献;

5、什么事件大大促进了生物信息学的发展?

20世纪90年代后

HGP促进生物信息学的迅速发展

6、生物信息学研究有什么意义?

(1)认识生物本质,了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之

间的关系

(2)改变生物学的研究方式

(3)改变传统研究方式,引进现代信息学方法

(4)在医学上的重要意义

为疾病的诊断和治疗提供依据

为设计新药提供依据

三.第二章

1、简述三干六界学说。

2.TSS,外显子和内含子的概念。

TSS是转录起始位点(Transcription Start Site)的英文缩写,是指DNA上一段与RNA

聚合酶结合并起始转录的一段DNA序列。真核生物结构基因,由若干个编码区和非编码

区互相间隔开但又连续镶嵌而成,去除非编码区再连接后,可翻译出由连续氨基酸组成

的完整蛋白质,这些基因称为断裂基因。其中的编码区即为外显子,非编码区即为内含

子。

3. 如何判断起始密码子?内含子?

AUG甲硫氨酸(met) 内含子(5’-GT??AG-3’)

4.蛋白质二级结构有哪些?

(1)螺旋

(2)b折叠 – 平行折叠 反平行折叠

(3)b转角 – 连接作用”U”型结构(大多Phe, Gly组成)

(4)无规卷曲-没有确定规律性的肽链构象,但仍是紧密有序的稳定结构

(5)无序结构 多肽链中有60%的区段为a螺旋和b折叠

5、HGP选择作为研究人类的四大“模式生物“有哪些?

酵母、线虫、果蝇、小鼠。

6、背诵生物信息数据库中的核苷酸代码?

四.第三章(1)

1、下列数据库分别是什么类型的数据库?

序列数据库中的核酸数据库(GenBank PIR DDBJSWISS-PROT EMBL)

结构数据库(PDB)

2、如何查找由Rao Y 实验室于2005以后发表的,文章主题中与brain有关的文献,写出

检索语言。

Brain[ti] AND RaoY[au] AND 2005:2013[dp]

3、如:我要查找RaoY在Nature 或Science上发表的论文,哪一个检索语言是正确的?正确①Rao Y[au] AND (Nature[Journal] OR Science[Journal])

②Rao Y[au] AND Nature OR Science[Journal]

③Rao Y[au] AND Nature[Journal] OR Science[Journal]

④Rao Y[au] AND (Nature OR Science)[Journal]

五.第三章(2)

1、简述GenBank数据库中GBFF格式的结构?

GenBank flatfile(GBFF)是GenBank数据库的基本信息单位,也是最广泛地用以

表示生物序列的格式之一。GBFF可以分成三个部分,头部包含关于整个记录的信息(描

述符);第二部分包含了注释这一记录的特性;第三部分是核苷酸序列自身。所有的核

苷酸数据库记录(DDBJ/ EMBL/ GenBank)都在最后一行以 // 结尾.

2、GBFF格式的特性表格式包括哪三个部分?

特性表格式包含三个部分:

第一,特性关键词(Feature key);

第二,特性位置(Location);

第三,限定词(Qualifiers)

3、指出下列特殊标识符的格式?

①序列辨认号(GI):一串阿拉伯数字

②GenBank/EMBL/DDBJ序列接受号:

1个字母+5个阿拉伯数字;1个字母+6个阿拉伯数字

③RefSeq序列接受号:带“-”

mRNA记录(NM*);完整的基因组或染色体(NC*)

④PDB序列接受号:1个阿拉伯数字+3个字母

4、指出下列GBFF格式中特性表含义?

(23.45)..600 指明序列特征起始碱基在23和45碱基之间,终止于600号碱基

145^177 指明145和177碱基之间的某个位点

Complement(join(2691..4571,4918..5163)) 纪录中的特性处于2691至4571碱基以及

4918至5163碱基之间的序列相连构成的连续序列的互补链上

六.第四章

1、这两个序列的cost 和score分别是多少?

(A)cost 2 score 9 (B)cost 4 score 6

2、在序列比对运算时最终结果是上面哪种运算方式?(A)

3、给定一个DNA打分矩阵,假设空位罚分为2,按照以下的打分矩阵,对于下列对齐方案的计分值为多少?A

A

T

C

G1-1-1-1T-11-1-1C-1-11-1G-1-1-11

GCGACTC

TAGAGAC

* * * **** * * * *GG00

4、判断题:

(1)A序列和B序列的相似性是80%对

(2)A序列和B序列的一致性为39.4% 对

(3)A序列和B序列的同源性是80%错

(4)两序列间的相似性越高。它们的同源性就越高 错

5、名词解释:

(1)同源性:两个基因或蛋白质序列具有共同祖先的结论;

(2)直系同源:(Orthologous ):指不同物种中具有相同功能和共同起源的基因

(3)旁系同源(Paralogous ):指在同一物种内具有不同功能,但也有共同起源的基因。


生物信息学习题
由:免费论文网互联网用户整理提供,链接地址:
http://m.csmayi.cn/show/148897.html
转载请保留,谢谢!
相关阅读
最近更新
推荐专题