分子生物学电子教案第三章(推荐)由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“现代分子生物学第三章”。
第三章 基因的结构和功能
第3章 基因与基因组的结构
1.主要内容
1)断裂基因 构成 性质 2)重叠基因 种类 3)C值矛盾
4)原核生物与真核生物基因组的区别 5)真核生物染色体的结构
6)真核生物DNA序列的4种类型
7)基因家族、基因簇、卫星DNA、分散重复DNA 序列 8)人类基因组计划 2.教学要求
1)掌握基因,断裂基因,顺反子,C值矛盾,重叠基因,基因家族,重复序列,卫星DNA等基本概念;
2)熟悉原核生物和真核生物基因组结构特点与功能; 3)了解人类基因组的重复顺序、人类基因组计划。第1节 基因的概念 第2节 基因命名简介
第3节 真核生物的断裂基因
第4节 基因及基因组的大小与C值矛盾 第5节 重叠基因 第6节 基因组
第7节 真核生物DNA序列组织 第8节 基因家族
第9节 人类基因组研究进展
第1节 基因的概念
基因:带有特定遗传信息的核酸分子片段。包括
结构基因:编码蛋白质 tRNA rRNA 调控基因:
基因研究的发展 染色体 分子 反向生物学
基因位于染色体和细胞器的DNA分子上 • 基因和顺反子
• 1955,Benzer用以表述 T4 具溶菌功能的区的2个亚区: rⅡA rⅡB • 现代分子生物学文献中,顺反子和基因这两个术语互相通用。第2节 基因命名简介
• 表示基因 3个小写斜体字母,lac • 表示基因座 3个小写斜体字母 + 1个大写斜体字母。lacZ • 表示质粒
自然质粒 3 个正体字母,首字母大写
重组质粒 在2个大写字母前面加小写p • 基因为斜体,蛋白质为正体 • 人类基因为大写斜体
第3节 真核生物的断裂基因 •
一、割裂基因的发现
• 1977,通过成熟mRNA(或cDNA)与编码基因的DNA杂交试验而发现
• 真核生物的基因是不连续的,大大改变了原来对基因结构的看法,现在知道大多数真核生物的基因都是不连续基因或割裂基因(split gene)。
• 割裂基因的概念——是编码序列在DNA分子上不连续排列而被不编码的序列所隔开的基因。• 割裂基因的构成• 构成割裂基因的DNA序列被分为两类:
• 基因中编码的序列称为外显子(exon),外显子是基因中对应于信使RNA序列的区域; • 不编码的间隔序列称为内含子(intron),内含子是从信使RNA中消失的区域。
• 割裂基因由一系列交替存在的外显子和内含子构成,基因两端起始和结束于外显子,对应于其转录产物RNA的5’和3’端。如果一个基因有n个内含子,则相应地含有n+1个外显子。
割裂基因的性质
• Splitting Gene 的普遍性 • 外显子和内含子各有特点 • Splitting gene 概念的相对性 Splitting Gene 的普遍性
a)真核生物(Eukaryots)中 • 绝大部分结构基因
• tDNA, rDNA • mtDNA, cpDNA b)原核生物(Prokaryots)中 • SV40 大T 抗原gene • 小t 抗原 gene
• Splitting gene 并非真核生物所特有
外显子和内含子各有特点
• 割裂基因的外显子在基因中的排列顺序和它在成熟mRNA产物中的排列顺序是相同的;
• 某种割裂基因在所有组织中都具有相同的内含子成分;
• 核基因的内含子通常在所有的可读框中都含有无义密码子(nonsense codon),因此一般没有编码功能。
• 内含子上发生的突变不能影响蛋白质的结构,所以其突变往往对生物体是没有影响的;
• 但也有例外,例如一些发生在内含子上的突变可通过抑制外显子的相互剪接阻止信使RNA的产生。
• 利用结构基因的特殊DNA限制片段作为探针,我们可以检测基因组中与之有亲缘关系的序列,结果表明一个基因的外显子常与其他基因的外显子有亲缘关系。
• 两个相关基因内含子之间的亲缘关系远远不如其外显子之间的亲缘关系紧密。• 这是因为在进化过程中,相关基因的内含子比外显子变化得更快。
Splitting gene 概念的相对性 a)Intron 并非―含而不露‖ Yeast 细胞色素b基因 Intron II 编码成熟酶 b)Exon 并非―表里如一‖
人类尿激酶原基因 Exon I 不编码 氨基酸序列 c)并非真核生物所有的结构基因均为splitting gene
Histone gene family 干扰素
Yeast 中多数基因(ADH…)
第4节 基因及基因组的大小与C值矛盾
• 由于割裂基因的存在,人们认识到基因比实际编码蛋白质的序列要大得多。• 外显子的大小与基因的大小没有必然的联系。
• 不同种类的生物体中外显子的大小并没有明显的不同,基因可能是由一些小的、编码较小的独立蛋白质分区的单位在进化过程中加合起来的。
基因的大小取决于它所包含的内含子的长度
• 内含子之间有很大不同,它们的大小从200个碱基对左右到上万个碱基对。在一些极端的例子里,甚至有50-60 kb的内含子。
• 由于基因的大小取决于内含子的长度和数目,导致酵母和高等真核生物的基因大小有很大的不同。• 大多数酵母基因小于2 kb,很少有超过5 kb的。
• 与此相反,在高等的真核生物中,开始出现长的基因,蝇类和哺乳动物基因很少小于2 kb,大多数长度在5~100 kb之间。
• 但当基因的长度大到一定程度后,DNA的复杂性与生物体的复杂性之间开始失去必然的联系。• 例如虽然属于同一个门,果蝇细胞的DNA总量较小而家蝇细胞的DNA总量却是它的6倍。
基因组
• 狭义:单倍体细胞中的全套染色体(人:22条常染色体 + X,Y + 线粒体DNA)。• 广义:一物种的全部遗传物质及其携带的遗传信息。
基因组大小与C值矛盾
• 一个单倍体基因组的全部DNA含量总是恒定的。这是物种的一个特征,通常称为该物种的C值。• 不同物种的C值差异很大,最小的枝原体只有直106bp,而最大的如某些显花植物和两栖动物可达lO11bp。
Range of genome size in different phyla门
• 由图表可见,随着生物的进化,生物体的结构和功能越来越复杂,其C值就越大,例如真菌和高等植物同属于真核生物,而后者的C值就大得多。这一点是不难理解的,因为结构和功能越复杂,需要的基因产物的种类越多,也就是说需要的基因越多,因而C值越大。
• 然而另一方面,随着进一步的进化,生物体复杂性和DNA含量之间的关系变模糊了,出现了很多令人不解的现象。一些生物类群基因组大小的变化范围很窄,而另一些类群的变化范围则很宽。
• 突出的例子是两栖动物,C值小的可以低至109bp以下,C值大的可以高达1011bp。而哺乳动物的C值均为109bp的数量级。人们很难相信不同的两栖动物,所需基因的数量会有100倍的差别,而且两栖动物的结构和功能会比哺乳动物更复杂。
• 由于人们无法用已知功能来解释基因组的DNA含量,所以产生了C值矛盾(C value paradox,又称C值悖理)。
• 它表现在两个方面:一个方面是,与预期的编码蛋白质的基因的数量相比,基因组DNA的含量过多。另一个方面是一些物种之间的复杂性变化范围并不大,但是C值却有很大的变化范围。这些问题的解决有待于进一步的研究。
第5节 重叠基因
莲人在绿杨津 采 一 玉漱声歌新阙
采莲人在绿杨津,在绿杨津一阙新;
一阙新歌声漱玉,歌声漱玉采莲人。
一、原核生物的重叠基因(overlapping gene)• 在细胞基因中,一般一段DNA序列只以三种蛋白质可读框的一种被阅读,但是在一些病毒或线粒体基因中,两个邻近的基因以一种巧妙的方式发生重叠,并以不同的可读框被阅读并表达,因此一段相同的DNA序列可以编码两个非同源蛋白质。
φXl74的DNA序列组织上有重叠基因(overlap-ping gene)和基因内基因
重叠基因有以下几种情况:
①一个基因完全在另一个基因内部 如:B和A* E和D
其读码结构互不相同 重叠基因
基因内基因 部分重叠基因 一个碱基重叠
二、真核生物的重叠基因
• 通常割裂基因的每个外显子编码一段单一的氨基酸序列,对应于整个蛋白质上的相应部分,而内含子不在最终的蛋白质产物中表达,二者的作用是迥然不同的。但是有些基因中内含子和外显子的定义是相对的,与它表达的途径有关。
• 在这些基因中,选择性的基因表达模式引起了外显子连接途径的转变。
• 一个特定的外显子可能选择性地与不同的外显子连接形成信使RNA。
• 这种选择性形式产生的两种蛋白质中,一部分相同而其他部分不同。一段区域以一种途径表达时作为外显子,而以另一种途径表达时作为内含子。
• 因为此时一段DNA序列通常以多种方式起作用,所以不能被简单地称为外显子或内含子。
第6节 基因组
一、原核生物的染色体基因组
二、真核生物基因组
一、原核生物的染色体基因组
(一)细菌染色体基因组结构的一般特点
1.细菌的染色体基因组通常仅由一条环状双链DNA分子组成,细菌的染色体相对聚集在一起,形成一个较为致密的区域,称为类核(nucleoid)。类核无核膜与胞浆分开,类核的中央部分由RNA和支架蛋白组成,外围是双链闭环的DNA超螺旋。染色体DNA通常与细胞膜相连,连接点的数量随细菌生长状况和不同的生活周期而异。Fig.Typical bacterial cell E.coli genome is a single double-stranded DNA molecule of 1. 6 mm.m in length But E.coli is only ~ 2
DNA is ~ 1000 larger than the size of the cell!This is achieved by super-coiling the DNA.
DNA gyrase旋转酶 introduces negative-superhelical twists into the DNA.The degree of supercoiling of the chromosome is strictly regulated.Fig.The structure of E.coli nucleoid(图大肠杆菌拟核的结构)
2.具有操纵子(trnascriptional operon)结构, 其中的结构基因为多顺反子(polycistron),即数个功能相关的结构基因串联在一起,受同一个调节区的调节。数个操纵子还可以由一个共同的调节基因(regulatorygene)即调节子(regulon)所调控。
X174 D-E-J-F-G-H mRNA 外壳蛋白J、F、G、H 组装蛋白D 裂解蛋白E
E.coli 色氨酸操纵子 9个顺反子 9个酶
真核很少,如18s 5.8s 及28s rRNA 基因
3.在大多数情况下,结构基因在细菌染色体基因组中都是单拷贝。4.不编码的DNA部份所占比例比真核细胞基因组少得多。
5.具有编码同工酶的同源基因(isogene)例如,在大肠杆菌基因组中有两个编码分支酸(chorismicacid)变位酶的基因,两个编码乙酰乳酸(acetolactate)合成酶的基因。
6.细菌基因组编码顺序一般不会重叠,和病毒基因组不同的。
7.在DNA分子中具有各种功能的识别区域 如复制起始区OriC,复制终止区TerC,转录启动区和终止区等。这些区域往往具有特殊的顺序,并且含有反向重复顺序。
8.在基因或操纵子的终末往往具有特殊的终止顺序,它可使转录终止和RNA聚合酶从DNA链上脱落。例如大肠杆菌色氨酸操纵子后尾含有40bp的GC丰富区,其后紧跟AT丰富区,这就是转录终止子的结构。
图 Prokaryotic Chromosomes • Haploid仅一对染色体 • DNA is compacted紧凑的– E.g.E.coli packs 1.5 mm chromosome into a cell that is only 1um in length • No histones or nucleosomes无组蛋白和核小体
– Small basic proteins MAY serve a similar function • Genes usually do not contain introns • Single origin of replication单一复制起点
(二)质粒基因组
• 指细菌的染色体外基因组,大约几十种。• 质粒DNA呈线状或环状双链结构
• 大小约1×103~300×103bp,相对分子质量1×106~200×106。• 质粒基因可通过复制、转录、翻译而赋予寄主细胞某种性状。质粒基因组
二、真核生物基因组
(一)真核染色体
(二)真核染色体基因组
(三)线粒体基因组
(四)叶绿体基因组
(一)真核染色体(Eukaryotic chromosome)1.概述
2.组蛋白(Histone)
3.核小体(Nuclearsome)
4.染色体结构的形成5.着丝粒(centromere或中心粒)和端粒(telomere)1.概述:
Chromatin structure enables the chromosomes to alter their compactne as the cell progre the cell cycle.2.组蛋白(Histone)
3.核小体(Nuclearsome)
Mononucleosomes typically have ~200 bp DNA.End-trimming reduces the length of DNA first to ~165 bp, and then generates core particles with 146 bp.The 10 nm fiber is a continuous string of nucleosomes.4.染色体结构的形成(1)首先若干个核小体形成念珠状结构
(2)30nm纤丝的构成--
染色质结构的第二层次
5.着丝粒(centromere或中心粒)和端粒(telomere)有丝分裂中期的染色体
(二)真核染色体基因组(Eukaryotic chromosome genome)• 为真核生物单倍体染色体所含有的一整套基因。
1.真核生物基因组结构与功能的特点 1)含两份同源的基因组
2)结构复杂,基因数庞大,具有许多复制起点,每个复制子大小不一。3)真核基因由一个结构基因与相关的调控区组成,转录产物为单顺反子。4)含有大量重复序列。
5)非编码序列(non-coding sequence NCS)占90%以上。
6)断裂基因(split gene)。基因与基因间的非编码序列为间隔DNA(spacer DNA).7)功能相关的基因构成各种基因家族,可串联在一起,也可相距很远。8)可移动因素(mobile genetic element),又称为自私基因(selfish DNA).2.真核生物基因组的结构 • 结构基因
– 编码蛋白质 tRNA rRNA • 顺式作用元件(cis-acting element)指与结构基因表达调控相关、能够被基因调控蛋白特异性识别和结合的DNA序列。并非都位于转录起始点上游,包括启动子、增强子、上游启动子元件、反应元件、加尾信号等。
• 反式作用因子(trans-acting elements): 可通过结合顺式作用元件而调节基因转录活性的蛋白质因子。
3.真核生物与原核生物基因组特点的异同
1)真核生物基因分布在多个染色体上,而原核生物只一个染色体; 2)真核生物基因组远大于原核生物基因组;
3)真核生物细胞中DNA与组蛋白和大量非组蛋白结合,并有核膜将其与细胞质隔离,结果真核细胞的转录和翻译在时间上和空间上都是分离的,而原核细胞的基因转录和翻译是同步的;
4)真核生物的基因是不连续的,中间存在不被翻译的内含子序列,而原核生物几乎每一个基因都是完整的连续的DNA片段;
5)基因组中非编码序列远多于编码序列;
6)存在着重复序列,重复次数从几次到几百万次不等;
7)真核生物基因组的复制起点多,缺少明显的操纵子结构,而原核生物的基因组一般是一个复制子; 8)真核生物基因组与原核相同,存在转座因子。
(三)线粒体基因组(mitochondrial genome, mtDNA)• 双链环状分子
• 相对分子质量约1×103~2×105,动物<植物,大小为15.4—16.3kb; • 含有编码2个核糖体RNA(12S rRNA, 16S rRNA)、22个tRNA、1个细胞色素b、3个细胞色素氧化酶(COⅠ、COⅡ、COⅢ)、6个NADH 降解酶(ND1~6)和2个ATP酶(6和8)的基因(Flook, 1995)。
• 线粒体是半自主性的细胞器,只能编码部分所需产物,需与核基因互作编码一些重要物质。• 遗传密码与核DNA的不完全一致。
图1-1 线粒体DNA 结构示意图
(四)叶绿体基因组
• 也是半自主性的细胞器,需与核基因互作编码一些重要物质。• 叶绿体基因组较大,在高等植物中通常为140kb。
第7节 真核生物DNA序列组织
1、单拷贝序列:大多数编码蛋白质的结构基因属这一类。
2、轻度重复序列:2~10个拷贝。如组蛋白基因,酵母tRNA基因。
3、中度重复序列:重复次数为101~105。不编码,在基因表达调控起重要作用。
4、高度重复序列:重复次数>105的DNA序列,如卫星DNA,反向重复序列,rRNA,某些tRNA 第8节 基因家族(gene family)
一、基因家族和基因簇
• 基因家族指核苷酸序列或编码产物的结构具有一定程度同源性的一组基因。
• 假基因(pseudogene): 在多基因家族中有的成员并不能表达出有功能的产物,用ψ表示。基因家族的特点
1、核酸序列相同:即为多拷贝基因如rRNA基因家族,tRNA基因家族,组蛋白基因家族。
2、核酸序列高度同源:如人类生长激素基因家族包括三种激素的基因,人生长激素、人胎盘促乳素和催乳素,它们之间高度同源。
3、编码产物有同源功能:基因序列的相似性可能较低,但基因编码的产物具有高度保守的功能区。如src癌基因家族
4、编码产物具有小段保守基序:有些基因家族中各成员的DNA序列可能不明显相关,而所编码的产物却有共同的功能特征,存在小段保守的氨基酸基序。
• 基因超家族(gene superfamily)指一组由多基因家族及单基因组成的更大的基因家族,它们的结构有不同的同源性,但功能并不一定相同。如免疫球蛋白基因超家族。
基因簇(gene cluster)是指基因家族中的各成员紧密成簇排列成大段的串联重复单位,定位于染色体的特殊区域。它们属于同一个祖先的基因扩增产物。
二、基因外的DNA重复序列
• 除了基因家族外,染色体上还有大量无转录活性的重复DNA序列家族。
• 与在基因家族中的组织形式类似,它们也有两种组织形式:
– 串联重复DNA(卫星DNA),成簇存在于染色体的特定区域。
– 分散重复的DNA,重复单位并不成簇存在,而是分散于染色体的各个位点上。
1.卫星DNA
(1)概念:卫星DNA 有些高度重复DNA序列的碱基组成和浮力密度同主体DNA有区别,在浮力密度梯度离心时,可形成不同于主DNA带的卫星带。卫星DNA的名称由此而来。
(2)卫星DNA的分类
– 卫星DNA(satellite DNA)
– 小卫星DNA(minisatellite DNA)– 微卫星DNA(microsatellite DNA)
• 大卫星DNA(macrosatellite DNA)又称为经典DNA。总长度100kb~几个Mb。根据浮力密度的不同分为Ⅰ、Ⅱ、Ⅲ、Ⅳ和α、β卫星DNA。各类型都由不同的重复顺序家族组成。
• 小卫星DNA(minisatellite DNA)由中等大小的串联重复序列构成,总长约0.1~20 kb,分布在所有染色体,往往近于端粒处。高度可变的卫星DNA、端粒DNA(串联的短片段重复序列(TTAGGGG)n)• 微卫星DNA(microsatellite DNA):重复单位为1~5 bp, 重复次数为10~60次,总长度小于150bp,常见以(AC)n和(TG)n二聚核苷酸为重复单位,由Miesfeld 1981年发现。
2.分散重复的DNA序列
• 在高度分散的重复DNA家族中含有少量转座元件,根据其大小不同,可分为 – 短散在核元件(short interspersed nuclear elements,SINEs), – 长散在核元件(long interspersed nuclear elements, LINEs)。
1)短散在核元件(short interspersed nuclear elements,SINEs), 主要是Alu 重复序列家族。序列中有限制酶Alu的酶切位点(AGCT)而得名。重复次数30~50万,散在分布于基因组中,与基因表达调控有关。
2)长散在核元件(long interspersed nuclear elements, LINEs): KpnⅠ重复顺序。第9节 人类基因组研究进展
一、人类基因组的基本特点
二、重复序列
三、人类基因组计划(HGP)
一、人类基因组的基本特点 • 断裂基因;
• 主要由大量的非编码序列和少量的编码序列构成; • 存在多基因家族;
• 含有多种类型的重复序列。人类基因组概况 基因组大小 2.91Gbp A+G含量 54% G+C含量 38% 重复序列(不含异染色质)35% 编码序列数目 26588 功能未知基因比例 42% 外显子最多的基因 Titin(234)SNP数量 300万个 SNP密度 1/1250bp 最长的染色体 2(240 Mbp)最短的染色体 Y(19Mbp)基因最多的染色体 1(2453)基因最少的染色体 Y(104)
基因密度最大的染色体 19(23/Mb)基因密度最小的染色体 13,Y(5/Mb)重复序列含量最高的染色体 19(57%)
重复序列含量最低的染色体 2,8,10,13,18(36%)
二、重复序列
• 基因组中有多个拷贝,但不编码蛋白质的序列,是人类基因中的主要成分; • 分为串联和散布重复序列
• 卫星DNA——高度重复的串联重复序列; • 重复序列是一种重要的分子标记。图人类基因组中的散布重复序列
• SINE:short interspersed nuclear elements.• Alu: 含AGCT.• MIR:mammalian-wide interspersed repeats.• LINE:long interspersed nuclear elements.• LTR:long terminal repeat.• HERV:human endogenous retroviruses.• RTLV:retrovirus-like elements.• MER:medium reiteration frequency sequence.• THE:transposable human element.三、人类基因组计划(HGP)
• 1986年Dulbecco提出、1990启动的人类基因组计划(Human Genome Project,HGP),被誉为生命科学的―登月‖计划。1990年10月美国政府决定出资30亿美元,用15年时间(1991—2005年)完成―人类基因组计划‖。―人类基因组计划‖是生物学有史以来最巨大和意义深远的一项科学工程。
• 2003年4月14日美国联邦国家人类基因组研究项目负责人弗朗西斯•柯林斯博士隆重宣布,美、英、日、法、德和中国科学家经过13年努力共同绘制完成了人类基因组序列图。• 由30亿个碱基对(3×109 bp)组成的人类基因组,蕴藏着生命的奥秘。科学家发现人类基因数目约为3.4万至3.5万个,仅比果蝇多2万个,远小于原先10万个基因的估计。HGP目标(1990-2003)内容 目标
(93-98)完成情况 98-2003 遗传图谱 2-5 cM 1cM 完成(1cM)
物理图谱 30,000STSs 52,000STSs 完成 序列图谱 80Mb 人:180,其它:111 完成 基因图谱 30,000ESTs 测序技术 大规模测序 YAC,全自动测序,基因组信息学 多态性 SNPs 模式生物 5种
• 人类基因组的研究带动了相关技术的突破和发展 – 完成数十种生物基因组全序列的测定 • 后基因组时代来临
本 章 小 结
1.断裂基因 构成 性质 2.重叠基因 种类 3.C值矛盾
4.原核生物与真核生物基因组的区别 5.真核生物染色体的结构
6.真核生物DNA序列的4种类型
7.基因家族、基因簇、卫星DNA、分散重复DNA 序列 8.人类基因组计划