福昕翻译

>

翻译学堂

>

完整人类染色体8的结构,功能和进化

完整人类染色体8的结构,功能和进化

生物学 染色体 英文PDF翻译
330
2021-04-27 19:25:43

  

格伦尼斯·洛格斯顿(Glennis A.Logsdon)米切尔·沃尔格(Mitchell R.Vollger)[…]埃文·埃希勒(Evan E. Eichler) 自然 ( 2021)


介绍

  每个人的染色体的完整的装配是理解人类生物学和进化至关重要的1,2。在这里,我们使用互补的长读测序技术来完成人类8号染色体的线性装配。我们的装配解决了五个以前长期存在的缺口的序列,包括一个2.08-Mb着丝粒α-卫星阵列,一个644-kb拷贝数多态性β-防御素基因簇中的这种蛋白质对疾病风险很重要,并且在8q21.2号染色体上有一个863-kb可变数目的串联重复序列,可以充当新着丝粒。我们显示着丝粒的α卫星阵列通常被甲基化,除了73 kb的低甲基化区域,其中富含CENP-A核小体的各种高阶α卫星与动粒的位置一致。此外,我们确认了二倍体人类基因组中着丝粒的整体组织和甲基化模式。使用双重长读测序方法,我们从黑猩猩,猩猩和猕猴的8号染色体完成了直系着丝粒的高质量草图装配,以重建其进化史。比较和系统发育分析表明,高阶α-卫星结构在层状对称的大先祖中演化,其中更古老的高阶重复序列位于单体α-卫星的外围。我们估计,与基因组的独特部分相比,着丝粒卫星DNA的突变率被加速了2.2倍以上,并且这种加速作用延伸到了侧翼序列中。比较和系统发育分析表明,高阶α-卫星结构在层状对称的大先祖中演化,其中更古老的高阶重复序列位于单体α-卫星的外围。我们估计,与基因组的独特部分相比,着丝粒卫星DNA的突变率被加速了2.2倍以上,并且这种加速作用延伸到了侧翼序列中。比较和系统发育分析表明,高阶α-卫星结构在层状对称的大先祖中演化,其中更古老的高阶重复序列位于单体α-卫星的外围。我们估计,与基因组的独特部分相比,着丝粒卫星DNA的突变率被加速了2.2倍以上,并且这种加速作用延伸到了侧翼序列中。

主要的

由于人类基因组测序的公告20年前1,2,人类染色体都因着丝粒内聚集的高度相同的重复,片段复制的区域,以及染色体的近端着丝粒短臂的大区域尚未完成。大片的本身是高度相同的重复的存在(超过100 KB)拷贝数多态意味着这种区域已经持续为空白,这限制了我们的人类遗传变异和进化的理解3,4。长期测序技术的出现以及从完整葡萄胎中提取DNA的使用,现在使得首次从天然DNA组装这些区域成为可能5,6,7。这里我们介绍第一,据我们所知,完整的线性汇编人类染色体8.我们选择组装8号染色体,因为它带有一个中等规模的着丝粒(约1.5-2.2 MB)8,9,AT丰富,171-其中碱基对(bp)α-卫星重复序列被组织成一个定义明确的高阶重复序列(HOR)阵列。染色体,但是,也包含在8p23.1人类基因组的β防御素基因簇中结构最有活力的区域中的一个(参考文献10,11,12) -以及在8q21.2复发性多态neocentromere ,在过去的20年中一直未解决。

染色体8的端粒到端粒装配

与人类X染色体13的装配不同,我们利用超长牛津纳米孔技术(ONT)和太平洋生物科学(PacBio)高保真(HiFi)数据来解决人类8号染色体的缺口(图1a, b,方法)。我们首先从完整的葡萄胎(CHM13hTERT,以下称为CHM13)中生成了20倍的超长ONT数据序列覆盖率和32.4倍的PacBio HiFi数据覆盖率(补充图1)。然后,我们通过创建单独使用独特核苷酸的文库组装在8号染色体复杂区域ķ聚体(SUNKs)14,或长度的序列ķ每单倍体基因组(在此,发生大约一次ķ = 20),来自CHM13 PacBio HiFi数据。我们使用来自同一基因组的Illumina数据验证了SUNK,并将其用于条形码超长ONT读数(图1b)。共享高度相似条形码的超长ONT读段被组装成一个初始序列支架,该支架遍历每个8号染色体的缺口(图1b)。我们通过用一致的PacBio高保真重叠群替换原始ONT序列并将它们集成到一个先前产生的提高了序列支架的碱基对精度5线性装配人染色体8(图中1B,方法)。

1:人类第8号染色体的端粒到端粒装配。

  

人类第8号染色体的端粒到端粒装配.jpg

 


a,GRCh38染色体8参考序列中的缺口。b,靶向组装方法,用于解析人类基因组中的复杂重复区域。超长的ONT读码(灰色)用SUNK(彩色条)进行条形码打码,并组装成序列支架。与PacBio HiFi重叠群(深灰色)共享高度序列同一性的支架内区域被替换,从而将碱基准确性提高到99.99%以上。将PacBio HiFi组件整合到CHM13染色体8(参考5)的组件中并进行验证。C,CHM13β-防御素基因座的序列,结构,甲基化状态和遗传组成。该基因座在chr8:7098892–7643091,chr8:11528114–12220905和chr8:12233870–12878079处包含三个片段重复(dup)。一个4,110,038 bp的倒置(chr8:7500325–11610363)分隔了第一个和第二个重复。Iso-Seq数据显示,第三次重复(浅蓝色)包含12个新的蛋白质编码基因,其中五个是DEFB基因(Extended Data图3g)。d,从一组1,105个高覆盖率基因组的集合中确定的DEFB基因(在GRCh38中的chr8:7783837−7929198)的拷贝数(方法)。数据为中值±sd

全尺寸图片人类第8号染色体的完整端粒至端粒序列长度为146,259,671个碱基,并且包含当前参考基因组(GRCh38)中缺少的3,334,256个碱基。大多数添加物都位于不同的染色体区域内:一个644-kb拷贝数的多态性β-防御素基因簇,它映射到8p23.1染色体(图1c,d)。完全着丝粒对应于2.08 Mb的α卫星HORs(图2);863kb的8q21.2可变数目串联重复序列(VNTR)(扩展数据图1);以及以规范的TTAGGG重复序列结尾的两个端粒区域(图2的扩展数据)。我们通过光学图谱(Bionano Genomics),单细胞DNA模板链测序(Strand-seq)15验证了组装,16和与完成的细菌人工染色体(BAC)序列以及从同一来源基因组获得的Illumina全基因组测序数据的比较(补充图2,方法)。我们估计染色体8装配体的总体基本准确度在99.9915%和99.9999%之间(质量值得分分别在40.70和63.19之间,分别由测序的BAC和映射的k- mers 17确定)。对通过亚型测序(Iso-Seq)数据生成的2,400万个人全长转录本的分析,确定了61个蛋白质编码和33个非编码基因座,它们映射到比8ChCh38更好地映射到该完成的8号染色体上(扩展数据图3a–f,补充表1),包括发现映射到拷贝数多态性区域的新基因(图1c,d,图3g的扩展数据)。

2:8号染色体着丝粒区域的序列,结构和表观遗传图。

  

8号染色体着丝粒区域的序列,结构和表观遗传图.jpg


a,示意图显示了CHM13 8号染色体着丝粒的组成。着丝粒区域由一个2.08-Mb D8Z2α-卫星HOR阵列组成,两侧是单体和/或发散的α-卫星区域,其间散布着反转录转座子,β-卫星和γ-卫星。显示了预测的限制性消化模式。D73Z2α-卫星HOR阵列被高度甲基化,除了一个73 kb的次甲基化区域,该区域包含在一个632 kb的CENP-A染色质域内(扩展数据图9,补充图8)。成对的序列同一性热图表明着丝粒由五个不同的进化层组成(虚线箭头)。b,脉冲场凝胶CHM13 DNA的Southern印迹证实了8号染色体着丝粒HOR阵列的结构和组织。左图,溴化乙锭(EtBr)染色;正确的是,32 P标记的8号染色体α卫星特异性探针。n =2。有关凝胶源数据,请参见补充图9a,b。c,CHM13染色质纤维的代表性图像显示CENP-A在未甲基化区域富集。n =3。比例尺,1μm。

全尺寸图片我们的靶向组装方法成功地将β-防御素基因簇10解析为一个7.06-Mb的基因座,从而消除了GRCh38中的两个50 kb的缺口(图1c,扩展数据图4)。我们估计该基因座的基本准确性为99.9911%(质量值得分40.48;基于映射的BAC)(扩展数据图5a)。我们的分析表明CHM13具有更复杂的结构比单倍型GRCh38(图1D,扩展数据图4),与先前公布的报告一致10,12。我们解析了人类基因组中最大的常见倒位多态性之一的断点(4.11 Mb),并显示了这些断点映射在拷贝数多态的大型,高度相同的重复中(图1c,d,扩展数据图5b)。 。与带有两个这样的片段重复的人类参考相比,CHM13中存在三个片段重复:在远端的544-kb片段重复和在近端的两个693-和644-kb片段重复(图1c))。每个分段复制盒至少携带5个β-防御素基因,因此,我们鉴定了5个额外的β-防御素基因,它们在氨基酸水平上与参考氨基酸几乎相同(图1c)。,补充表2)。因为ONT数据允许评估甲基化信号18,所以我们确定了整个β-防御素基因座中胞嘧啶残基的甲基化状态。所有这三个分段重复都包含一个151-163-kb的甲基化区域,该区域位于该重复的富长末端重复(LTR)区域,而其余重复,包括β-防御素基因簇,大部分未甲基化(图1c)。这种替代单倍型的完整序列的分辨率是重要的,因为倒单倍型优先易患发育迟缓有关,小头畸形复发微缺失和先天性心脏缺陷19,20。五β防御素基因的拷贝数多态性已经与免疫相关的表型,如银屑病和克罗恩病相关的11,21。

8号染色体着丝粒的序列解析

以前的研究估计染色体8着丝的长度为1.5和MB之间2.2的HORα-卫星阵列的分析的基础上,8,9。尽管不同长度的α卫星代表院被认为包括着丝粒,主要的种类有11个单体(1881 bp)的单位长度8,9。在组装过程中,我们用11个超长ONT读段(平均长度389.4 kb)跨越了8号染色体着丝粒,将其替换为基于SUNK条形码的PacBio HiFi重叠群。我们的8号染色体着丝粒装配体由一个2.08 Mb D8Z2α卫星HOR阵列组成,两侧是p臂(392 kb)和q臂(588 kb)上的单体α卫星块(图2a)。)。两个单体α卫星块都散布着长和短的散布的核元素(分别为LINE和SINE),LTR和β卫星,且q臂特有γ卫星。使用了几种方法来验证其组织。首先,从两个正交的天然DNA测序平台进行的长序列读取深度分析显示出均一的覆盖范围,这表明该装配没有较大的结构错误(Extended Data图6a)。中期染色体上的荧光原位杂交(FISH)证实了着丝粒的长距离组织(扩展数据图6a–c)。液滴数字PCR显示,α卫星阵列中有1,344±142(平均±sd)个D8Z2 HOR,与我们的估计一致(扩展数据图。6d,方法)。用两种不同的限制性内切酶消化的CHM13 DNA的脉冲场凝胶电泳Southern印迹支持从装配体中预测的条带模式(图2a,b)。最后,将我们的组装方法应用于可用于二倍体人类基因组(HG00733)的ONT和HiFi数据(补充表3,方法)生成两个附加的8号染色体着丝粒单倍型,从而复制了整个组织,而HOR阵列的总长度仅有微小的差异(扩展数据图7,补充表4)。

我们发现,染色体8着丝粒HOR阵列主要由4、7、8或11个α-卫星单体盒代表的四种不同的HOR类型组成(图2a,扩展数据,图8)。尽管11单体HOR占主导地位(36%),但其他HOR也很丰富(19-23%),都是11单体HOR的衍生物(扩展数据图8b,c)。值得注意的是,我们发现HORs在着丝粒的区域差异性分布。尽管大多数区域显示出不同类型HOR的混合,但我们还确定了同质性区域,例如映射到HOR阵列外围(长度为92和158 kb)的11个单体HORs簇,以及HOR簇中的177 kb区域。中心仅由7个单体HOR组成。为了研究表观遗传组织,我们推论着着丝粒区域的甲基化胞嘧啶残基,发现除很小的73 kb的次甲基化区域外,大多数α卫星HOR阵列都是甲基化的(图2a)。)。为了确定该低甲基化区域是否是表观遗传着丝粒的位点(以含有组蛋白H3变体CENP-A的核小体的存在为标志),我们对CHM13进行了CENP-A染色质免疫沉淀和高通量测序并且发现CENP-A主要位于一个632-kb的延伸片段中,该片段涵盖了低甲基化区域(图2a,扩展数据,图9)。随后的染色质纤维FISH显示CENP-A映射到α卫星HOR阵列内的次甲基化区域(图2c)。)。值得注意的是,低甲基化区域显示出一些最大的HOR混合物,这表明与活性动线粒相关的HOR亚型可能得到优化(73 kb区域的平均熵= 1.91)(扩展数据图8a,方法)。

为了了解着丝粒的长距离组织和进化,我们生成了成对的序列同一性热图,该图比较了着丝粒长度上5kb片段的序列同一性(图2a,补充图3)。我们发现着丝粒由显示镜像对称性的五个主要进化层组成。最外层位于单体α卫星中,该序列与着丝粒的其余部分高度不同,但彼此更相似(图2a,箭头1)。第二层定义了单体到HOR的过渡,是一个短(57-60 kb)的区域。p和q区域彼此相同,为87-92%,而其他着丝粒卫星只有78%或更少(图2a),箭头2)。第三层完全由HOR组成。p和q区域的长度分别为92和149 kb,并且彼此之间共享超过96%的序列同一性(图2a,箭头3),但与其余着丝粒的序列相同。该层主要由同质的11个单体HOR组成,并定义了从未甲基化到甲基化DNA的过渡。第四层是最大的,定义了大部分α卫星HOR(总共1.42 Mb)。它显示了最大的HOR亚型,并且再次,p和q块彼此共享同一性,但与其余层的分歧更大(图2a)。,箭头4)。最后,第五层包含HOR阵列的最中心416 kb,这是一个具有近乎完美序列同一性的区域,该区域与着丝粒的其余部分不同(图2a,箭头5)。

8q21.2 VNTR染色体的序列解析

8号染色体着丝粒的分层和镜像性质使人联想到位于8q21.2号染色体上的另一个GRCh38缺口区域(扩展数据,图1)。该区域是细胞遗传学上可识别的常染色体变异体22,其包含人类基因组22中最大的VNTR之一。所述12.192-kb的重复单元中携带REXO1L1(也称为GOR)假基因并且是高度复制人类中的多态性22,23。这是VNTR生物的兴趣,因为它是在几个不相关的人已经观察到复发neocentromere,其中功能着丝粒缺乏α-卫星的网站24,25。使用我们的方法,我们成功地将VNTR组装成一个863.5kb的序列,该序列由大约71个重复单元(67个完整单元和7个部分单元)组成(扩展数据,图1a)。脉冲场凝胶Southern印迹证实了VNTR的长度和结构(扩展数据图1a,b),染色质纤维FISH估计重复单元为67±5.2(均值±sd),与组装一致(扩展数据图10,方法)。在人类中,重复单元从53到326个副本不等,创建了从652 kb到3.97 Mb的串联重复阵列(扩展数据,图1c)。VNTR的高阶结构由五个不同的域组成,这些域的方向交替(扩展数据,图1a)),其中每个域包含5到23个完全重复的单元,它们彼此的同一性超过98.5%(扩展数据,图1a)。甲基化胞嘧啶残基18的检测表明,每个12.192-kb重复序列在对应于REXO1L1(也称为GOR1)的3-kb区域中主要被甲基化,而其余的重复单元被低甲基化(扩展数据图1a)。来自包含8q21.2新着丝粒25的细胞系着丝粒染色质的图谱显示,大约98%的CENP-A核小体映射到CHM13装配体中重复单元的低甲基化区域(扩展数据图1a))。尽管这与VNTR是新着丝粒功能性动粒体的潜在位点相一致,但这种和其他含有新着丝粒的细胞系的序列和组装至关重要。

着丝粒进化重建

为了全面重建过去2500万年中8号染色体着丝粒的进化史,我们采用了相同的方法来重建黑猩猩,猩猩和猕猴的直系同源着丝粒。我们首先生成了每个非人类灵长类动物(NHP)基因组的40到56倍的ONT数据和25到40倍的PacBio HiFi数据(补充表5)。利用这些数据,我们从猩猩和猕猴8号染色体着丝粒中生成了两个黑猩猩8号染色体着丝粒的连续草图组件(每个单倍型一个)和一个单倍体组件(图3)。长读取数据到每个组件示出均匀的覆盖的映射,指示缺乏大的结构误差的(补充图4,5)。对基本精度的评估表明,组件的精度为99.9988–100%(质量值得分> 49.3)(方法)。每个NHP染色体8着丝的分析揭示了不同HOR阵列尺寸范围从1.69 MB在黑猩猩到10.92 MB的猕猴,以从短读序列数据和细胞遗传学分析估计数相一致26,27(图3)。我们的数据,再次显示镜像和分层组织,与黑猩猩的组织是最类似于人类(图2一,3)。每个NHP 8号染色体着丝粒均由四个或五个不同的层组成,最外层显示出最低的序列同一性程度(黑猩猩和猩猩中73-78%;猕猴为90-92%),最内层显示最高序列身份(黑猩猩和猩猩中90–100%;猕猴中94–100%)。猩猩结构的显着之处在于,与其他猿猴相比,猩猩的各层之间几乎没有HOR单元的混合,在猿猴中,不同的HOR盒源于主要的HOR结构。猩猩HORs块(第3层除外)显示出降低的序列同一性。这表明猩猩着丝粒进化为独立的HOR单元的镶嵌体。与所有猿类相比,猕猴缺少HOR,而是包含基本的二聚体重复结构26,在组装的着丝粒阵列的将近11 Mb处具有更高的同质性和高度相同性(> 90%)。


3:黑猩猩,猩猩和猕猴8号染色体着丝粒的序列和结构。

  

黑猩猩,猩猩和猕猴8号染色体着丝粒的序列和结构.jpg


a – d,黑猩猩(H1)(a),黑猩猩(H2)(b),猩猩(c)和猕猴(d)8号染色体着丝粒的结构和序列同一性。每个着丝粒都有一个由四个或五个不同的进化层组成的镜像组织。每个着丝粒区域的大小与显微分析一致,随着着丝粒大小的增加,DAPI染色也越来越亮。见补充图。图10和11是在相同色标上绘制的序列同一性热图的图。H1,单倍型1;H2,单倍型2。比例尺,1μm。

全尺寸图片Phylogenetically, we find that all great ape higher-order α-satellite sequences (corresponding to layers 2–5) cluster into a single clade, and the monomeric α-satellite (layer 1) split into two clades separated by tens of millions of years (Fig. 4a). The proximal clade contains monomeric α-satellite from both the p- and q-arms, whereas the more divergent clade shares monomeric α-satellite solely from the q-arm, and specifically, the α-satellite nestled between clusters of γ-satellite (Supplementary Fig. 6a, b)。与大猿不同,猕猴群的单体和二聚体结构重复在一起,并且是单体猿进化枝的姊妹进化枝,这表明常见的古老起源仅限于这些侧翼着丝粒区域。我们使用侧翼灵长类动物序列的拼写法来了解序列在进化过程中衰减的速度。我们基于α-卫星HOR阵列两侧大约2 MB的成对比对的10 KB窗口评估了差异(图4b)。我们发现,平均等位基因发散度增加了三倍以上,因为序列从独特的α-卫星过渡到单体α-卫星。这种增加在人类基因组中是罕见的,在近20,000个随机基因座中,只有1.27–1.99%的人显示出可比较的差异水平(补充图6c)。)。使用进化模型(方法),我们估计第8号染色体着丝粒区域的最小突变率分别约为p臂和q臂每代每对碱基对的4.8×10 -8和8.4×10 -8突变,其比基础平均突变率(约2.2×10 -8)高2.2至3.8倍(补充表6)。这些分析为直系同源染色体的灵长类着丝粒提供了完整的比较序列分析,并为将来研究整个基因组中这些区域的遗传变异和进化提供了框架。


4:8号染色体着丝粒的进化。

  

8号染色体着丝粒的进化.jpg


a,来自8号染色体着丝粒区域的人类,黑猩猩,猩猩和猕猴α卫星的系统发生树(补充图6a,b)。b,该图显示了CHM13与非人类灵长类动物在染色体8α-卫星HOR阵列两侧的区域中的序列差异。着丝粒进化的模型参见补充图6d。

  

讨论  

8号染色体是人类第一次常染色体进行测序和组装端粒端粒,仅包含第三人完成的着丝粒13,28,据我们所知。染色体8和X着丝粒(补充图7)都包含一个低甲基化口袋(长度约为61-73 kb),并且我们显示该区域富含着丝粒组蛋白CENP-A,与功能性线粒体结合一致网站29,30。值得注意的是,CENP-A的富集延伸到更宽的序列范围(632 kb),其峰中心位于由不同的HORs组成的次甲基化区域。染色体8着丝粒的分层和镜像组织支持进化模型31,32,33,其中高度相同的重复扩大,推老,更发散重复到边缘在组装线方式(补充图6D)。8号染色体着丝粒揭示了五个这样的层,通常在其他NHP着丝粒中也可以识别这种组织。我们确认后演变从猿旧世界猴(低于2500万年前)该分歧HOR结构26,34,35也区分不同类别共享一个古老的起源与旧世界猴单体重复。一个猿类单体进化枝(仅存在于q臂中)与猕猴的进化枝(补充图6a,b))。我们假设黑猩猩和人类中存在的这个大约70 kb的片段,但在猩猩中却不存在,代表了祖先着丝粒的残留。序列比较表明,突变率通过至少两个邻近所述HOR阵列四倍增加,这可能是由于同进化,不等交换过度,和跳跃式扩增的作用33,36,37。在三种人类着丝粒8个单倍型中,我们确定了过量等位基因变异和结构差异的区域(扩展数据图7)。),并且这些位置在单体型之间也有所不同。尽管如此,完整的人类基因组的第一序列是迫在眉睫,和下一个挑战将被施加的方法来充分相和组装二倍体基因组38,39,40。

 

  点击查看:更多有生物学文章

  更多医学分类文章

  使用文档翻译功能

  免责声明:福昕翻译只充当翻译功能,此文内容及相关信息仅为传递更多信息之目的,仅代表作者个人观点,与本网站无关,版权归原始网站所有。仅供读者参考,并请自行核实相关内容。若需要浏览原文、下载参考文献等,请自行搜索文中提到的原文网站进行阅读。

  来源于:nature


福昕翻译转换文章内容来源:https://fanyi.pdf365.cn/help/261
上一篇: 物理学家从铅的测量中获得中子星金
下一篇: 论文难?免费论文翻译、论文查重教程