【KIBD-194】EMIRIスペシャル8時間-高画質-特別編 Nat Genet:阿尔茨海默症和帕金森病的单核苷酸多态性盘问, 揭示两种疾病的遗传风险位点的变异
AV小次郎
撰文
︱王念念珍
开端︱逻辑神经
阿尔茨海默症
(AD)和帕金森病(PD)是两种最常见的神经退行性疾病。尽管全基因组关联盘问(GWAS)已笃定了多个潜在的基因风险位点
【1-2】
。
但是大大都风险位点都位于非编码区,因此尚不明晰这些基因是否与疾病功能关系,亦或者是与其他基因关联联。 单核苷酸多态性
(简称SNPs)主如果指在基因组水平上由单个核苷酸的变异(碱基的迂曲或颠换、插入或缺失)所引起的DNA序列多态性。它是东谈主类可遗传的变异中最常见的一种。大大都的功能性非编码SNPs不错通过插手转录因子的结合和调控元件的功能来改换基因的抒发,从而来施展其作用
【3-4】
。
值得顾惜的是,这些调控元件具有高度的细胞类型特异性,这领导SNPs也有细胞类型特异性
。因此需要在正确的组织和区域布景下对每一种脑细胞类型中活跃的调度元件进行分类和功能揭示,进而匡助清楚常见神经退行性疾病分子发病机制中的基因风险位点功能的挫折性。 在于2020年10月26日以:Single-cell epigenomic analyses implicate candidate causal variants at inherited risk loci for Alzheimer’s and Parkinson’s diseases 为题发表于 Nature Genetics 杂志,好意思国斯坦福大学医学院的Thomas J. Montine 熟谙和Howard Y. Chang熟谙调和团队旨在通过单细胞染色质图谱来执意细胞类型特异性调控元件,并利用机械学习来匡助展望AD和PD的功能性SNPs。盘问者笃定了AD和PD中几个非编码GWAS位点的靶基因和细胞类型;这些数据和时间也为其他神经系统疾病中的利用提供了引诱,使咱们大约更全面地了解遗传性非编码变异在疾病中的作用。
染色质的可及性
(chromatin accessibility)往往交融为
绽放染色质
(open chromatin),
指精细的核小体结构被羁系后,开动子、增强子、绝缘子、千里默子等顺式调控元件和反式作用因子不错接近的区域,与真核生物的转录调控密切关系。
早在2013年,斯坦福大学医学院的的William J. Greenleaf熟谙和Howard Y. Chang熟谙践诺室调和拓荒了一种不错用于盘问染色质可及性的措施,称为
Assay for Transposase-Accessible Chromatin with high throughput sequencing
,即
转座酶可接近性染色质测序时间,或转座酶可及性染色质测序时间,亦或染色质绽放性测序时间,
简称ATAC-seq。
其旨趣是通过转座酶Tn5容易结合在绽放染色质的特质,然后对Tn5酶拿获到的DNA序列进行测序
【
5-7
】
。
与其他时间(举例盘问不异染色质特征的FAIRE-Seq或DNase-Seq)比拟,ATAC-Seq的主要上风在于该测定所需的细胞数目更少,况且其两步法操作相对节略
。 那么,鉴于ATAC-Seq的远大上风,本文中,
最初,作家利用ATAC-Seq绘图了39名贯通平淡个体的新皮层、海马体、黑质、纹状体等脑剖解区样本的大染色质图谱,进而来盘问非编码基因组在神经退行性疾病中的作用
(图1)
。这些大ATAC-seq数据
,即峰值
(peaks)
标明了染色质可及性的区域各异。
图1 本
文所盘问的大脑区域(左)和脑区样本的
ATAC-Seq峰值(右)
(图片引自:Corces, M.R., et al.. Nat Genet 2020; 52: 1158–1168)
图2 样 本的 scATAC–seq 数据(图片引自:Corces, M.R., et al.. Nat Genet 2020; 52: 1158–1168)不同脑区的不同细胞的染色质可及性怎样呢?
于是作家对样本的7万多个单细胞进行了染色质可及性分析,即单细胞ATAC-Seq(简称scATAC-Seq),并锁定了24个细胞类群(cluster),主要包括振作性神经元、遏制性神经元、小胶质细胞、少突胶质细胞、星形胶质细胞和少突细胞祖细胞(OPCs)
(图2-3)
。
挫折的是,scATAC-Seq分析标明了特异性的远端/内含子峰的富集,开动子峰的缺失,这与远端调控元件在细胞类型特异性基因调控中的作用是一致的
(图3)。另外,效力也领导了
scATAC-Seq
的实用性,独特是探究到,当从含有多种不同细胞类型的大块组织中执意出特定细胞类型的峰值时,
scATAC-Seq
具有显然的优胜性。图3 染色质可及性热图(左)和调度元件基序分析(右)
(图片引自:Corces, M.R., et al.. Nat Genet 2020; 52: 1158–1168)
为了进一步盘问是哪些转录因子可能着重缔造和守护这些细胞类型特异性的调控关节。作家则对每种细胞类型的峰值进行了基序富集分析,即结构域分析。效力涌现了多个已知的细胞类型识别驱登程分,如少突细胞中SOX9和SOX10的基序,OPCs中的ASCL1的基序;以及转录因子SPI1和JUN/FOS分离在小胶质细胞和神经元中的富集(图3)。这些数据进一步标明了ATAC-seq细胞类型特异性,独特是执意了胶质细胞(如星形胶质细胞和OPCs)的脑区域的异质性。
图4 30个“神经元类群”
(图片引自:Corces, M.R., et al.. Nat Genet 2020; 52: 1158–1168)
探究到神经元类型和功能的各种性,盘问者想进一步细化了scATAC-seq数据。
批次改良分析
涌现了30个“神经元类群”,每个类群则默示了一种私有的神经元细胞类型或细胞气象,并笃定了神经元细胞类特异性的峰值、基因、以及转录因子活性(图5)。
有
趣的是,数据分析笃定了在一种PD中丢失的要害细胞类型,即黑质多巴胺能神经元类群,真确来讲是酪氨酸羟化酶阳性多巴胺能神经元群
(图5
)
。
图5 神经元特异性GWAS SNPs的连锁不服衡分析
(图片引自:Corces, M.R., et al.. Nat Genet 2020; 52: 1158–1168)
以上数据充分标明了scATAC-seq数据的细胞类型特异性,那么接下来,在染色质可及性的特定细胞类型区域是否富集了与神经退行性疾病关系的SNPs?
细胞特异性连锁不服衡分析涌现,AD的小胶质细胞峰值勾通,每个SNP的遗传概率都有显耀的增多,而PD的任何细胞类型中,无SNP遗传概率的显耀富集,这可能是因为PD的细胞比AD愈加复杂(图5)。
换句话说,在职何的AD或PD神经元类群的峰值区域中均未发现SNPs的显耀富集。
【补充:
连锁不服衡
(linkage disequilibrium,简称LD)是指分属两个或两个以上基因座位的等位基因同期出现时一条染色体上的几率,高于只怕出现的频率。HLA不同基因座位的各等位基因在东谈主群中以一定的频率出现。节略地说,唯一两个基因不是王人备孤苦时遗传,就会清楚出某种进度的连锁。这种情况就叫连锁不服衡。连锁不服衡不错是合并条染色体上的不同区域,也不错是不同染色体上的。】因此,
鉴于上述效力,作家想进一步盘问每个GWAS位点的靶基因。
为此,作家使用HiChIP记号乙酰化组卵白H3赖氨酸27(即H3K27ac),来记号活性的增强子和开动子,从而来绘图以增强子为中心的染色质三维构象。数据分析笃定了各脑区的共833975个染色质三维交互;67.4%的交互有ATAC-seq峰值出现时两个信号锚定序列,29.2%有ATAC-seq峰值出现时一个信号锚定序列,剩余的3.4%则无ATAC-seq峰值的叠加。
这些数据标明:scATAC-seq不错精确定位GWAS多态性的细胞靶点,从而让GWAS SNPs与下流靶基因关系联起来。
【补充:信号锚定序列指穿膜卵白中的一种私有的信号序列,其作用是将这些卵白质锚定在脂双层膜上。连锁不服衡是指分属两个或两个以上基因座位的等位基因同期出现时一条染色体上的几率,高于只怕出现的频率】
图6 利用多档次的多组措施(左)和机械学习(右)来盘问功能性的非编码GWAS多态性(图片引自:Corces, M.R., et al.. Nat Genet 2020; 52: 1158–1168)
图7 利用多档次的多组措施和机械学习来盘问AD和PD中的功能性非编码GWAS多态性
(图片引自:Corces, M.R., et al.. Nat Genet 2020; 52: 1158–1168)
为了进一步阐发GWAS多态性的功能效应,
最初作家构建了一个AD和PD疾病关系的SNPs库,共9707个SNPs,其中3245个SNPs分散在与AD关系的44个基因座上,6496个则分散在与PD关系的86个基因座上,其中34个SNPs出现时两种疾病的合并个基因座上。然后作家拓荒了一种多档次的多组措施来展望功能性的非编码GWAS多态性:
先将这些SNPs与ATAC-Seq的染色质可及性峰值进行叠加分析(Tier3),再执意出可能影响调控相互作用的SNPs(Tier2),临了执意出可能径直影响转录因子结合的SNPs(Tier1)
(图6-7)
;并利用了补助向量机和等位基因不服衡分析,最终笃定了可能参与AD和PD的基因和分子历程,以及那些参与非编码调控的GWAS位点。
这些也阐发多档次的多组措施大约展望功能性的非编码SNPs。
【补充:补助向量机(Support Vector Machine,SVM)是一类按监督学习(supervised learning)神志对数据进行二元分类的广义线性分类器(generalized linear classifier),其决议范围是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。SVM使用搭钮亏本函数(hinge loss)计较训戒风险并在求解系统中加入了正则化项以优化结构风险,是一个具有疏淡性和隆重性的分类器。SVM不错通过核措施(kernel method)进行非线性分类,是常见的核学习措施之一 。】
图8 AD和PD中PICALM(左)、SLC24A(右)的功能性非编码SNPs分析(图片引自:Corces, M.R., et al.. Nat Genet 2020; 52: 1158–1168)紧接着,作家重心温雅了SNPs仍然未知的疾病关系基因、以及夙昔盘问中的与疾病病原学无关的基因。尽管GWAS标明PICALM、SLC24A、BIN1、KCNIP3等基因与AD关联,然尚不明晰是哪些多态性驱导致了这种关系。最初以PICALM为例,作家发现,存在一种潜在的功能性变异,该变异滋扰了FOS/AP1因子结合位点,且这个位点位于PICALM上游的一段突胶质细胞特异性的调控元件序列;且该突变有显然的等位基因不服衡,即连锁不服衡,与PICALM和EED均涌现三维交互(EED属于参与守护遏制转录气象的多梳族家眷成员之一)(图8)。这一效力则标明了PICALM基因的新功能、过火在少突胶质细胞中的特殊作用。雷同的,作家发现,SLC24A4基因座也有一个小的连锁不服衡区域,包含46个SNPs,且SNPs都位于SLC24A4的内含子内。其中有一个SNPs比较特殊,具有小胶质细胞特异性,它会插手SPI1基序,并与RIN3基因的开动子进行“信息交流”;这与RIN3在胞吞通路中的作用是一致的,而胞吞通路对AD中小胶质细胞的平淡功能至关挫折(图8)。此外,作家也发现,KCNIP3中有94个SNPs。其中一个变异不错羁系少突细胞特异性SOX6的基序,该基序参与髓鞘的发生和功能;另外有一个变异位于KCNIP3内含子中,有神经元特异性,并与该基因的开动子有显然的相互作用。总之,这些数据领导了SNPs具有AD中少突胶质细胞和神经元的特异性功能,以及功能性非编码SNPs的复杂性(图9)。
图9 AD和PD中ITIH1(左)、
KCNIP3
(右)的功能性非编码SNPs分析(图片引自:Corces, M.R., et al.. Nat Genet 2020; 52: 1158–1168 MAPT
基因编码tau卵白,在AD中,tau的荒谬磷酸化会变成神经原纤维缠结。尽管
MAPT
与PD风险有很强的关系性,但是基因位点如安在PD中发
挥作用仍不明晰。作家发现,MAPT有一段很大的连锁不服衡区域,且其有两个不同的单倍型,即H1和H2,二者都有卓越2000个的SNPs,且在MAPT中的有近1800000个核苷酸的颠倒
(图10)
。【单倍型,又称单倍体型或单位型,指个体组织中,王人备遗传自父母两边中一个亲本的一组等位基因,即位于染色体上某一区域的一组关系联的SNP等位位点。】
图10 MAPT基因座、核苷酸颠倒、H1和H2单倍体(图片引自:Corces, M.R., et al.. Nat Genet 2020; 52: 1158–1168)
同期,作家绘图了MAPT位点的染色质可及性单倍体特异性图谱和三维染色质交互图谱,并从杂合子的H1/H2中剥离出纯合子的H1/H1和H2/H2,从而来探究两个单倍体的功能异同。作家发现,
MAPT开动子的上游有一段H1特异性的调控元件序列,以及MAPT的下流包含KANSL1基因的开动子序列;MAPT上游的H1特异性调控元件与MAPT内含子的第二个调控元件以及与MAPT开动子的相互作用增强
(
图10-11)
。
此外,作家也发现,
MAPT上游的区域范围与KANSL1开动子周围区域之间的H2特异性三维相互作用
(图
10-11)
。图11 MAPT基因座的HiChIP(上)、大ATAC-Seq(中),以及 MAPT的皮层基因抒发分析
(图片引自:Corces, M.R., et al.. Nat Genet 2020; 52: 1158–1168)
临了,作家探究了这些表不雅遗传变化怎样影响单倍型特异性的基因抒发。
发现,在
MAPT
基因抒发方面,两个单倍体有显然的各异,这种基因各异可能领导了
MAPT
单倍型所介导的病感性作用。
这些数据分析清楚了H1和H2单倍型之间的MAPT碱基颠倒区域的基因组序列是怎样不同的;或换言之,通过改换MAPT基因序列的主张,这种碱基颠倒可能会改换基因的抒发
(图
10-11)
。
作家果然也发现,
在位于MAPT上游有一段神经元特异性的调控元件基序,且在单倍体H1中,该元件基序会增强与MAPT开动子的相互作用。
图12 对MAPT基因座的HiChIP(上)、scATAC-Seq(中)、核苷酸颠倒(下)的数据分析
(图片引自:Corces, M.R., et al.. Nat Genet 2020; 52: 1158–1168) 著述论断
盘问标明了AD和PD中遗传性非编码变异(即SNPs)作用的高分辨率表不雅遗传学表征,拓展了咱们对AD和PD遗传变异的交融,并为神经退行性疾病和其他复杂遗传疾病的非编码变异的表不雅基因组盘问提供了参考。
多档次多组学拿获时间不错匡助咱们通过染色质可及性峰值叠加来探究来影响基因抒发的多态性,并不错通过三维染色质相互作用来响应基因靶标的多态性,从而来盘问这些变异的功能,而且选拔机器学习的措施不错匡助展望或交融多态性怎样滋扰转录因子结合。
鉴于上述措施的上风,比拟较以往的盘问,本文中,作家探究了AD和PD中更多的基因表型、以及非编码变异的功能。概括分析也标明MAPT基因位点在AD和PD中的表不雅遗传学特质,从而加深看咱们对AD和PD的非编码变异的交融。
更平庸地说,这项使命提供了一种系统的措施来交融疾病中的遗传变异,也为新调治靶点提供了盘问念念路和时间。
论文相连:
https://doi.org/10.1038/s41588-020-00721-x
参考文件:
1、Kunkle, B. W. et al. Genetic meta-analysis of diagnosed Alzheimer’s disease identifies new risk loci and implicates Aβ, tau, immunity and lipid processing. Nat. Genet. 51, 414–430 (2019).
2、Nalls, M. A. et al. Identification of novel risk loci, causal insights, and heritable risk for Parkinson’s disease: a meta-analysis of genome-wide association studies. Lancet Neurol. 18, 1091–1102 (2019).
3、Gallagher, M. D. & Chen-Plotkin, A. S. The post-GWAS era: from association to function. Am. J. Hum. Genet. 102, 717–730 (2018).
4、Nott, A. et al. Brain cell type-specific enhancer–promoter interactome maps and disease-risk association. Science 366, 1134–1139 (2019).
5、Jason D Buenrostro, et al., Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA. Nat Methods. 10 1213–1218 (2013).
6、Trevino, A. E. et al. Chromatin accessibility dynamics in a model of human forebrain development. Science 367, eaay1645 (2020).
7、Corces, M. R. et al. An improved ATAC-seq protocol reduces background and enables interrogation of frozen tissues. Nat. Methods 14, 959–962 (2017).
热点资讯