第三节 NGS测序在临床和科研中的应用

NGS广泛应用于基因表达和调控研究。像蛋白-DNA相互作用就可以通过染色质免疫共沉淀结合NGS测序来进行鉴定[28]。NGS还可用于修饰碱基的研究。例如,最初的甲基化测序虽然可以实现甲基化DNA的捕获与富集[29],以及可以在酶作用下选择性区分甲基化与非甲基化区段[30][31][32],但其修饰与捕获的过程不够理想。针对这个问题,Flusberg等在2010年发表了一个概念性的研究方法,使用PacBio来区分甲基化与非甲基化的碱基[33]。由于聚合酶在甲基化位点上会停留更多的时间,因此可以通过碱基上的信号改变来分辨是否存在甲基化修饰。同样,Nanopore平台也能够监测到修饰的碱基,因为甲基化同样会引起纳米孔电压的变化。由此甲基化测序可以在不需要化学操作的条件下进行[34]

接下来主要介绍NGS在临床和科研中的应用。

1.全基因组重测序

全基因组重测序(whole-genome resequencing, WGR)是对已知基因组序列的物种进行个体化的基因组测序,并在不同个体或群体间进行差异性分析的方法。人类疾病的致病突变研究已逐渐由外显子区域扩大到全基因组范围。通过构建不同的插入片段文库和短序列,以及应用双末端测序相结合的策略进行高通量测序,可在全基因组水平上检测到疾病相关的常见、低频甚至是罕见的突变位点以及结构变异等。

全基因组重测序是NGS中应用最广泛的方法。该技术与生物学应用相结合,可以获得与疾病相关的那一部分基因组变异信息[35]。2012年,Ellis等报道了芳香酶抑制剂治疗与乳腺癌之间的关联,指出基因突变、治疗效果与病理诊断之间存在联系。这也提示基因突变可能造成了乳腺癌的不同表型,并使其病理学特征变得更为复杂[36]。2010年,1000基因组计划开放了179个全基因组测序(whole-genome sequencing, WGS)原始数据以及697个个体的测序数据[37]。截至2015年,研究人员已经构建了涵盖2504个个体、26个不同人群的基因组群[38][39],使我们能够从种群的角度来了解人类的变异。该项目目前仍在对更多个体进行基因组测序[40][41]。种群水平的全基因组重测序已经成为了解人类疾病的一个重要的工具,同时也收获了意想不到的结果。Sidore等对2120个撒丁岛人进行了全基因组重测序,研究发现了一些新的和脂肪相关的基因以及炎症标志物[42],为人体血液中胆固醇的分子机制研究提供了新思路。

2.从头测序

从头测序(de novo sequencing)是指不参照任何现有的序列资料而对某个物种进行测序,利用生物信息学分析手段对序列进行拼接组装,从而获得该物种的基因组图谱。主要应用于对未知物种的基因组序列、基因组成、进化特点等进行解析。对一些已知基因序列、但变异率很高的物种(如病毒),重测序的结果可能会非常复杂,可以按新物种来直接做从头测序。随着技术的革新,从头测序的成本和时间较前都大幅减少,可以帮助研究人员探索更多的未知基因组。

3.全外显子组测序

全外显子组测序(whole-exome sequencing, WES)是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。全外显子组测序相对成本较低,对研究已知基因的SNP、InDel等具有较大优势。缺点是无法研究基因组的结构变异,如染色体断裂重组。全外显子组测序的应用范畴也十分广泛。Iossifov等对2500多个有患孤独症孩子的家庭进行了外显子测序[43],在30%的样本中发现了错义突变、基因干扰的突变以及拷贝数的变异。另有研究表明,高覆盖度的全基因组测序同样也能检测到复杂变异,但相对于外显子测序,成本和时间的花费高出太多。

4.全转录组测序

转录组学是在基因组学后新兴的一门学科,主要研究细胞在某一功能状态下所能转录出来的所有RNA的总和(主要包括mRNA和非编码RNA)。对特定细胞进行全转录组测序(whole-transcriptome sequencing, WTS),几乎可以获取其所有转录本序列信息,所以该方法已被广泛应用在基础研究、临床诊断和药物研发等领域。mRNA测序对引物或探针不进行设计,使其能客观地反映测序结果。通常仅需一次检测即可快速生成RNA的完整序列信息,包括基因表达、基因编码区SNP、全新的转录、全新异构体、剪接位点、等位基因特异性表达和罕见转录等。mRNA测序只需用一些简单的样品制备和数据分析软件即可。得益于NGS技术的发展,研究人员还可以对单个转录本进行深度测序研究。2014年,Treutlein等就对不同细胞类群的单细胞RNA进行了测序,发现了可用于鉴定细胞亚群的标志物[44]。长读长测序在转录组研究中也能用到,可以帮助分析转录组的结构变化,但在转录本的定量上并未体现出优势[45]。有研究显示,人类长读长转录组测序的reads中有10%以上是新的可变剪切体[46]

5.小分子RNA测序

小分子RNA包括微小RNA(micro RNA, miRNA)、小干扰RNA(small interfering RNA, siRNA)和与Piwi蛋白相作用的RNA(piwi-interacting RNA, piRNA),是生命活动重要的调控因子,在基因表达调控、生物个体发育、代谢及疾病的发生等生理过程中起着重要的作用。Solexa合成测序技术能对小分子RNA进行深度测序和定量分析。首先将18~30nt范围的小分子RNA分离出来,两端分别加上特定接头后进行体外逆转录,生成互补脱氧核糖核酸(complementary DNA, cDNA),进一步处理后再对DNA片段进行单向末端直接测序。通过对小分子RNA的大规模测序分析,可以获得物种全基因组水平的miRNA图谱,从而实现新miRNA分子的挖掘、靶基因的预测和鉴定、样品间差异表达的分析、miRNA聚类和表达谱分析等科学应用。

6.miRNA测序

成熟的miRNA是17~24nt的单链非编码RNA分子,能影响mRNA的稳定性及翻译,最终诱导基因沉默,可起到调控基因表达和细胞生长发育的作用。基于NGS技术的miRNA测序,可以一次性获得数百万条miRNA序列,并能快速鉴定出不同组织、不同发育阶段、不同疾病状态下的miRNA及其表达差异,为研究细胞生长进程中miRNA的作用及生物学影响提供了有力的帮助。

7.甲基化测序

肿瘤中存在DNA异常甲基化,但形成机制尚不清楚。对亚硫酸氢盐处理过的DNA进行测序,可检测到DNA中的异常甲基化,结果精确度高,基本能明确DNA片段中每一个胞嘧啶-磷酸-鸟嘌呤位点(CpG位点)的甲基化状态。

8.染色质免疫共沉淀结合NGS测序

染色质免疫共沉淀(chromatin immunoprecipitation, ChIP)技术也称为结合位点分析法,是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。ChIP与第二代测序技术相结合的ChIP-seq技术,能够在全基因组范围内检测与组蛋白、转录因子等有相互作用的DNA区段。

ChIP-seq的原理:通过ChIP特异性地富集目标蛋白结合的DNA片段,将其纯化后进行文库构建,然后对文库DNA进行高通量测序。

9.RNA纯化的染色质分离结合高通量测序

RNA纯化的染色质分离(chromatin isolation by RNA purification, ChIRP)与二代测序结合的ChIRP-seq可以检测与RNA起共同作用的DNA,从而判断该RNA能够结合的基因组区域。ChIRP需要对探针做特殊设计。由于蛋白测序技术尚不够成熟,目前还无法检测与该RNA结合的蛋白。

10.RNA免疫共沉淀结合高通量测序

RNA免疫共沉淀(RNA immunoprecipitation, RIP)是研究细胞内RNA与蛋白结合情况的技术,能帮助我们发现miRNA的调节靶点。RNA免疫共沉淀结合高通量测序的RIP-seq技术是用目标蛋白的抗体将相应的RNA-蛋白复合物沉淀下来,经分离纯化后对RNA进行高通量测序分析。

RIP类似于普遍的染色质免疫共沉淀技术,只是研究对象换成了RNA-蛋白复合物而不是DNA-蛋白复合物。RIP需要一定的优化条件,如RIP反应体系中的试剂和抗体绝对不能含有RNA酶。

11.紫外交联免疫沉淀结合高通量测序

紫外交联免疫沉淀结合高通量测序(crosslinking immunprecipitation and high throughput sequencing, CLIP-seq)可在全基因组水平揭示RNA分子与RNA结合蛋白的相互作用。主要原理:RNA分子与RNA结合蛋白在紫外照射下会发生偶联,利用RNA结合蛋白的特异性抗体将RNA-蛋白复合物沉淀下来,回收其中的RNA片段,经添加接头、逆转录PCR等步骤,最后进行高通量测序和生物信息学分析处理。

12.宏基因组学研究

宏基因组学是利用测序技术对整个微生物群落进行研究。相比传统单个细菌研究,它具有更多优势,其中最重要的两个优点是:① 微生物通常是以群落方式共生于某一生态环境中,很多特性是由整个群落环境及个体间相互影响所决定的,因此宏基因组研究会更系统性、更全面;② 宏基因组研究不需要做细菌的分离培养,研究覆盖的细菌种类更多。

宏基因组学(又称元基因组学、环境基因组学、生态基因组学等)是直接从环境样本中提取基因组遗传物质进行研究,填补了许多传统实验室微生物培养研究的空白。