浅析现阶段高通量测序中的拼接问题论文

时间:2022-04-28 00:46:19 其他类论文 我要投稿
  • 相关推荐

浅析现阶段高通量测序中的拼接问题论文

  摘要:近年来,随着第二代测序技术的普及和第三代测序技术的逐步发展,高通量测序技术在实际研究中的应用越来越广泛。高速率、高性价比是其主要优点。相对于传统的桑格(Sanger)法测序来言,高通量测序得到的片段长度较为短小,故如何拼接得到完整的序列一直是炙手可热的研究方向。本文总结了现阶段高通量测序中拼接问题的研究结果,针对现在流行的各种算法进行了简单介绍。

浅析现阶段高通量测序中的拼接问题论文

  关键词:高通量测序;reads 拼接;contigs 组装;OLC、De brujin 图

  一、测序技术的发展过程和现状[1]

  (一)桑格法

  桑格法又叫做双脱氧链终止法,由Sanger在1977年提出。通过加入带有放射标记的dd NTP(双脱氧核苷酸)使DNA合成终止。再通过电泳,并使用放射自显影技术读出碱基。此方法得到的片段较长,能达到1000bp左右。

  (二)第二代测序技术

  随着科学技术的发展,传统的桑格法已经不能满足研究的需要。科学家们需要更快的速度、更高的通量以及更低廉的价格,于是第二代测序技术应运而生。其核心思想是边合成边测序。现在主要有454 GS FLX、SOLi D和Illumina/Solexa GenomeAnalyzer三个平台。第二代测序是现阶段测序技术的主流,也是高通量测序的开始。

  (三)第三代测序技术

  第三代测序技术是指单分子测序技术。不需要经过PCR的过程即可测序,速度可以达到每秒十个碱基。通量更大,读长更短,是现阶段测序技术的发展方向。

  二、高通量测序中的拼接工作

  (一)高通量测序所得片段的特点

  高通量测序之后所得到的序列片段称为reads(读取),其主要特点两点。一是长度短,一般在200bp以 下,最长的454平台能达到的长度也不过1000bp,因此需要进行 大量的拼接才能得到整条DNA序列。二是有部分重叠,由于测序位置具有随机性,故各reads总会有一定的重叠,这些重叠是拼接工作的关键。

  (二)拼接过程

  整个拼接过程分为两步。第一步,考察reads的重复序列,并拼接成更长的片段,称为contigs(重叠群),这一步称为reads的拼接;第二步,确定contigs之间的顺序关系,并按此排列,形成称为scaffolds的序列,这一步叫做contigs的组装。

  三、Reads的拼接

  (一)拼接过程的难点

  reads拼接过程中要克服的难点主 要有两点,一是高通量测序得到的reads长度较短,故内含信息较少,不易确认相对顺序。二是远程连接信息(Long-range linking information)的不可靠性。 2这两点制约着reads拼接过程的准确率。

  (二)方法[3]

  reads拼接过程中算法的基本要求是de novo(从头测序),即不需要任何序列信息即可对原料进行测序。由此衍生出两种主流的算法:

  1.OLC

  OLC,即交叠-排列-共有序列算法(Overlap-layout-consensus),是一个比较传统的算法,其基本思想为根据reads间的重复部分,确定可能性的reads连接顺序。

  其步骤为:构建交叠图:对每两个reads进行比对,计算它们的重叠度---排列reads:将reads进行排列,确定它们之间的相对位置,建立overlap图---生成共有序列:通过多序列比对等方法,确立最后的contig.

  OLC算法的计算量主要体现在交叠图的构建,而高通量测序得到的海量短序列有大量的交叠,往往需要大量的运算时间。故OLC算法并不适合现在高通量测序的发展趋势。现在某些拼接软件,如Shorty、CABOG等仍在使用基于此的算法。虽然这些软件针对OLC算法有一定的改进和优化,但其拼接速度和准确性仍受到限制。

  2.De brujin图

  基于De brujin图(DBG)的算法是现在最流行的算法,许多常用的拼接软件如Velvet、ABy SS等都在使用这种算法。其特点为把基因序列的拼接问题转化为了数学上的图论问题,大大提高了拼接效率。

  (1)基本思想

  reads中 连 续 的k个 碱 基 称 为k -mer,作 为DBG的节点,两个k-mer如 果在同一read中 相邻,则形成一条边。故每个read都会对一些边加权,最后形成一个含有节点、有权值的边的DBG,由此生成最佳的contig.

  (2)步骤

  筛选reads:对reads进行检测,去除掉可能错误的reads---确定k值:k的值直接影响速度和精度。 K值较大时,精度有所提高,但更容易受覆盖率的影响。故应该根据覆盖率、reads长度等确定合适的k值---处 理DBG:根 据 确 定 的k值,做 出DBG,同时完成化简和修正---根据DBG,拼接成contig.

  (3)优缺点

  DBG算法在处理海量短reads的时候效果优秀,与现在测序技术的发展趋势相匹配。然而,由于k-mer的长度较短,此方法受重复序列、测序错误的影响较大。

  (三)不同拼接软件的效果差异

  不同的拼接软件在reads拼接过程中表现为三点:一是比起软件来说,reads质量对拼接结果影响更大;二是与标准序列的接近度随reads和拼接软件的不同有很大改变;三是各软件拼接的正确率差别很大,但与接近度的结果不一致。

  四、Contigs的组装

  与reads的拼接相比,contigs的组装的难度相对较小。这是因为contigs的长度较reads长很多,所含信息较多。故可以较为准确的组装成scaffold

  (一)组装过程的难点[4]

  Contigs组 装 过 程 中 的 难 点 主 要 有 二。一 是contigs中 含有大量的重复序列,不易确定contigs之间的相对顺序;二是由于contigs由reads拼接而成,其中不 免 会 有 一 些 错 误,这 些 错 误 也 会 对contigs的组装产生干扰。

  (二)方法

  Contigs组 装的方法较reads拼 接而言较多,一般常用的有图论法和光学图谱法(Optical mapping)两种。

  1.图论法[5]

  图论法是比较传统的方法,与reads拼接有相似的地方。它以contigs作为节点,由相连的读取对(Linking reads pair)作为边,由此形成算图。

  其一般步骤为:库的构建:构建出含有所有reads的 库---计算相连读取对之 间的距离,并由此计算gap的长度---把长度放在边上,作为算图的数据。

  其理想的输出结果是一条scaffold序列,对应一条染色体,包含以正确顺序排 列 的contigs和contigs之间gap的长度。

  2.光学图谱法[6]

  光学图谱法是一种较为新颖的方法。通过内切酶将DNA切断,此时DNA的片段的谱表现出一种特殊的指纹或是识别码的性质。利用光学方法追踪此信息得到相对位置,由此组装成正确的scaffold.

  主要步骤为:将contigs放 置 在 光 学 图 谱上---修正光学图谱---做出contigs的连接图,由此决定最佳的contigs连接顺序。

  光学图谱法的组装结果有着很高的覆盖率,巧妙运用光学图谱法可以获得很高的成本效益。

  有研究表明,当与454平台获得的实验结果相结合的时候,光学图谱法可以迅速、价廉的得到排列好的定向的contigs组,由此可以产生一个将近完整的基因组。

  (三)发展方向

  Contigs组装过程的关键点 在于如何得到正确的连接顺序。现阶段此方面研究多集中在这一方向。

  五、前景与展望

  随着生物学研究向微观、向基因领域逐步延伸,高通量测序作为获得基因序列的主要方法,越来越受到重视,拼接技术也在不断发展。高通量测序的基因片段会变得海量且短小,应对此变化,拼接技术也会由确定“唯一的基因序列”向确定“最可能的基因序列”完成转变。因此,新一代的拼接技术会在准确率、覆盖率和速度上,作出超于现在拼接技术的改进。

  参考文献:

  [1]Anderson MW, Schrijver I. Next Generation DNASequencing and the Future of Genomic Medicine.?Genes.2010;1(1):38-69. doi:10.3390/genes1010038.

  [2]Salzberg SL, Phillippy AM, Zimin A, et al. GAGE: Acritical evaluation of genome assemblies and assemblyalgorithms.Genome Research. 2012;22 (3):557 -567. doi:10.1101/gr.131383.111.

  [3]Deng X, Naccache SN, Ng T, et al. An ensemble strategythat significantly improves de novo assembly of microbialgenomes from metagenomic next -generation sequencingdata.Nucleic Acids Research. 2015;43 (7):e46. doi:10.1093/nar/gkv002.

  [4]Latreille P, Norton S, Goldman BS, et al. Opticalmapping as a routine tool for bacterial genome sequencefinishing.BMC Genomics. 2007;8:321. doi:10.1186/1471 -2164-8-321.

  [5]Hunt M, Newbold C, Berriman M, Otto TD. Acomprehensive evaluation of assembly scaffolding tools.Genome Biology. 2014;15 (3):R42. doi:10.1186/gb -2014 -15-3-r42.

  [6]Nagarajan N, Read TD, Pop M. Scaffolding andvalidation of bacterial genome assemblies using opticalrestriction maps.Bioinformatics. 2008;24 (10):1229 -1235.doi:10.1093/bioinformatics/btn102.

【浅析现阶段高通量测序中的拼接问题论文】相关文章:

公路工程审计过程中问题浅析论文04-24

浅析体育社会问题的理论研究论文04-24

电力工程审计问题与解决对策浅析论文04-21

浅析郭沫若《女神》中的积极浪漫主义论文04-01

浅析现代教育资源在体育教学中的应用论文01-15

浅析营销稽查在电力营销管理中的运用论文04-01

浅析农业推广的信息化问题及应对策略论文03-06

浅析数学语言在教学中的作用论文(通用12篇)12-19

毕业论文答辩中的常见问题04-27

项目成本管理中存在的问题及对策论文03-24