PacBio长reads的大基因组组装
2016-06-12 13:17
423 查看
原文链接:Large Genome Assembly with PacBio Long Reads
可以以多种方式利用PacBio长reads来生成和改进大型基因组的de novo组装。
你可以用几种不同的方法:
PacBio-only de novo 组装。long insert library; preprocessed; Overlap-Layout-Consensus algorithm
混合de novo组装。combination of PacBio and short read data; hybrid assembly
填充Gap。mate-pair based assembly;
Scaffolding。join contigs
图:PacBio装配方法的说明
下面我们讨论什么软件是可用的,如何选择软件,以及额外的考虑。
Falcon 一个实验性的二倍体组装工具,测试multi Gb genomes。
Canu Celera Assembler的一个分支,专门用于高噪音单分子测序。
Celera® Assembler 提供直接组装subreads的一种方式
Sprai preassembly-based的组装工具,目标是generate longer contigs。
ECTools 一组工具,使用contigs代替short reads 来进行correction。
SPAdes short read assembler,added PacBio hybrid assembly,最新version 3.0。
Cerulean 从ABySS 的assembly graph开始,extends contigs by resolving bubbles in the graph,使用PacBio long reads。已成功在genomes <100 Mb的物种中运行。
dbg2olc 使用Illumina contigs作为anchors 来建立overlap graph,使用PacBio reads,性能非常好。
一般:
PacBio-only de novo:get at least 50X PacBio coverage
HGAP:minimum recommended coverage下表现最好
PBcR in Celera Assembler 8.2 beta uses MHAP:For larger genomes
...
PBcR and ECTools :20X PacBio coverage
PBJelly 2:a high quality set of scaffolds exists
...
at least PacBio 5X coverage to fill gaps
图:PacBio 算法 推荐 from a PAG 2014
解决方案:work with insert sizes that can span repeats and identify unique anchoring sequence on each side.
二倍体基因组染色体之间的结构变异较少
可以以多种方式利用PacBio长reads来生成和改进大型基因组的de novo组装。
你可以用几种不同的方法:
PacBio-only de novo 组装。long insert library; preprocessed; Overlap-Layout-Consensus algorithm
混合de novo组装。combination of PacBio and short read data; hybrid assembly
填充Gap。mate-pair based assembly;
Scaffolding。join contigs
图:PacBio装配方法的说明
下面我们讨论什么软件是可用的,如何选择软件,以及额外的考虑。
1.软件选择
1.1 PacBio-only
HGAP workflow:preassemble reads;assemble the preassembled reads using Celera® Assembler;polish using QuiverFalcon 一个实验性的二倍体组装工具,测试multi Gb genomes。
Canu Celera Assembler的一个分支,专门用于高噪音单分子测序。
Celera® Assembler 提供直接组装subreads的一种方式
Sprai preassembly-based的组装工具,目标是generate longer contigs。
1.2 混合使用
pacBioToCA Celera® Assembler的一个error correction模块,最初是用来align short reads to PacBio reads 和 generate consensus sequences。Celera® Assembler可以组装These error corrected reads。ECTools 一组工具,使用contigs代替short reads 来进行correction。
SPAdes short read assembler,added PacBio hybrid assembly,最新version 3.0。
Cerulean 从ABySS 的assembly graph开始,extends contigs by resolving bubbles in the graph,使用PacBio long reads。已成功在genomes <100 Mb的物种中运行。
dbg2olc 使用Illumina contigs作为anchors 来建立overlap graph,使用PacBio reads,性能非常好。
1.3 Gap Filling
PBJelly 2 使用PacBio reads来fill in gaps in scaffolds。genomes >1 Gb下已成功运行,2.额外的考虑
2.1 覆盖度和软件选择
算法选择:how much PacBio sequencing can be obtained 和 what types of short read data are available。一般:
PacBio-only de novo:get at least 50X PacBio coverage
HGAP:minimum recommended coverage下表现最好
PBcR in Celera Assembler 8.2 beta uses MHAP:For larger genomes
...
PBcR and ECTools :20X PacBio coverage
PBJelly 2:a high quality set of scaffolds exists
...
at least PacBio 5X coverage to fill gaps
图:PacBio 算法 推荐 from a PAG 2014
2.2 重复的内容
de novo assembly最大的挑战之一解决方案:work with insert sizes that can span repeats and identify unique anchoring sequence on each side.
2.3 倍数性
大部分组装工具都是为单倍体设计的。二倍体基因组染色体之间的结构变异较少
2.4 Short-Read数据的覆盖偏差
extreme GC composition2.5 计算消耗
减少时间消耗:align short read contigs to PacBio reads2.6 基因组草图的质量
Gap filling of mate pair-based scaffolded assemblies2.7 大量的插入库
3.数据集和实例项目
4.附加链接
相关文章推荐
- 袁腾飞——元
- java 浮点运算 工具类
- 粗浅看 Tomcat中设计模式分析
- 上传jcenter的“第一次”所遇到的坑
- 知行合一!如何做好项目经理?
- 知行合一!如何做好项目经理?
- 知行合一!如何做好项目经理?
- pouchdb sync
- 使用visio绘制企业动静分离企业架构
- 【Unity3d】如何绘制椭圆
- OSAL小记
- Ubuntu14.04中常见问题
- 环形hash算法java实现
- Eclipse调试惯用技巧
- 程序状态字PSW
- mulesoft 浅谈
- 联想小新air13触摸屏失灵
- Swift 中的变量(var let , Optional)
- 第十六周项目1-(1)-小玩文件
- Node.js之Express四