您的位置:首页 > 其它

PacBio长reads的大基因组组装

2016-06-12 13:17 423 查看
原文链接:Large Genome Assembly with PacBio Long Reads

可以以多种方式利用PacBio长reads来生成和改进大型基因组的de novo组装。

你可以用几种不同的方法:

PacBio-only de novo 组装。long insert library; preprocessed; Overlap-Layout-Consensus algorithm

混合de novo组装。combination of PacBio and short read data; hybrid assembly

填充Gap。mate-pair based assembly;

Scaffolding。join contigs



图:PacBio装配方法的说明

下面我们讨论什么软件是可用的,如何选择软件,以及额外的考虑。

1.软件选择

1.1 PacBio-only

HGAP workflow:preassemble reads;assemble the preassembled reads using Celera® Assembler;polish using Quiver

Falcon 一个实验性的二倍体组装工具,测试multi Gb genomes。

Canu Celera Assembler的一个分支,专门用于高噪音单分子测序。

Celera® Assembler 提供直接组装subreads的一种方式

Sprai preassembly-based的组装工具,目标是generate longer contigs。

1.2 混合使用

pacBioToCA Celera® Assembler的一个error correction模块,最初是用来align short reads to PacBio reads 和 generate consensus sequences。Celera® Assembler可以组装These error corrected reads。

ECTools 一组工具,使用contigs代替short reads 来进行correction。

SPAdes short read assembler,added PacBio hybrid assembly,最新version 3.0。

Cerulean 从ABySS 的assembly graph开始,extends contigs by resolving bubbles in the graph,使用PacBio long reads。已成功在genomes <100 Mb的物种中运行。

dbg2olc 使用Illumina contigs作为anchors 来建立overlap graph,使用PacBio reads,性能非常好。

1.3 Gap Filling

PBJelly 2 使用PacBio reads来fill in gaps in scaffolds。genomes >1 Gb下已成功运行,

2.额外的考虑

2.1 覆盖度和软件选择

算法选择:how much PacBio sequencing can be obtained 和 what types of short read data are available。

一般:

PacBio-only de novo:get at least 50X PacBio coverage

HGAP:minimum recommended coverage下表现最好

PBcR in Celera Assembler 8.2 beta uses MHAP:For larger genomes

...

PBcR and ECTools :20X PacBio coverage

PBJelly 2:a high quality set of scaffolds exists

...

at least PacBio 5X coverage to fill gaps



图:PacBio 算法 推荐 from a PAG 2014

2.2 重复的内容

de novo assembly最大的挑战之一

解决方案:work with insert sizes that can span repeats and identify unique anchoring sequence on each side.

2.3 倍数性

大部分组装工具都是为单倍体设计的。

二倍体基因组染色体之间的结构变异较少

2.4 Short-Read数据的覆盖偏差

extreme GC composition

2.5 计算消耗

减少时间消耗:align short read contigs to PacBio reads

2.6 基因组草图的质量

Gap filling of mate pair-based scaffolded assemblies

2.7 大量的插入库

3.数据集和实例项目

4.附加链接

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: