SAM格式 及 比对工具之 samtools 使用方法
2016-06-21 13:47
387 查看
参考资料:
SAMtools(官网)
SAM Spec v1.4 (SAM格式 说明书) (重要)
samtools-1.3.1 使用手册 (SAMtools软件说明书)
samtools常用命令详解(博客园)
SAM格式定义(博耘生物)
samtools使用方法(plob)
这个学习急不来,而且比对非常重要,先把上面的官方SAM/BAM格式说明文件看透`Sequence Alignment/Map Format Specification`
同一条序列,分多段(segment)比对到参考基因组上;
无限量的,结构化信息表示,包括错配、删除、插入等比对信息;
SAM格式,即序列比对文件格式,由头部区(@开头)和 主体区组成,均以tab分列。
头部区:体现比对的总体信息,如SAM格式版本,参考序列,使用软件。
主体区:比对结果,每一列都是一个比对结果,有11个主列 和 1个可选列。
以上:
@SQ行:SN是参考序列名;LN是参考序列长度。
下一行分别是:
QNAME(比对序列名);
FLAG(比对类型,由2的次方的累加,如73=64+8+1);
RNAME(比对上的参考序列名字)
POS(比对上的序列最左边的碱基的位置)
MAPQ(比对质量,BWA算出来的)
CIGAR(比对结果信息,简写)
MENM(pair序列比对在参考基因组上的名字,同上RNAME)
MPOS(pair比对位置,同上POS)
ISIZE(插入片段长度)
SEQ(序列信息,来自fastQ)
QUAL(质量信息,来自fastQ)
可选列(格式为TAG:TYPE:VALUE,提供额外信息)
注意:目前使用的参数中均没有影响结果的参数
SAMtools(官网)
SAM Spec v1.4 (SAM格式 说明书) (重要)
samtools-1.3.1 使用手册 (SAMtools软件说明书)
samtools常用命令详解(博客园)
SAM格式定义(博耘生物)
samtools使用方法(plob)
这个学习急不来,而且比对非常重要,先把上面的官方SAM/BAM格式说明文件看透`Sequence Alignment/Map Format Specification`
SAMtools解决的问题
非常多序列(read),mapping到多个参考基因组(reference)上;同一条序列,分多段(segment)比对到参考基因组上;
无限量的,结构化信息表示,包括错配、删除、插入等比对信息;
samtools 格式详解
@SQ SN:Supercontig_6 LN:4218384 SRR1216519.3960650 73 Supercontig_6 5 0 67M13S = 5 0 CTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCAACCCCAACCCCACACCCCACACC EEEEED?CEEFFDFFFDBFEEEDEAB=EBC@-?@?BE=EB?-B?#################################### NM:i:2 AS:i:57 XS:i:57
#R498-三代组装比对信息 @SQ SN:tig00000000 LN:110432 @SQ SN:tig00000001 LN:42601 @SQ SN:tig00000002 LN:14821 @PG ID:bwa PN:bwa VN:0.7.10-r789 CL:/public/software/bwa-0.7.10/bwa mem -e breakpoint.contigs breakpoint.contigs.fasta
tig00000000 0 tig00000002 6796 60 99995S62M1D17M2I2 * 0 0 TGAAAACACCAGTCGGTGGTCGGC * NM:i:228 MD:Z:7G16G34T2 AS:i:840 XS:i:0 SA:Z:tig00000001,41895,+,
SAM格式,即序列比对文件格式,由头部区(@开头)和 主体区组成,均以tab分列。
头部区:体现比对的总体信息,如SAM格式版本,参考序列,使用软件。
主体区:比对结果,每一列都是一个比对结果,有11个主列 和 1个可选列。
以上:
@SQ行:SN是参考序列名;LN是参考序列长度。
下一行分别是:
QNAME(比对序列名);
FLAG(比对类型,由2的次方的累加,如73=64+8+1);
RNAME(比对上的参考序列名字)
POS(比对上的序列最左边的碱基的位置)
MAPQ(比对质量,BWA算出来的)
CIGAR(比对结果信息,简写)
MENM(pair序列比对在参考基因组上的名字,同上RNAME)
MPOS(pair比对位置,同上POS)
ISIZE(插入片段长度)
SEQ(序列信息,来自fastQ)
QUAL(质量信息,来自fastQ)
可选列(格式为TAG:TYPE:VALUE,提供额外信息)
局部组装常用命令及其参数
$samtoolsdir/samtools view -@ $NP -Sb $out/bwamem_$sample.sam -o $out/bwamem_$sample.bam -@ 硬件参数
-S 输入为SAM文件
-b 输出为BAM文件
-o 指定输出文件 $samtoolsdir/samtools sort -@ $NP $out/bwamem_$sample.bam -o $out/bwamem_$sample.sorted.bam $samtoolsdir/samtools index $out/bwamem_$sample.sorted.bam
注意:目前使用的参数中均没有影响结果的参数
相关文章推荐
- 第十一周项目点类派生直线类
- Java并发包中的读写锁及其实现分析
- 使用IDA的调试器
- Swift - 使用表格组件(UITableView)实现单列表
- mysql中插入中文数据
- Linux USB 驱动开发实例 (三)—— 基于USB总线的无线网卡浅析
- HTML行为元素和块级元素及语义化
- xcode 更新后,pod install 失败
- Android 相关博客地址【更新中】
- Lock wait timeout exceeded
- Hadoop学习(一): Ubuntu上安装Hadoop
- 【Unity Shaders】学习笔记——SurfaceShader(四)用纹理改善漫反射
- HDU 2295 舞蹈链可重复覆盖+二分
- Linux USB 驱动开发实例(二)—— USB 鼠标驱动注解及测试
- tomcat的配置
- android高级控件之AutoCompleteTextView
- studio 代码混淆
- Android Dialog点击对话框外部让其消失的实现方法
- Linux USB 驱动开发实例(一) —— USB摄像头驱动实现源码分析
- cmake 强制链接静态库