您的位置:首页 > 其它

SAM格式 及 比对工具之 samtools 使用方法

2016-06-21 13:47 387 查看
参考资料:

SAMtools(官网
SAM Spec v1.4 (SAM格式 说明书) (重要)
samtools-1.3.1 使用手册 (SAMtools软件说明书)
samtools常用命令详解(博客园)
SAM格式定义(博耘生物)
samtools使用方法(plob)
这个学习急不来,而且比对非常重要,先把上面的官方SAM/BAM格式说明文件看透`Sequence Alignment/Map Format Specification`

SAMtools解决的问题

非常多序列(read),mapping到多个参考基因组(reference)上;
同一条序列,分多段(segment)比对到参考基因组上;
无限量的,结构化信息表示,包括错配、删除、插入等比对信息;

samtools 格式详解

@SQ    SN:Supercontig_6    LN:4218384
SRR1216519.3960650    73    Supercontig_6    5    0    67M13S    =    5    0    CTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCAACCCCAACCCCACACCCCACACC    EEEEED?CEEFFDFFFDBFEEEDEAB=EBC@-?@?BE=EB?-B?####################################    NM:i:2    AS:i:57    XS:i:57


#R498-三代组装比对信息
@SQ    SN:tig00000000    LN:110432
@SQ    SN:tig00000001    LN:42601
@SQ    SN:tig00000002    LN:14821
@PG    ID:bwa    PN:bwa    VN:0.7.10-r789    CL:/public/software/bwa-0.7.10/bwa mem -e breakpoint.contigs breakpoint.contigs.fasta


tig00000000    0    tig00000002    6796    60    99995S62M1D17M2I2    *    0    0    TGAAAACACCAGTCGGTGGTCGGC    *    NM:i:228    MD:Z:7G16G34T2    AS:i:840    XS:i:0    SA:Z:tig00000001,41895,+,


SAM格式,即序列比对文件格式,由头部区(@开头)和 主体区组成,均以tab分列。

头部区:体现比对的总体信息,如SAM格式版本,参考序列,使用软件。

主体区:比对结果,每一列都是一个比对结果,有11个主列 和 1个可选列。

以上:


@SQ行:SN是参考序列名;LN是参考序列长度。



下一行分别是:

QNAME(比对序列名);

FLAG(比对类型,由2的次方的累加,如73=64+8+1);

RNAME(比对上的参考序列名字)

POS(比对上的序列最左边的碱基的位置)

MAPQ(比对质量,BWA算出来的)

CIGAR(比对结果信息,简写)

MENM(pair序列比对在参考基因组上的名字,同上RNAME)

MPOS(pair比对位置,同上POS)

ISIZE(插入片段长度)

SEQ(序列信息,来自fastQ)

QUAL(质量信息,来自fastQ)

可选列(格式为TAG:TYPE:VALUE,提供额外信息)

 

局部组装常用命令及其参数

$samtoolsdir/samtools view -@ $NP -Sb $out/bwamem_$sample.sam -o $out/bwamem_$sample.bam
-@ 硬件参数


-S 输入为SAM文件


-b 输出为BAM文件


-o 指定输出文件
$samtoolsdir/samtools sort -@ $NP $out/bwamem_$sample.bam -o $out/bwamem_$sample.sorted.bam

$samtoolsdir/samtools index $out/bwamem_$sample.sorted.bam


 


注意:目前使用的参数中均没有影响结果的参数

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: