SAM数据格式学习1之CIGAR理解
2016-04-29 17:12
337 查看
SAM信息中的一条:
1.s为soft clipping,4s即查询串的开始四个字符不考虑
2.然后153M表示接下来153个为匹配正确或者错误匹配的数量为153,位置从chr7的41381016 开始,到41381161为第146为,在往又7个字符都匹配,到第8个字符就有个“*”号,所以这146+7=153个字符都匹配这确或者匹配错误,没有删除和插入。
3. 接下为为1D,表示1个deletion,如下图中第一个“*”号的位置,指的是参考序列删除,而不是查询序列删除,可以看出图1的参考序列有4个T,而图2查询序列是三个T.
图1
图2:
4.接下来是132M,中间有错误匹配的,132个之后有个"*"号,才出现1D
5.接下来都是很多都是依次类推
6.CIGAR:4S153M1D132M1D5M1D28M1D73M3I12M1I40M54S :
后面有个3I,表示三个insertion可以看出是在ref插入三个字符,用“***”表示,查询串插入的是AGG,后面12M之后又有一个1I,同理插入的为T。
图3:
图4:
7.1P表示填充的,意思是其他基因串可能要插入两个,比如图5的r001,而r002则对应的有一个“*”,这个*为填充的=》每确定一条有P的read需要修改该位置其他所有read的CIGAR状态
图5
8.H表示the clipped sequence is not present in the sequence field.如图5中r003+开始的5个字符没有存储在sam中,r003-的开始的6个字符没有存储在sam中
9.N表示‘N’ for skipped bases on the reference,如r004中有14N
10.另外:图5中的c为pileup,圆点或者逗号表示该碱基等参考序列一眼,一个圆点或者大写的字符表示碱基匹配的是正链,一个逗号或者小写的表示反链
In the fifth field, a dot or a comma denotes a base identical to the referece; a dot or a capital letter denotes a base from a read mapped on the forward strand, while a comma or a lowercase letter on the reverse strand.
其他:
(1).论文描述:
(2)部分命令:
参考:
【1】The sequence alignment/map format and SAMtools
SRR003161.2 0 chr7 41381016 60 4S153M1D132M1D5M1D28M1D73M3I12M1I40M54S* 0 0 TCAGTTTGAGATGGAGTTTCATTCTTGTTGCCCAGGCTGGAGTGCAATGGCGCAATCTCAGCTCACAGCAACCTCCGCCTCCCGGGTTCAAGCGATTCTCCTGCCTCAGCCTCTCGAGTAGCTGGGATTACAGGCATGCACCATCACGCCCAGCTAATTTGCATTTTTTATTAGAGATGGGGTTTCTCCACATTGGTCAGGCTGATCTCGAACTCCTGACCTCAGGTGATCTGCCTGCCTTGGCCTCCCAAAGTGCTGGGATTACAGGCATGAGCCTGAGCCCAACCTATTTACTTTCAATCCATCTTTTCAATAACTTAAATACAAGTGTCAATATATACAATCTTTTCCTCCCTGGTTATCAAGCTTTCTAATATATATGGATGTATCTTCCAAGGTTTTTGATCCCATTTTACTTTACAGGCTCACTGCTGTGGAACCCAGAGAGCAGTCTCTTTTCAAGGNGGGCTGAGACNCGCAACAGGGGATTAGGCCAAGGCNCAGG CCCCCCCCCCCCCCCC@@@CCCFEEEFEEG888EEEFFEEEEFGGGGGGCCCCCCCCCCCCCCCCCCCCCCCCCCCCCA<777@@CCCBCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCCAAACCCCCCCCCCCCCCCCCCCCCCC:93339@A>77//39AC666666C22CAAAA93333///7-0017>9999>>A???ACCCCCCC2239322>9977<?????CCCCCCCCC877777777111111::::5555:555:::::::::;:555:;;::::0040-----***--467::::;;;;;;:::511155555:555:::;::::::7777744-------///245::;;;::::::;;;;;;;;:55554774----------44-----064---------6---522451115247644255-----,4---24464422---------!,,,4464224!11:::7:::111111--7777---!---- NM:i:12 MD:Z:153^T40T91^T5^T28^G73G23C0G26 AS:i:379 XS:i:88CIGAR信息为:
4S153M1D132M1D5M1D28M1D73M3I12M1I40M54S理解:
1.s为soft clipping,4s即查询串的开始四个字符不考虑
2.然后153M表示接下来153个为匹配正确或者错误匹配的数量为153,位置从chr7的41381016 开始,到41381161为第146为,在往又7个字符都匹配,到第8个字符就有个“*”号,所以这146+7=153个字符都匹配这确或者匹配错误,没有删除和插入。
scala> 41381161-41381016+1 res2: Int = 146
3. 接下为为1D,表示1个deletion,如下图中第一个“*”号的位置,指的是参考序列删除,而不是查询序列删除,可以看出图1的参考序列有4个T,而图2查询序列是三个T.
图1
图2:
4.接下来是132M,中间有错误匹配的,132个之后有个"*"号,才出现1D
5.接下来都是很多都是依次类推
6.CIGAR:4S153M1D132M1D5M1D28M1D73M3I12M1I40M54S :
后面有个3I,表示三个insertion可以看出是在ref插入三个字符,用“***”表示,查询串插入的是AGG,后面12M之后又有一个1I,同理插入的为T。
图3:
图4:
7.1P表示填充的,意思是其他基因串可能要插入两个,比如图5的r001,而r002则对应的有一个“*”,这个*为填充的=》每确定一条有P的read需要修改该位置其他所有read的CIGAR状态
图5
8.H表示the clipped sequence is not present in the sequence field.如图5中r003+开始的5个字符没有存储在sam中,r003-的开始的6个字符没有存储在sam中
9.N表示‘N’ for skipped bases on the reference,如r004中有14N
10.另外:图5中的c为pileup,圆点或者逗号表示该碱基等参考序列一眼,一个圆点或者大写的字符表示碱基匹配的是正链,一个逗号或者小写的表示反链
In the fifth field, a dot or a comma denotes a base identical to the referece; a dot or a capital letter denotes a base from a read mapped on the forward strand, while a comma or a lowercase letter on the reverse strand.
其他:
(1).论文描述:
2.1.2 Extended CIGAR The standard CIGAR description of pairwise alignment defines three operations: ‘M’ for match/mismatch, ‘I’ for insertion compared with the reference and ‘D’ for deletion. The extended CIGAR proposed in SAM added four more operations: ‘N’ for skipped bases on the reference, ‘S’ for soft clipping, ‘H’ for hard clipping and ‘P’ for padding. These support splicing, clipping, multi-part and padded alignments. Figure 1 shows examples of CIGAR strings for different types of alignments
(2)部分命令:
hadoop@Master:~/cloud/adam/xubo/data/test20160310$ samtools tview SRR003161h20.sort.bam GCA_000001405.15_GRCh38/GCA_000001405.15_GRCh38_full_analysis_set.fna
参考:
【1】The sequence alignment/map format and SAMtools
相关文章推荐
- 利用Isight软件优化matlab程序的一点心得
- 利用 LeakCanary 来检查 Android 内存泄漏
- Lua面向对象
- 详解css3系列:动画@keyframes和Animation
- ios开发navigationController pushViewController 方式多次跳转 怎么返回到最上层,怎么返回到指定的某一层
- 输出和模型使用
- CURD特性
- 普通查询方式
- 深入理解JavaScript系列(48):对象创建模式(下篇)
- 深入理解JavaScript系列(47):对象创建模式(上篇)
- js报TypeError $(...) is null错误,jquery失效的原因及解决办法
- html5之小游戏2048的实现
- leetcode——300—— Longest Increasing Subsequence
- 简介
- MVC模式和URL访问
- spring boot + neo4j restful
- python读取命令行参数的方法
- 《构建之法》 6.7章读后感
- 深入理解JavaScript系列(46):代码复用模式(推荐篇)
- 深入理解JavaScript系列(45):代码复用模式(避免篇)