16s扩增子分析注意事项和经验总结Tips
2017-07-03 13:34
369 查看
个人1年多16s/ITS扩增子分析中积累的点点滴滴,此文适合新人了解相关零散知识,也适合有分析经验的人交流与讨论。
以下分析的经验,是以测序数据类型为Illumina HiSeq 2500产出的双端250数据类型(PE250)为基础。
扩增测序技术选择:推荐使用PE250,性价比超高;
原始数据使用fastqc质量评估,会发现数据右端末端质量较差,这是测序仪原理导致,我们在双端合并时还会利用另一端高质量序列进行校正,此处不必过分担心;
![](http://bailab.genetics.ac.cn/markdown/16s_tips1.png)
双端序列合并方法qiime中有fastq-join和seqprep可选,不必太纠结,原理非常简单事,亲测两者差别不大,用默认fastq-join较快;
extract_barcodes.py提取barcode的种类很多,记得只有左端用barcode_single_end,其它全用barcode_paired_stitched,接头长度如实填写即可。
split_libraries_fastq.py中过滤质量-q选20,即准确度99%; –max_barcode_errors选项是否允许barcode错配不用纠结,一般的barcode调也不支持。
cutadapt去除引物需要-g/-a分两次去除,一次同时去会有很多无法去掉;
聚类OTU前先使用usearch -derep_fulllength先去冗余,不然QIIME慢到想哭;
聚类OTU推荐usearch -cluster_otus,直接高效的去除了嵌合体;
依据参考数据库去除嵌合体,推荐使用usearch -uchime_ref和RDP_gold数据库
align_seqs.py和filter_fasta.py配合去除非细菌序列;
biom的convert, add-metadata要学用,不仅需要格式转换,还需加添加注释信息;
assign_taxonomy.py的方法有uclust, blast, rdp等,我比较感觉rdp方法注释的最全面;
多序列比对使用clustalo方便多线程快速比对;
make_phylogeny.py默认使用fasttree建树极快;
alpha_diversity.py计算前需要使用single_rarefaction.py进行重抽样,推荐数据量1万-3万;
alpha_diversity.py常用的多样性种类,包括shannon,chao1,observed_otus,PD_whole_tree,最后一种还需要树方件;
normalize_table.py将OTU-table进行CSS方法标准化,再进行beta多样性分析结果更好;
beta_diversity.py常用方法有bray_curtis,weighted_unifrac,unweighted_unifrac,根据结果再选方法;
以下分析的经验,是以测序数据类型为Illumina HiSeq 2500产出的双端250数据类型(PE250)为基础。
扩增测序技术选择:推荐使用PE250,性价比超高;
原始数据使用fastqc质量评估,会发现数据右端末端质量较差,这是测序仪原理导致,我们在双端合并时还会利用另一端高质量序列进行校正,此处不必过分担心;
![](http://bailab.genetics.ac.cn/markdown/16s_tips1.png)
双端序列合并方法qiime中有fastq-join和seqprep可选,不必太纠结,原理非常简单事,亲测两者差别不大,用默认fastq-join较快;
extract_barcodes.py提取barcode的种类很多,记得只有左端用barcode_single_end,其它全用barcode_paired_stitched,接头长度如实填写即可。
split_libraries_fastq.py中过滤质量-q选20,即准确度99%; –max_barcode_errors选项是否允许barcode错配不用纠结,一般的barcode调也不支持。
cutadapt去除引物需要-g/-a分两次去除,一次同时去会有很多无法去掉;
聚类OTU前先使用usearch -derep_fulllength先去冗余,不然QIIME慢到想哭;
聚类OTU推荐usearch -cluster_otus,直接高效的去除了嵌合体;
依据参考数据库去除嵌合体,推荐使用usearch -uchime_ref和RDP_gold数据库
align_seqs.py和filter_fasta.py配合去除非细菌序列;
biom的convert, add-metadata要学用,不仅需要格式转换,还需加添加注释信息;
assign_taxonomy.py的方法有uclust, blast, rdp等,我比较感觉rdp方法注释的最全面;
多序列比对使用clustalo方便多线程快速比对;
make_phylogeny.py默认使用fasttree建树极快;
alpha_diversity.py计算前需要使用single_rarefaction.py进行重抽样,推荐数据量1万-3万;
alpha_diversity.py常用的多样性种类,包括shannon,chao1,observed_otus,PD_whole_tree,最后一种还需要树方件;
normalize_table.py将OTU-table进行CSS方法标准化,再进行beta多样性分析结果更好;
beta_diversity.py常用方法有bray_curtis,weighted_unifrac,unweighted_unifrac,根据结果再选方法;
相关文章推荐
- PDO防注入原理分析以及使用PDO的注意事项总结
- PDO防注入原理分析以及使用PDO的注意事项总结
- PDO防注入原理分析以及使用PDO的注意事项总结
- 60条Android开发注意事项与经验总结
- 关于在真实物理机器上用cloudermanger或ambari搭建大数据集群注意事项总结、经验和感悟心得(图文详解)
- 面试非技术经验or注意事项总结...
- 几个DSP高手的经验介绍,编写基于DSP程序的注意事项
- 几个DSP高手的经验介绍,编写基于DSP程序的注意事项
- 总结出来的一些ASP.NET程序性能优化的注意事项[不断补充]
- iis设置时候注意事项——自己的经验
- jQuery语法总结和注意事项
- 分区表SPLIT过程和注意事项【SPLIT OF PARTITION TABLE PROCEDURE AND TIPS】
- 从kernel源代码的角度分析signal的错误用法和注意事项
- 301重定向经验、建议、注意事项
- jQuery语法总结和注意事项(节摘)
- 转载:离职了,总结的一些系统分析的经验
- jQuery 语法总结和注意事项
- 初学SWT的一些经验分享以及注意事项
- 系统分析中写 需求说明书 的方法--个人经验总结
- Hql语句注意事项总结