扩增子分析QIIME2. 6数据导出Exporting data
2017-08-03 19:14
169 查看
科学网对Markdown排版支持较差,对格式不满意的用户请跳转至 CSDN 或“宏基因组”公众号阅读;
声明:本文为QIIME2官方帮助文档的中文版,由中科院遗传发育所刘永鑫博士翻译并亲测有效,文档翻译己获QIIME2团队官方授权。由于QIIME2更新频繁,如使用中遇到问题请访问QIIME2官方论坛阅读最新版中文帮助。
https://forum.qiime2.org/t/qiime2-1-chinese-manual/838
如中文翻译没有急时更新,新 阅读英文原版 https://docs.qiime2.org
本人将带大家熟悉QIIME2分析流程的不同阶段,导入数据。
最典型的导入数据,是原始测序数据的导入。实际上,我们可以从分析的任何一步导入数据,继续分析。比如合作者提供了biom格式的OTU表,我们可以导入,并进行下游的统计分析。
导入数据可以采用多种方式,包括命令行或图形界面,我们这里主要介绍命令行的方式。
样品清单是包括样品名、文件位置、文件方向三列的csv文件,以pe-64-manifest为例,内容如下:
导入质量值不同编码的两类文件Phred33/64 (一般Phred33比较常见,只有非常老的数据才有Phred64格式)
想了解更多16S/ITS/18S扩增子、宏基因组、宏转录组文献阅读和分析相关文章,快关注“宏基因组”公众号,干货第一时间推送。
系统学习生物信息,快关注“生信宝典”,那里有几千志同道合的小伙伴一起学习。
声明:本文为QIIME2官方帮助文档的中文版,由中科院遗传发育所刘永鑫博士翻译并亲测有效,文档翻译己获QIIME2团队官方授权。由于QIIME2更新频繁,如使用中遇到问题请访问QIIME2官方论坛阅读最新版中文帮助。
https://forum.qiime2.org/t/qiime2-1-chinese-manual/838
如中文翻译没有急时更新,新 阅读英文原版 https://docs.qiime2.org
扩增子分析QIIME2. 5数据导入Importing data
为什么要导入数据?
QIIME2使用了标准文件格式qza和qzv,分别是数据文件和统计图表文件;目的是统一文件格式,方便追溯分析过程。本人将带大家熟悉QIIME2分析流程的不同阶段,导入数据。
最典型的导入数据,是原始测序数据的导入。实际上,我们可以从分析的任何一步导入数据,继续分析。比如合作者提供了biom格式的OTU表,我们可以导入,并进行下游的统计分析。
导入数据可以采用多种方式,包括命令行或图形界面,我们这里主要介绍命令行的方式。
# 安装QIIME2 2017.7,如己安装请跳过 conda update conda conda create -n qiime2-2017.7 --file https://data.qiime2.org/distro/core/qiime2-2017.7-conda-linux-64.txt # 激活工作环境 source activate qiime2-2017.7 # 建立工作目录 mkdir -p qiime2-importing-tutorial cd qiime2-importing-tutorial
导入带质量值的测序数据
地球微生物组标准混样单端数据 “EMP protocol” multiplexed single-end fastq
此类数据标准包括两个文件,扩展名均为fastq.gz,一个是barcode文件,一个是样品混样测序文件。
# 建样品目录 mkdir -p emp-single-end-sequences # 下载 barcode文件 wget -O "emp-single-end-sequences/barcodes.fastq.gz" "https://data.qiime2.org/2017.7/tutorials/moving-pictures/emp-single-end-sequences/barcodes.fastq.gz" # 下载序列文件 wget -O "emp-single-end-sequences/sequences.fastq.gz" "https://data.qiime2.org/2017.7/tutorials/moving-pictures/emp-single-end-sequences/sequences.fastq.gz" # 导入QIIME2格式 qiime tools import \ --type EMPSingleEndSequences \ --input-path emp-single-end-sequences \ --output-path emp-single-end-sequences.qza
地球微生物组标准混样双端数据 “EMP protocol” multiplexed paired-end fastq
此类数据标准包括三个文件,扩展名均为fastq.gz,一个是barcode文件,两个是样品混样测序文件。
# 建样品目录 mkdir -p emp-paired-end-sequences # 下载序列正向和反向文件 wget -O "emp-paired-end-sequences/forward.fastq.gz" "https://data.qiime2.org/2017.7/tutorials/atacama-soils/1p/forward.fastq.gz" wget -O "emp-paired-end-sequences/reverse.fastq.gz" "https://data.qiime2.org/2017.7/tutorials/atacama-soils/1p/reverse.fastq.gz" # 下载barcode文件 wget -O "emp-paired-end-sequences/barcodes.fastq.gz" "https://data.qiime2.org/2017.7/tutorials/atacama-soils/1p/barcodes.fastq.gz" # 导入QIIME2格式 qiime tools import \ --type EMPPairedEndSequences \ --input-path emp-paired-end-sequences \ --output-path emp-paired-end-sequences.qza
样品文件清单格式 “Fastq manifest” formats
# 下载fastq压缩包zip文件,其中的样品和文件清单文件mainfest wget -O "se-33.zip" "https://data.qiime2.org/2017.7/tutorials/importing/se-33.zip" wget -O "se-33-manifest" "https://data.qiime2.org/2017.7/tutorials/importing/se-33-manifest" wget -O "pe-64.zip" "https://data.qiime2.org/2017.7/tutorials/importing/pe-64.zip" wget -O "pe-64-manifest" "https://data.qiime2.org/2017.7/tutorials/importing/pe-64-manifest" # 解压fastq样品文件 unzip -q se-33.zip unzip -q pe-64.zip
样品清单是包括样品名、文件位置、文件方向三列的csv文件,以pe-64-manifest为例,内容如下:
#样品名、文件位置、文件 sample-id,absolute-filepath,direction sample1,$PWD/pe-64/s1-phred64-r1.fastq.gz,forward sample1,$PWD/pe-64/s1-phred64-r2.fastq.gz,reverse sample2,$PWD/pe-64/s2-phred64-r1.fastq.gz,forward sample2,$PWD/pe-64/s2-phred64-r2.fastq.gz,reverse
导入质量值不同编码的两类文件Phred33/64 (一般Phred33比较常见,只有非常老的数据才有Phred64格式)
# 导入Phred33格式测序结果 qiime tools import \ --type 'SampleData[SequencesWithQuality]' \ --input-path se-33-manifest \ --output-path single-end-demux.qza \ --source-format SingleEndFastqManifestPhred33 # 导入Phred64格式测序结果 qiime tools import \ --type 'SampleData[PairedEndSequencesWithQuality]' \ --input-path pe-64-manifest \ --output-path paired-end-demux.qza \ --source-format PairedEndFastqManifestPhred64
导入OTU表Biom文件
BIOM v1.0.0
# 下载数据并导入为QIIME2的qza格式 wget -O "feature-table-v100.biom" "https://data.qiime2.org/2017.7/tutorials/importing/feature-table-v100.biom" qiime tools import \ --input-path feature-table-v100.biom \ --type 'FeatureTable[Frequency]' \ --source-format BIOMV100Format \ --output-path feature-table-1.qza
BIOM v2.1.0
wget -O "feature-table-v210.biom" "https://data.qiime2.org/2017.7/tutorials/importing/feature-table-v210.biom" qiime tools import \ --input-path feature-table-v210.biom \ --type 'FeatureTable[Frequency]' \ --source-format BIOMV210Format \ --output-path feature-table-2.qza
代表性序列 Per-feature unaligned sequence data
wget -O "sequences.fna" "https://data c690 .qiime2.org/2017.7/tutorials/importing/sequences.fna" qiime tools import \ --input-path sequences.fna \ --output-path sequences.qza \ --type 'FeatureData[Sequence]'
多序列比对后的代表性序列导入(多序列比对后的序列中包括减号,表示比对的gap) Per-feature unaligned sequence data
wget -O "aligned-sequences.fna" "https://data.qiime2.org/2017.7/tutorials/importing/aligned-sequences.fna" qiime tools import \ --input-path aligned-sequences.fna \ --output-path aligned-sequences.qza \ --type 'FeatureData[AlignedSequence]'
无根进化树导入 Phylogenetic trees (unrooted)
wget -O "unrooted-tree.tre" "https://data.qiime2.org/2017.7/tutorials/importing/unrooted-tree.tre" qiime tools import \ --input-path unrooted-tree.tre \ --output-path unrooted-tree.qza \ --type 'Phylogeny[Unrooted]'
Reference
https://docs.qiime2.org/2017.7/tutorials/importing/想了解更多16S/ITS/18S扩增子、宏基因组、宏转录组文献阅读和分析相关文章,快关注“宏基因组”公众号,干货第一时间推送。
系统学习生物信息,快关注“生信宝典”,那里有几千志同道合的小伙伴一起学习。
相关文章推荐
- 扩增子分析QIIME2. 8数据筛选Filtering data
- 扩增子分析QIIME2. 5数据导入Importing data
- 股票数据导出分析(一)---数据导入MySQL以及网页表格简单show出来
- 深入分析Mongodb数据的导入导出
- MySQL数据导入导出方法与工具介绍(3-Exporting Data)
- RPGJS 进阶分析之 如何使用RMXP导出的数据
- 数据分析(7):pandas介绍和数据导入和导出
- 扩增子分析QIIME2. 9训练特征分类集Training feature classifiers with q2-feature-classifier
- 润乾报表百万级数据量导出EXCEL解决方案分析
- jasperReport+ireport实现报表导出和数据分析
- 深入分析Mongodb数据的导入导出
- MySQL数据导入导出方法与工具介绍(3-Exporting Data)
- Python数据分析-数据处理-数据导入与导出
- awr导出分析数据【转自春哥】
- 把signaltap 里的数据导出到Matlab分析的方法
- 陈经纶学校分析数据导出情况
- mysql数据库在不同的服务器,无法进行数据传输,或者导入导出数据错误,原因分析
- 客户关系管理系统中对客户及相关数据的导入导出分析处理
- ORCLE数据库 使用数据泵方式导入导出数据的误区分析