您的位置:首页 > 其它

NGS项目六:R语言与Bioconductor分析affymetrix芯片

2015-06-10 22:57 453 查看
6.1 数据输入与预处理

从数据包CLL中载入芯片数据,完成预处理

在bioConductor使用RMA算法预处理基因芯片原始数据。首先,去http://www.affymetrix.com/support/technical/sample_data/demo_data.affx下载一些示例数据文件下来。这里,使用Arabidopsis-AGAGCC数据示例。我们先把下载下来的文件解压后拷贝ArabidopsisATH1-121502.CEL文件至R工作文件夹(R的工作目录)下。

6.2 质量控制

为了验证杂交的质量,Affymetrix公司还加入了两类嵌入探针组(Spike-inprobesets):一类是poly-A内参,另一类师杂交内参。

原始图像(DAT文件)级别的质量控制一般用各芯片公司自带的软件自动完成。Affymetrix公司在指导手册中详细描述了一些指标:尺度因子;检测值;平均背景噪声;标准内参

获取质量分析报告,QCStats包含三项指标:尺度因子、GAPDH3'/5'比值和actin3'/5'值。

权重残差图用了加权最小二乘法来进行回归。

相对对数表达(RLE)箱线图可以反映上述趋势,它定义为一个探针组在某个样品的表达值除以该探针组在所有样品中表达值的中位数后区对数。

RNA降解曲线的斜率越小,说明降解较少;反之,则降解较多。

6.3 背景校正和标准化

使各次/组测量或各种实验条件下的测量可以相互比较,消除测量间的非实验差异

在PM-MM探针设计中,MM探针是有效的内参照,它们与PM探针一样可以和非特异性序列结合,这样,就可以将不同来源的样品中的背景信号有效的定量扣除。这种独特的设计对于区分特异性和非特异性杂交是相当灵敏的。比较那些单一的基因探针来说,PM-MM探针的高特异性和灵敏度更适合检测低丰度表达的基因。

背景校正有三种:bg.correct\mas\rma;标准化有八种:constant\contrasts\invariantset\loess\methods\qspline\quantiles\quantiles.robust;PM校正有四种:

mas\methods\pmonly和subtractmm;汇总的方法有五种:avgdiff\liwong\mas\medianpolish\playerout。

6.4 基因芯片数据分析

选取差异表达基因:

确定差异表达的基因(用SAM,limma,或者,EDGE);经验贝叶斯是当前最为常用的分析方法,它已经完整地有Bioconductor中的limma包实现;几个Probe对应一个基因的要合并表达水平值(取平均值,中值,或者最大值)。。

构建基因表达矩阵、构建试验设计矩阵、构建对比模型(对比矩阵)、线性模型拟合、贝叶斯检验和生产结果报告。

对差异基因进行注释:

注释本质上就是一个ID映射的过程;确定GeneSymbol(从GEO查得对应的GPL,下载对应的文件即可获得GeneID,GeneTitle,GeneSymbol);

统计分析基可视化:GO和KEGG富集分析。Bioconductor调用pheatmap包来绘制差异表达谱热图;调用Rgraphviz包来绘制显著富集的GOterm的关系图;最后绘制显著富集的KEGG通路的关系图和热图。

参考:

1http://www.affymetrix.com/support/technical/sample_data/demo_data.affx

2http://wenku.baidu.com/link?url=gB403huw9sEPEotJ3FG1sejuIVdhUb8kXlYutQzhn6GYiuyl690EH2AYtem68dD6N-CklJkGZ3YhgJ69k74j88hJ1UpQSxNe0RJHLB6AgHq
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: