Fold Change和t分布
2016-01-18 16:36
141 查看
基因表达谱数据
基因表达谱可以用一个矩阵来表示,每一行代表一个基因,每一列代表一个样本(如图1)。所有基因的表达谱数据在“gene_exp.txt”文件中存储,第一列为基因的entrez geneid,第2~61列是疾病样本的表达,第62~76列是正常样本的表达。
图1 基因表达谱的矩阵表示
寻找差异表达的基因:
原理介绍:
差异表达分析是目前比较常用的识别疾病相关miRNA以及基因的方法,目前也有很多差异表达分析的方法,但比较简单也比较常用的是Fold change方法。它的优点是计算简单直观,缺点是没有考虑到差异表达的统计显著性;通常以2倍差异为阈值,判断基因是否差异表达。Fold change的计算公式如下:
即用疾病样本的表达均值除以正常样本的表达均值。
差异表达分析的目的:识别两个条件下表达差异显著的基因,即一个基因在两个条件中的表达水平,在排除各种偏差后,其差异具有统计学意义。我们利用一种比较常见的T检验(T-test)方法来寻找差异表达的miRNA。T检验的主要原理为:对每一个miRNA计算一个T统计量来衡量疾病与正常情况下miRNA表达的差异,然后根据t分布计算显著性p值来衡量这种差异的显著性,T统计量计算公式如下:
对于得到的显著性p值,我们需要进行多重检验校正(FDR),比较常用的是BH方法(Benjamini and Hochberg, 1995)。
基因表达谱可以用一个矩阵来表示,每一行代表一个基因,每一列代表一个样本(如图1)。所有基因的表达谱数据在“gene_exp.txt”文件中存储,第一列为基因的entrez geneid,第2~61列是疾病样本的表达,第62~76列是正常样本的表达。
图1 基因表达谱的矩阵表示
寻找差异表达的基因:
原理介绍:
差异表达分析是目前比较常用的识别疾病相关miRNA以及基因的方法,目前也有很多差异表达分析的方法,但比较简单也比较常用的是Fold change方法。它的优点是计算简单直观,缺点是没有考虑到差异表达的统计显著性;通常以2倍差异为阈值,判断基因是否差异表达。Fold change的计算公式如下:
即用疾病样本的表达均值除以正常样本的表达均值。
差异表达分析的目的:识别两个条件下表达差异显著的基因,即一个基因在两个条件中的表达水平,在排除各种偏差后,其差异具有统计学意义。我们利用一种比较常见的T检验(T-test)方法来寻找差异表达的miRNA。T检验的主要原理为:对每一个miRNA计算一个T统计量来衡量疾病与正常情况下miRNA表达的差异,然后根据t分布计算显著性p值来衡量这种差异的显著性,T统计量计算公式如下:
对于得到的显著性p值,我们需要进行多重检验校正(FDR),比较常用的是BH方法(Benjamini and Hochberg, 1995)。
相关文章推荐
- 答案是什么
- 关于C++ const 的全面总结
- Scala编程之螺旋
- Log4j.properties配置
- FT系列touch---------suspend和resume的实现
- 逗号表达式
- php中__autoload()方法详解
- IOS开发教程--关于点击IPHONE手机标题栏无法滚动到最顶端问题
- 深入学习jQuery Validate表单验证(二)
- PHP 5.0 的 新特性
- php中的short_open_tag的作用
- ORA-28001: the password has expired
- android中常见的内存泄露场景
- 备忘录模式
- excel 中任意几个数相加后等于一个数
- 网站发布后在IIS上定时执行任务
- C++中使用TinyXML2
- Android Studio 解决方法数超过65536,导致dex无法生成的问题
- Summary of Amazon Marketplace Web Service
- GlusterFS无法启动原因及处理方案