R语言:TCGA数据分析一
2016-08-13 12:44
453 查看
引言
我最近在做TCGA数据分析,在处理中遇到的问题及其收获。主要包括:case ID 大小写处理
数据的匹配
涉及到的函数有:
小写
tolower大写
toupper单一的局部匹配
grep多个全局匹配
match保留固定长度的字符
substr大小写处理
在RANseqGene中case ID 为大写的,而Clincial中为小写的。需要对case ID 做转换。方案一:大写变小写
tolower(colnames(LUAD_RNAseqGene))
方案二:小写变大写
toupper(rownames(LUAD_Clinical))
匹配
grep
在找tumor 的case ID 时,需要采用这个函数将所有的tumor 找出来。grep("\\.01A",colnames(LUAD_RNAseqGene))
对于normal的查找类似处理。
substr
由于case ID 很长,我们只需要前面的12或16个字符来作为识别验证。substr(colnames(LUAD_Clinical),1,12) # 保留12位
match
RNA中映射到Clinical中,采用这个函数例子
#定义a > a<-c(1,2,3,4) #定义b > b<-c(3,4,5,6,7) #匹配 > match(a,b) [1] NA NA 1 2 #a和b中共同的元素 > a[-which(is.na(match(a,b)))] [1] 3 4 #a和b中共同的元素 > b[match(a,b)] [1] NA NA 3 4 #a中有的元素而不在b中 > a[is.na(match(a,b))] [1] 1 2
注:match的结果长度与a保持一致,NA表示该位置元素不在b中,非NA表示该元素在b中的位置。
相关文章推荐
- R语言为Hadoop集群数据统计分析带来革命性变化
- R语言为Hadoop集群数据统计分析带来革命性变化
- R语言在做为数据分析工具的优点
- 数据分析与R语言视频教程
- R语言与数据分析之二:绘图
- R语言为Hadoop集群数据统计分析带来革命性变化
- R语言与数据分析之六:时间序列简单介绍
- R语言金融数据分析 – 二条均线打天下 中没有给出源码的几个函数的个人实现
- R语言与数据分析 --R语言的基本原理
- R语言与数据分析之四:聚类算法1
- R语言为Hadoop集群数据统计分析带来革命性变化
- 数据分析R语言(1)
- 数据分析与R语言-概念点(一)
- 用R做数据分析(2)——R包介绍 R语言进阶之4:数据整形(reshape)
- 数据分析,展现与R语言学习笔记(1)
- R语言为Hadoop集群数据统计分析带来革命性变化
- R语言 基本数据分析
- 数据分析R语言1
- R语言——数据分析的一把利剑
- R语言与数据分析之五:主成分分析