R入门知识学习
2016-02-04 13:02
204 查看
R是最受欢迎的数据分析和可视化平台之一,2011年R随着大数据的爆发而流行起来,
R是免费的,开源的,支持windows/Mac os/Linux平台
R可以挖槽数据分析涉及的几乎所有步骤:从数据获取到数据清洗到数据分析到结果报告
https://www.kaggle.coms
数据分析包括:
1、探索性数据分析
a、数据分析中必要步骤
b、了解数据
c、作图
2、统计推断
基于数据得出正式结论的过程
3、回归分析
线性模型拟合数据: a、预测变量 b、结果变量
预测
4、机器学习-分类问题
a、训练模型+预测 (运用海量数据进行训练模型)
b、分类问题
5、开发数据产品
6、汇总结果报告并发布
如:Predicting the manner in which people did exercise
首先,在报告开始我就该告诉别人我的数据来自哪里,我的目标是什么?
其次,数据探索性分析(Exploratory data analysis)
然后,了解数据的维度,对数据进行预处理 (Data Preprocessing)
牢记包library(caret) 进行机器学习的强大的包。
当我们大数据进行了预处理,之后我们可以开始建立自己的模型了。
我们一般会把数据划分成训练集和测试集(Accuracy check on both traning dataset and cross validation dataset (out of sample error))
Applying random forest model to testing data
开发数据产品:
(1)GoogleVis API
-R制作html,调用Google charts
-交互式html图表
(2)R中的Manipulate,可以实现人机交互
(3)rCharts
-使用R制作交互式javascript可视化产品
(4)Shiny
-制作嵌入式网页的交互式R程序平台
(5)Slidify
-制作和发布基于R的报告(ppt)
如:shinyapps.io
https://angelayuan.shinyapps.io/predict_bodyfat/http://write.blog.csdn.net/postedit/50631328
RPubs
//--------------------------------分割线-----------------------------------------http://write.blog.csdn.net/postedit/50631328--//
Rhttps://cran.r-project.org/与安装Rstudio的获取http://write.blog.csdn.net/postedit/50631328
rstudio.com
关于包(package)
-扩展R基本功能的机制/集成了众多函数。
-CRAN/Bioconductor/GitHub等
-install.packages()
-install_github()
我们通常不是在https://cran.r-project.org/下载后,再安装的,我们是在Rstudio中进行安装的。
http://write.blog.csdn.net/postedit/50631328
获取帮助
-?函数名(R的帮助文档)
-常用的网站是Google/Stackoverflow
//--------------------------------------------分割线--------------------------------------------------//
数据结构
对应的5种基本类型:
-字符(character)
-数值(numeric:real numbers)
-整数(integer)
-逻辑(logical:True/False)
在Rstudio中
给X赋值:x <- 1
class(x) 查看的类型
x <- 2L 则数据类型是“integer”
R中的真与假都要大写出来
向量(vector)
-只能包含同一个类型的对象
x <-vector("character",length=10) 向量的类型和个数
x1 <- 1:4 表示int [1:4] 1 2 3 4
x2<- c(1,2,3,4) 表示num [1:4] 1 2 3 4
x3<- c(TRUE,10 ,"a") 表示chr [1:3]"TRUE" "10" "a" 即R强制把转换成chr
as.numeric(X)强制转换
as.logical()
as.character()
R是免费的,开源的,支持windows/Mac os/Linux平台
R可以挖槽数据分析涉及的几乎所有步骤:从数据获取到数据清洗到数据分析到结果报告
https://www.kaggle.coms
数据分析包括:
1、探索性数据分析
a、数据分析中必要步骤
b、了解数据
c、作图
2、统计推断
基于数据得出正式结论的过程
3、回归分析
线性模型拟合数据: a、预测变量 b、结果变量
预测
4、机器学习-分类问题
a、训练模型+预测 (运用海量数据进行训练模型)
b、分类问题
5、开发数据产品
6、汇总结果报告并发布
如:Predicting the manner in which people did exercise
首先,在报告开始我就该告诉别人我的数据来自哪里,我的目标是什么?
其次,数据探索性分析(Exploratory data analysis)
然后,了解数据的维度,对数据进行预处理 (Data Preprocessing)
牢记包library(caret) 进行机器学习的强大的包。
当我们大数据进行了预处理,之后我们可以开始建立自己的模型了。
我们一般会把数据划分成训练集和测试集(Accuracy check on both traning dataset and cross validation dataset (out of sample error))
Applying random forest model to testing data
开发数据产品:
(1)GoogleVis API
-R制作html,调用Google charts
-交互式html图表
(2)R中的Manipulate,可以实现人机交互
(3)rCharts
-使用R制作交互式javascript可视化产品
(4)Shiny
-制作嵌入式网页的交互式R程序平台
(5)Slidify
-制作和发布基于R的报告(ppt)
如:shinyapps.io
https://angelayuan.shinyapps.io/predict_bodyfat/http://write.blog.csdn.net/postedit/50631328
RPubs
//--------------------------------分割线-----------------------------------------http://write.blog.csdn.net/postedit/50631328--//
Rhttps://cran.r-project.org/与安装Rstudio的获取http://write.blog.csdn.net/postedit/50631328
rstudio.com
关于包(package)
-扩展R基本功能的机制/集成了众多函数。
-CRAN/Bioconductor/GitHub等
-install.packages()
-install_github()
我们通常不是在https://cran.r-project.org/下载后,再安装的,我们是在Rstudio中进行安装的。
http://write.blog.csdn.net/postedit/50631328
获取帮助
-?函数名(R的帮助文档)
-常用的网站是Google/Stackoverflow
//--------------------------------------------分割线--------------------------------------------------//
数据结构
对应的5种基本类型:
-字符(character)
-数值(numeric:real numbers)
-整数(integer)
-逻辑(logical:True/False)
在Rstudio中
给X赋值:x <- 1
class(x) 查看的类型
x <- 2L 则数据类型是“integer”
R中的真与假都要大写出来
向量(vector)
-只能包含同一个类型的对象
x <-vector("character",length=10) 向量的类型和个数
x1 <- 1:4 表示int [1:4] 1 2 3 4
x2<- c(1,2,3,4) 表示num [1:4] 1 2 3 4
x3<- c(TRUE,10 ,"a") 表示chr [1:3]"TRUE" "10" "a" 即R强制把转换成chr
as.numeric(X)强制转换
as.logical()
as.character()
相关文章推荐
- javascript脚本从载入浏览器到显示执行的过程解析
- JavaEE中的事务
- HDU 2087 剪花布条 KMP入门
- 大型网站架构系列:20本技术书籍推荐
- HDU 1114(完全背包)
- vi 替换命令“找不到模式”解决
- javascript中函数声明、变量声明以及变量赋值之间的关系与影响
- 设计模式(3)--适配器模式
- I2C Bus
- 孩子的小伙伴从哪里来?
- 修改tomcat小猫图标,设置项目的favicon图标
- java后台框架 springmvc mybatis(sqlsever oracle 和 mysql数据库)
- UML类图的箭头含义
- 【Linux shell】 Shell编程中的条件判断
- web.xml的配置及加载顺序
- 短视频APP+不同类型社交应用发展分析+化妆品电商
- Unity访问Access数据库
- Unity访问Access数据库
- servlet、filter、listener继承的基类和获得作用域的方式
- servlet的执行原理与生命周期