机器学习——python数据导入、数据理解
2018-01-17 22:33
501 查看
这里导入的数据格是CSV格式
导入方法一:采用python类库导入数据
from csv import reader
import numpy as np
filename = 'pima_data.csv'
#with语句简化了异常的处理,不需要自己再来对文件句柄操作
with open(filename , 'rt') as raw_data:
readers = reader(raw_data)
x = list(readers)
data = np.array(x).astype('float')
print(data.shape)方法二:采用numpy导入数据
from pandas import set_option
filename = 'pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filename,names = names)
print (data.dtypes)
数据的理解from pandas import read_csv
from pandas import set_option
#pandas导入数据
filename = 'pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filename,names = names)
#数据属性与类型,查看每一个字段的数据类型
print (data.dtypes)
#设置输出格式
set_option('display.width',100)
set_option('precision',4)
#数据记录数、平均值、标准差、最小值、下四分位数、中位数、上四分位数、最大值
print (data.describe())
#数据分组分布(用于分类)
print(data.groupby('class').size())
#数据属性的相关性
print(data.corr(method='pearson'))
#数据的分布分析(高斯分布)
#接近0时表示偏差非常小
print(data.skew())
导入方法一:采用python类库导入数据
from csv import reader
import numpy as np
filename = 'pima_data.csv'
#with语句简化了异常的处理,不需要自己再来对文件句柄操作
with open(filename , 'rt') as raw_data:
readers = reader(raw_data)
x = list(readers)
data = np.array(x).astype('float')
print(data.shape)方法二:采用numpy导入数据
from numpy import loadtxt filename = 'pima_data.csv' with open(filename , 'rt') as raw_data: data = loadtxt(raw_data,delimiter=',') print(data.shape)方法三:采用pandas导入数据from pandas import read_csv
from pandas import set_option
filename = 'pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filename,names = names)
print (data.dtypes)
数据的理解from pandas import read_csv
from pandas import set_option
#pandas导入数据
filename = 'pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filename,names = names)
#数据属性与类型,查看每一个字段的数据类型
print (data.dtypes)
#设置输出格式
set_option('display.width',100)
set_option('precision',4)
#数据记录数、平均值、标准差、最小值、下四分位数、中位数、上四分位数、最大值
print (data.describe())
#数据分组分布(用于分类)
print(data.groupby('class').size())
#数据属性的相关性
print(data.corr(method='pearson'))
#数据的分布分析(高斯分布)
#接近0时表示偏差非常小
print(data.skew())
相关文章推荐
- 【机器学习实战-python3】缩减系数来“理解”数据
- python机器学习库sklearn——数据归一化、标准化、特征选择、逻辑回归、贝叶斯分类器、KNN模型、支持向量机、参数优化
- 使用python向Redis批量导入数据
- Python数据分析与机器学习-新闻分类任务
- 《Python机器学习》高清英文版PDF+中文版PDF+源代码及数据集
- Python实战(6)单线程和多线程导入mysql数据对比测试
- python机器学习——数据的分类(knn,决策树,贝叶斯)代码笔记
- 非常全面到位的介绍与源代码地址 :Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
- 机器学习与数据挖掘系列算法之--knn的python实现
- 数据降维之PCA算法的理解(机器学习公开课)
- python用read_csv导入txt文件时的数据丢失问题
- python脚本用sqoop把mysql数据导入hive数据仓库中
- Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱(转)
- 《head first python》——理解数据:列表排序与集合
- 用Python 模块xlrd 操作excel,并将数据导入MySQL
- Python基础:数据类型、变量定义、输入/输出、逻辑、函数/模块(导入)/类、异常处理
- Python将JSON格式数据转换为SQL语句以便导入MySQL数据库
- 现阶段对数据库中知识发现KDD、数据挖掘、集成学习、深度学习、机器学习、人工智能、统计学、大数据、云计算的个人理解:
- Python数据分析与机器学习-贷款申请最大化利润
- 学习Python第三天--简单数据、操作符、分支和循环一些小理解