您的位置:首页 > 编程语言 > Python开发

机器学习——python数据导入、数据理解

2018-01-17 22:33 501 查看
这里导入的数据格是CSV格式
导入方法一:采用python类库导入数据
from csv import reader
import numpy as np
filename = 'pima_data.csv'
#with语句简化了异常的处理,不需要自己再来对文件句柄操作
with open(filename , 'rt') as raw_data:
readers = reader(raw_data)
x = list(readers)
data = np.array(x).astype('float')
print(data.shape)方法二:采用numpy导入数据
from numpy import loadtxt
filename = 'pima_data.csv'
with open(filename , 'rt') as raw_data:
data = loadtxt(raw_data,delimiter=',')
print(data.shape)
方法三:采用pandas导入数据from pandas import read_csv
from pandas import set_option
filename = 'pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filename,names = names)
print (data.dtypes)

数据的理解from pandas import read_csv
from pandas import set_option
#pandas导入数据
filename = 'pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filename,names = names)
#数据属性与类型,查看每一个字段的数据类型
print (data.dtypes)
#设置输出格式
set_option('display.width',100)
set_option('precision',4)
#数据记录数、平均值、标准差、最小值、下四分位数、中位数、上四分位数、最大值
print (data.describe())
#数据分组分布(用于分类)
print(data.groupby('class').size())
#数据属性的相关性
print(data.corr(method='pearson'))
#数据的分布分析(高斯分布)
#接近0时表示偏差非常小
print(data.skew())

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐