文章标题
2017-08-12 17:33
190 查看
一、几个大类任务
与外界进行交互读写各种各样的文件格式和数据库
准备
对数据进行清理、修整、整合、规范化、重塑、切片切块、变形等处理以便进行分析
转换
对数据集做一些数学和统计运算以产生新的数据集。
建模和计算
将数据跟统计模型、机器学习算法或其他计算工具联系起来
展示
创建交互式的或静态的图片或文字摘要
二、来自bit.ly的1.usa.gov数据
#读取某文件中的第一行 path='E:/Learning/Python for Data Analysis/pydata-book-master/ch02/usagov_bitly_data2012-03-16-1331923249.txt' open(path).readline()
#将json字符串转换成Python字典对象 import json path ='E:/Learning/Python for Data Analysis/pydata-book-master/ch02/usagov_bitly_data2012-03-16-1331923249.txt' records =[json.loads(line) for line in open(path)] #最后一行表达式,叫做列表推导式,这是一种在一组字符串(或一组别的对象)上执行一条相同操作(如json.loads)的简洁方式
records[0]