数据处理流程总结
2018-03-10 18:21
190 查看
爬虫:
1.工具 python requests包,伪造header,IP池代理
2ThreadPoolExecutor模块,多进程抓取未成功获得的网页池。
做一个爬取成功URL池listyes 和 不成功URL池子listno,初始赋值listno=全部URL。每次只从失败的listno中进行
#多线程
def multithreading():
number = listno #每次爬取未爬取成功的页
event = []
with ThreadPoolExecutor(max_workers=10) as executor:
for result in executor.map(network_programming,
number, chunksize=10):
event.append(result)
return event
event = multithreading()
for i in event:
爬虫成功
listyes.append(页码)
listno.remove(页码)
3.随机等待
4.从抓下来的html中 re正则表达式 或者xpath方式 抓想要的目标。BEAUTIFULSOUP BS4包好用
遇到验证码,可考虑采用机器学习类数字识别api暴力破解。
当未成功抓取的网页池为空,或者总运行时间到达预期,over
数据导出:
把数据导出为csv或者html,或者conn连接数据库(MYSQLDB包),导入到数据库
数据清洗:
去重,空白纸填充...... 数据标准化
可用工具excel,SPSS ,PYTHON
EXCEL自带拆分工具,有效针对如图原生的list输出的csv:
用逗号,分列就完事了
同理,python split函数也是隔开 “,”
考虑 某些连续变量 远比 其它变量 大小范围广 , 考虑 取对数 , 或者 X1-Xmin/Xmax-Xmin
数据建模和分析
1 SPSS MODLER 引用数据,建立 流。
选出 检验结果最好的N个算法模型 ,对它们再取 权重 ,完成 混合模型
2 machine learning:
1. 其实SPSS MODLER本身也是是用机器学习算法 进行 分类和回归的
2. PYTHON 的 SKLEARN 包
3. 谷歌 TEBSORFLOW ,谷歌全开源 ,还有中文教程
考虑 训练集 ,验证集(google tensorflw教程提倡以此来微调参数), 检验集
算法(术):线性回归,决策树,贝叶斯,SVM,K近邻 , K均值 ,神经网络(若隐藏层大于2,就算深度学习了吧)
思路(道):梯度下降,贪婪算法
3 普通商务企业,数据量小于 10万的话,还是excel 吧。散点图、直方图、饼图,国企和非互联网企业最为常用
可视化可考虑 PYTHON matplotlib
文字:jieba分词、wordcloud可视化
数据柱形图可视化 barh
数据直方图可视化 hist
数据散点图可视化 scatter
数据回归分析可视化 regplot
1.工具 python requests包,伪造header,IP池代理
2ThreadPoolExecutor模块,多进程抓取未成功获得的网页池。
做一个爬取成功URL池listyes 和 不成功URL池子listno,初始赋值listno=全部URL。每次只从失败的listno中进行
#多线程
def multithreading():
number = listno #每次爬取未爬取成功的页
event = []
with ThreadPoolExecutor(max_workers=10) as executor:
for result in executor.map(network_programming,
number, chunksize=10):
event.append(result)
return event
event = multithreading()
for i in event:
爬虫成功
listyes.append(页码)
listno.remove(页码)
3.随机等待
4.从抓下来的html中 re正则表达式 或者xpath方式 抓想要的目标。BEAUTIFULSOUP BS4包好用
遇到验证码,可考虑采用机器学习类数字识别api暴力破解。
当未成功抓取的网页池为空,或者总运行时间到达预期,over
数据导出:
把数据导出为csv或者html,或者conn连接数据库(MYSQLDB包),导入到数据库
数据清洗:
去重,空白纸填充...... 数据标准化
可用工具excel,SPSS ,PYTHON
EXCEL自带拆分工具,有效针对如图原生的list输出的csv:
用逗号,分列就完事了
同理,python split函数也是隔开 “,”
考虑 某些连续变量 远比 其它变量 大小范围广 , 考虑 取对数 , 或者 X1-Xmin/Xmax-Xmin
数据建模和分析
1 SPSS MODLER 引用数据,建立 流。
选出 检验结果最好的N个算法模型 ,对它们再取 权重 ,完成 混合模型
2 machine learning:
1. 其实SPSS MODLER本身也是是用机器学习算法 进行 分类和回归的
2. PYTHON 的 SKLEARN 包
3. 谷歌 TEBSORFLOW ,谷歌全开源 ,还有中文教程
考虑 训练集 ,验证集(google tensorflw教程提倡以此来微调参数), 检验集
算法(术):线性回归,决策树,贝叶斯,SVM,K近邻 , K均值 ,神经网络(若隐藏层大于2,就算深度学习了吧)
思路(道):梯度下降,贪婪算法
3 普通商务企业,数据量小于 10万的话,还是excel 吧。散点图、直方图、饼图,国企和非互联网企业最为常用
可视化可考虑 PYTHON matplotlib
文字:jieba分词、wordcloud可视化
数据柱形图可视化 barh
数据直方图可视化 hist
数据散点图可视化 scatter
数据回归分析可视化 regplot
相关文章推荐
- 大数据中日志处理的流程总结(图)
- 大数据处理方法总结
- 大数据量及海量数据处理算法总结
- android RTSP连接服务器和从服务器接收数据的处理流程
- 用Java处理大数据小技巧总结
- 使用CXF开发WebService程序的总结(五):基于Map数据类型处理的的客户端和服务端代码的编写
- HDFS的存储结构以及写入、读取hdfs数据操作流程简单总结
- 总结一下用caffe跑图片数据的研究流程
- 顶点着色器和像素着色器的数据处理流程
- 分享一个程序猿在流程数据查看权限问题的总结
- C# UDP服务编程,数据处理流程设计(抛砖引玉)
- 关乎echarts中x轴数据太多,溢出的处理方案总结
- Eclipse rcp/rap 开发经验总结(14) -rap 图片、数据缓存处理
- Django运行方式及处理流程总结
- javaweb学习总结(三十四)——使用JDBC处理MySQL大数据
- 使用Spark Streaming处理爬取的数据(问题总结)
- javaweb学习总结(三十四)——使用JDBC处理MySQL大数据
- 大数据量及海量数据的处理方法总结
- JavaWeb学习总结(三十五)——使用JDBC处理Oracle大数据
- 基于MVC+EasyUI的Web开发框架经验总结(12)--利用Jquery处理数据交互的几种方式