您的位置：首页 > 其它

数据处理流程总结

2018-03-10 18:21 190 查看

爬虫：
1.工具 python requests包，伪造header，IP池代理

2ThreadPoolExecutor模块，多进程抓取未成功获得的网页池。
做一个爬取成功URL池listyes 和不成功URL池子listno,初始赋值listno=全部URL。每次只从失败的listno中进行

#多线程
def multithreading():
number = listno #每次爬取未爬取成功的页
event = []

with ThreadPoolExecutor(max_workers=10) as executor:

for result in executor.map(network_programming,
number, chunksize=10):
event.append(result)

    return event

event = multithreading()


    for i in event:
      爬虫成功

      listyes.append(页码)

    listno.remove(页码)

3.随机等待
4.从抓下来的html中 re正则表达式或者xpath方式抓想要的目标。BEAUTIFULSOUP BS4包好用
遇到验证码，可考虑采用机器学习类数字识别api暴力破解。
当未成功抓取的网页池为空，或者总运行时间到达预期，over

数据导出：
把数据导出为csv或者html，或者conn连接数据库（MYSQLDB包），导入到数据库

数据清洗：
去重，空白纸填充...... 数据标准化
可用工具excel，SPSS ,PYTHON

EXCEL自带拆分工具，有效针对如图原生的list输出的csv：

用逗号，分列就完事了

同理，python split函数也是隔开 “，”
考虑某些连续变量远比其它变量大小范围广，考虑取对数，或者 X1-Xmin/Xmax-Xmin

数据建模和分析
1 SPSS MODLER 引用数据，建立流。

选出检验结果最好的N个算法模型，对它们再取权重，完成混合模型

2 machine learning：
1. 其实SPSS MODLER本身也是是用机器学习算法进行分类和回归的
2. PYTHON 的 SKLEARN 包
3. 谷歌 TEBSORFLOW ，谷歌全开源，还有中文教程

考虑训练集，验证集（google tensorflw教程提倡以此来微调参数），检验集
算法（术）：线性回归，决策树，贝叶斯，SVM,K近邻， K均值，神经网络（若隐藏层大于2，就算深度学习了吧）
思路（道）：梯度下降，贪婪算法

3 普通商务企业，数据量小于 10万的话，还是excel 吧。散点图、直方图、饼图，国企和非互联网企业最为常用

可视化可考虑 PYTHON matplotlib
文字：jieba分词、wordcloud可视化
数据柱形图可视化 barh
数据直方图可视化 hist
数据散点图可视化 scatter
数据回归分析可视化 regplot

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航