您的位置:首页 > 其它

数据处理流程总结

2018-03-10 18:21 190 查看
爬虫:
1.工具 python requests包,伪造header,IP池代理

2ThreadPoolExecutor模块,多进程抓取未成功获得的网页池。
做一个爬取成功URL池listyes 和 不成功URL池子listno,初始赋值listno=全部URL。每次只从失败的listno中进行

    #多线程
    def multithreading():
        number = listno        #每次爬取未爬取成功的页
        event = []

        with ThreadPoolExecutor(max_workers=10) as executor:

            for result in executor.map(network_programming,
                                    number, chunksize=10):
                event.append(result)

    return event

    event = multithreading()

    
    for i in event:
        爬虫成功

        listyes.append(页码)

        listno.remove(页码)

3.随机等待
4.从抓下来的html中 re正则表达式 或者xpath方式 抓想要的目标。BEAUTIFULSOUP BS4包好用
遇到验证码,可考虑采用机器学习类数字识别api暴力破解。
当未成功抓取的网页池为空,或者总运行时间到达预期,over

数据导出:
把数据导出为csv或者html,或者conn连接数据库(MYSQLDB包),导入到数据库

数据清洗:
去重,空白纸填充...... 数据标准化
    可用工具excel,SPSS ,PYTHON

EXCEL自带拆分工具,有效针对如图原生的list输出的csv:



用逗号,分列就完事了



同理,python split函数也是隔开 “,”
考虑 某些连续变量 远比 其它变量 大小范围广 , 考虑 取对数 , 或者 X1-Xmin/Xmax-Xmin

数据建模和分析
1  SPSS MODLER 引用数据,建立 流。



选出 检验结果最好的N个算法模型 ,对它们再取 权重 ,完成 混合模型

2 machine learning:
1. 其实SPSS MODLER本身也是是用机器学习算法 进行 分类和回归的
2. PYTHON 的 SKLEARN 包
3. 谷歌 TEBSORFLOW ,谷歌全开源 ,还有中文教程

考虑 训练集 ,验证集(google tensorflw教程提倡以此来微调参数), 检验集 
算法(术):线性回归,决策树,贝叶斯,SVM,K近邻 , K均值 ,神经网络(若隐藏层大于2,就算深度学习了吧)
思路(道):梯度下降,贪婪算法

3 普通商务企业,数据量小于 10万的话,还是excel 吧。散点图、直方图、饼图,国企和非互联网企业最为常用

可视化可考虑 PYTHON matplotlib
文字:jieba分词、wordcloud可视化
数据柱形图可视化 barh
数据直方图可视化 hist
数据散点图可视化 scatter
数据回归分析可视化 regplot

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: