您的位置:首页 > 其它

文本挖掘需要的技术栈

2017-03-27 11:31 148 查看
目地

技术栈
数据爬取方式
urllibRequests

Beautiful Soup

Selenium-PhantomJS

爬取框架
Scrapy

分布式爬虫

数据存储
MySql存储

分布式存储-NoSQL数据库

HDFS存储

Elastic Search存储

其他分布式存储方案

爬虫技巧
表单处理

模拟登陆

验证码处理

爬虫代理池

网页内容处理

爬虫容错

文本挖掘库
NLTK

TextBlob文本处理库

分词库

词云

文本挖掘相关概念
文本预处理

文本特征处理

文本聚类

深度学习与文本处理

案例

目地

掌握网络信息的获取方法,熟练的进行文本分析处理

技术栈

数据爬取方式

urllib/Requests

Beautiful Soup

Selenium-PhantomJS

爬取框架

Scrapy

分布式爬虫

数据存储

MySql存储

分布式存储-NoSQL数据库

HDFS存储

Elastic Search存储

其他分布式存储方案

爬虫技巧

表单处理

模拟登陆

验证码处理

爬虫代理池

网页内容处理

爬虫容错

文本挖掘库

NLTK

TextBlob文本处理库

分词库

词云

文本挖掘相关概念

文本预处理

文本特征处理

文本聚类

深度学习与文本处理

案例

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: