不错的技术网站
2017-04-25 17:10
239 查看
经典:
http://www.cnblogs.com/jinxiao-pu/p/6706319.html
http://www.cnblogs.com/jinxiao-pu/p/6677782.html?utm_source=tuicool&utm_medium=referral
scrapy selenium phantomJS
http://jiayi.space/post/scrapy-phantomjs-seleniumdong-tai-pa-chong#fb_new_comment
http://blog.csdn.net/qq_30242609/article/details/70859891
phantomjs
http://www.tuicool.com/articles/beeMNj/
http://www.tuicool.com/articles/ARbmmam
http://www.tuicool.com/articles/Qzeiqi2
http://www.tuicool.com/topics/11060064
python scrapy imagespipelines 相关
http://blog.csdn.net/qzc295919009/article/details/42680457
详细解说了imagespipelines相关函数
https://my.oschina.net/jastme/blog/280114
https://segmentfault.com/q/1010000000413334
http://www.cnblogs.com/Shirlies/p/4537931.html
用urllib.urlretrieve 的例子
Python 爬虫:用 Scrapy 框架实现漫画的爬取 http://www.jianshu.com/p/c1704b4dc04d
Scrapy爬取美女图片 简单有效的例子 imagespipelines
http://www.iot-online.com/analytics/2017/042664784.html
scrapy 下载图片 ImagesPipeline
http://m.blog.csdn.net/article/details?id=42680457
m.blog.csdn.net/article/details?id=53677516
http://www.cnblogs.com/tester-l/p/6064212.html
http://www.jianshu.com/p/8d65da080c47
Scrapy爬虫入门教程一 安装和基本使用
Scrapy爬虫入门教程二 官方提供Demo
Scrapy爬虫入门教程三 命令行工具介绍和示例
Scrapy爬虫入门教程四 Spider(爬虫)
Scrapy爬虫入门教程五 Selectors(选择器)
Scrapy爬虫入门教程六 Items(项目)
Scrapy爬虫入门教程七 Item Loaders(项目加载器)
Scrapy爬虫入门教程八 交互式 shell 方便调试
Scrapy爬虫入门教程九 Item Pipeline(项目管道)
Scrapy爬虫入门教程十 Feed exports(导出文件)
Scrapy爬虫入门教程十一 Request和Response(请求和响应)
Scrapy爬虫入门教程十二 Link Extractors(链接提取器)
Scrapy使用以及Xpath的一些坑, 再入剁手 http://www.cnblogs.com/Bright-Star/p/4163107.html?utm_source=tuicool&utm_medium=referral
1.李燕西的博客 http://blog.csdn.net/yancey_blog 关于scrapy的,有多个spider同时工作的
里面还有一个简单的数据库去重 或增量采集的思路 :http://blog.csdn.net/yancey_blog/article/details/53895821
使用scrapy爬取百度贴吧-上海吧: http://ucstudio.iteye.com/blog/2192574
下载图片 scrapy 用 urllib.request.urlretrieve(url, filename = file )
www.tuicool.com/articles/bIBJnqu
网页爬虫--scrapy进阶 www.cnblogs.com/rubinorth/p/5963066.html
1.以使用twisted提供的数据库库来维护一个连接池:
用Python爬取实习信息(Scrapy初体验)http://www.jianshu.com/p/35c0830448c2#
采集水木社区的实习生信息 使用Selenium和Phantomjs的配合 比如适合入门.
Scrapy Pipeline之与数据库交互 http://blog.csdn.net/q_an1314/article/details/51208901?utm_source=tuicool&utm_medium=referral
关于
Scrapy基础——CrawlSpider详解 http://www.jianshu.com/p/0f64297fc912
问题:CrawlSpider如何工作的? 问题:CrawlSpider如何获取rules? 有callback的是由指定的函数处理,没有callback的是由哪个函数处理的?
Scrapy爬虫实例教程(二)---数据存入MySQL http://www.cnblogs.com/mchen/p/5581333.html?utm_source=tuicool&utm_medium=referral
根据Excel文件配置运行多个爬虫 http://www.cnblogs.com/kylinlin/p/5404403.html?utm_source=tuicool&utm_medium=referral
很多时候,我们都需要为每一个单独的网站编写一个爬虫,但有一些情况是你要爬取的几个网站的唯一不同之处在于Xpath表达式不同,此时要分别为每一个网站编写一个爬虫就显得徒劳了,其实可以只使用一个spider就爬取这些相似的网站。
由于我们并不能提前知道URL,所以要从spider中移除start_urls和allowed_domains部分,使用start_requests()方法,对于csv文件中的每一行都产生一个Request对象,并且将字段名和Xpath表达式放入参数request.mate中,传递到parse函数
scrapy爬虫成长日记之将抓取内容写入mysql数据库 www.cnblogs.com/rwxwsblog/p/4572367.html
同时运行多个scrapy爬虫的几种方法(自定义scrapy项目命令) http://www.cnblogs.com/rwxwsblog/p/4578764.html?utm_source=tuicool&utm_medium=referral
python操作mysql http://www.cnblogs.com/wt11/p/6141225.html
一个技术人员python 的小站: http://www.liuyu.live/
scrapy 爬取百度知道,多spider子一个项目中,使用一个pielines https://yq.aliyun.com/articles/69903?spm=5176.100240.searchblog.172.kRZPMN
scrapy 资料1 http://blog.csdn.net/elecjack/article/category/6108703
python中如何用正则表达式匹配汉字
由于 需求原因,需要匹配 提取中文,大量google下,并没有我需要的。花了一个小时大概测试,此utf8中文通过,特留文。
参考: http://hi.baidu.com/nivrrex/blog/item/e6ccaf511d0926888d543071.html http://topic.csdn.net/u/20070404/15/b011aa83-f9b7-43b3-bbff-bfe4f653df03.html
首先,确保所有编码都为 unicode
比如 str.decode('utf8') #从utf8文本中
u"啊l" #在控制台输出中
(罗嗦下)本想使用参考一定编码 Hex 但郁闷的是 这每个字好像占2个位置,使用正则匹配无果。
其次,确定中文范围 : [\u4e00-\u9fa5]
(这里注意下 python 的re写的时候) 要 u"[\u4e00-\u9fa5]"
#确定正则表达式也是 unicode 的
demo :
>>> print re.match(ur"[\u4e00-\u9fa5]+","啊")
None
>>> print re.match(ur"[\u4e00-\u9fa5]+",u"啊")
<_sre.SRE_Match object at 0x2a98981308>
>>> print re.match(ur"[\u4e00-\u9fa5]+",u"t")
None
>>> print tt
现在才明白
>>> tt
'\xe7\x8e\xb0\xe5\x9c\xa8\xe6\x89\x8d\xe6\x98\x8e\xe7\x99\xbd'
>>> print re.match(r"[\u4e00-\u9fa5]",tt.decode('utf8'))
None
>>> print re.match(ur"[\u4e00-\u9fa5]",tt.decode('utf8'))
<_sre.SRE_Match object at 0x2a955d9c60>
>>> print re.match(ur".*["u4e00-"u9fa5]+",u"hi,匹配到了")
<_sre.SRE_Match object at 0x2a955d9c60>
>>> print re.match(ur".*["u4e00-"u9fa5]+",u"hi,no no")
None
里面有一个域名是数据id的排序思路不错:http://www.cnblogs.com/threemore/p/5578372.html
其他 扩充 范围 (转)
这里是几个主要非英文语系字符范围(google上找到的):
2E80~33FFh:中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,中日韩的符号、标点、带圈或带括符文数字、月份,以及日本的假名组合、单位、年号、月份、日期、时间等。
3400~4DFFh:中日韩认同表意文字扩充A区,总计收容6,582个中日韩汉字。
4E00~9FFFh:中日韩认同表意文字区,总计收容20,902个中日韩汉字。
A000~A4FFh:彝族文字区,收容中国南方彝族文字和字根。
AC00~D7FFh:韩文拼音组合字区,收容以韩文音符拼成的文字。
F900~FAFFh:中日韩兼容表意文字区,总计收容302个中日韩汉字。
FB00~FFFDh:文字表现形式区,收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角符号等。
比如需要匹配所有中日韩非符号字符,那么正则表达式应该是^[\u3400-\u9FFF]+$
理论上没错, 可是我到msn.co.ko随便复制了个韩文下来, 发现根本不对, 诡异
再到msn.co.jp复制了个’お’, 也不得行..
然后把范围扩大到^[\u2E80-\u9FFF]+$, 这样倒是都通过了, 这个应该就是匹配中日韩文字的正则表达式了, 包括我們臺灣省還在盲目使用的繁體中文
而关于中文的正则表达式, 应该是^[\u4E00-\u9FFF]+$, 和论坛里常被人提起的^[\u4E00-\u9FA5]+$很接近
需要注意的是论坛里说的^[\u4E00-\u9FA5]+$这是专门用于匹配简体中文的正则表达式, 实际上繁体字也在里面, 我用测试器测试了下’中華人民共和國’, 也通过了, 当然, ^[\u4E00-\u9FFF]+$也是一样的结果。
python分布式爬虫打造搜索引擎--------scrapy实现
http://www.cnblogs.com/jinxiao-pu/p/6706319.html
selenium+python+PhantomJS的使用
http://www.cnblogs.com/jinxiao-pu/p/6677782.html?utm_source=tuicool&utm_medium=referralscrapy selenium phantomJS
http://jiayi.space/post/scrapy-phantomjs-seleniumdong-tai-pa-chong#fb_new_comment
http://blog.csdn.net/qq_30242609/article/details/70859891
phantomjs
http://www.tuicool.com/articles/beeMNj/
http://www.tuicool.com/articles/ARbmmam
http://www.tuicool.com/articles/Qzeiqi2
http://www.tuicool.com/topics/11060064
python scrapy imagespipelines 相关
http://blog.csdn.net/qzc295919009/article/details/42680457
详细解说了imagespipelines相关函数
https://my.oschina.net/jastme/blog/280114
https://segmentfault.com/q/1010000000413334
http://www.cnblogs.com/Shirlies/p/4537931.html
用urllib.urlretrieve 的例子
Python 爬虫:用 Scrapy 框架实现漫画的爬取 http://www.jianshu.com/p/c1704b4dc04d
Scrapy爬取美女图片 简单有效的例子 imagespipelines
http://www.iot-online.com/analytics/2017/042664784.html
scrapy 下载图片 ImagesPipeline
http://m.blog.csdn.net/article/details?id=42680457
m.blog.csdn.net/article/details?id=53677516
http://www.cnblogs.com/tester-l/p/6064212.html
http://www.jianshu.com/p/8d65da080c47
Scrapy爬虫入门教程一 安装和基本使用
Scrapy爬虫入门教程二 官方提供Demo
Scrapy爬虫入门教程三 命令行工具介绍和示例
Scrapy爬虫入门教程四 Spider(爬虫)
Scrapy爬虫入门教程五 Selectors(选择器)
Scrapy爬虫入门教程六 Items(项目)
Scrapy爬虫入门教程七 Item Loaders(项目加载器)
Scrapy爬虫入门教程八 交互式 shell 方便调试
Scrapy爬虫入门教程九 Item Pipeline(项目管道)
Scrapy爬虫入门教程十 Feed exports(导出文件)
Scrapy爬虫入门教程十一 Request和Response(请求和响应)
Scrapy爬虫入门教程十二 Link Extractors(链接提取器)
Scrapy使用以及Xpath的一些坑, 再入剁手 http://www.cnblogs.com/Bright-Star/p/4163107.html?utm_source=tuicool&utm_medium=referral
1.李燕西的博客 http://blog.csdn.net/yancey_blog 关于scrapy的,有多个spider同时工作的
里面还有一个简单的数据库去重 或增量采集的思路 :http://blog.csdn.net/yancey_blog/article/details/53895821
下载图片 scrapy 用 urllib.request.urlretrieve(url, filename = file )
www.tuicool.com/articles/bIBJnqu
网页爬虫--scrapy进阶 www.cnblogs.com/rubinorth/p/5963066.html
1.以使用twisted提供的数据库库来维护一个连接池:
self.dbpool = adbapi.ConnectionPool('MySQLdb',.....) 2.每个spider不同设置。在spider中加入custom_settings即可覆盖settings.py中相应的设置, 这样的话在settings.py中只需要放一些公用的设置就行了。最常用的就是设置每个spider的pipeline。 3.pipeline中spider.name的应用。pipeline中的process_item中可以根据spider.name来对不同的item进行不同的处理。
def process_item(self, item, spider): if spider.name == 'a': **** if spider.name == 'b': ****
用Python爬取实习信息(Scrapy初体验)http://www.jianshu.com/p/35c0830448c2#
采集水木社区的实习生信息 使用Selenium和Phantomjs的配合 比如适合入门.
Scrapy Pipeline之与数据库交互 http://blog.csdn.net/q_an1314/article/details/51208901?utm_source=tuicool&utm_medium=referral
关于
self.dbpool = adbapi.ConnectionPool('MySQLdb'...) 相关的详解
Scrapy基础——CrawlSpider详解 http://www.jianshu.com/p/0f64297fc912
问题:CrawlSpider如何工作的? 问题:CrawlSpider如何获取rules? 有callback的是由指定的函数处理,没有callback的是由哪个函数处理的?
Scrapy爬虫实例教程(二)---数据存入MySQL http://www.cnblogs.com/mchen/p/5581333.html?utm_source=tuicool&utm_medium=referral
self.dbpool = adbapi.ConnectionPool('MySQLdb',**dbargs)
根据Excel文件配置运行多个爬虫 http://www.cnblogs.com/kylinlin/p/5404403.html?utm_source=tuicool&utm_medium=referral
很多时候,我们都需要为每一个单独的网站编写一个爬虫,但有一些情况是你要爬取的几个网站的唯一不同之处在于Xpath表达式不同,此时要分别为每一个网站编写一个爬虫就显得徒劳了,其实可以只使用一个spider就爬取这些相似的网站。
由于我们并不能提前知道URL,所以要从spider中移除start_urls和allowed_domains部分,使用start_requests()方法,对于csv文件中的每一行都产生一个Request对象,并且将字段名和Xpath表达式放入参数request.mate中,传递到parse函数
scrapy爬虫成长日记之将抓取内容写入mysql数据库 www.cnblogs.com/rwxwsblog/p/4572367.html
class MySQLStoreCnblogsPipeline(object): def __init__(self, dbpool): self.dbpool = dbpool @classmethod def from_settings(cls, settings): dbargs = dict( host=settings['MYSQL_HOST'], db=settings['MYSQL_DBNAME'], user=settings['MYSQL_USER'], passwd=settings['MYSQL_PASSWD'], charset='utf8', cursorclass = MySQLdb.cursors.DictCursor, use_unicode= True, ) dbpool = adbapi.ConnectionPool('MySQLdb', **dbargs) return cls(dbpool) #pipeline默认调用 def process_item(self, item, spider): d = self.dbpool.runInteraction(self._do_upinsert, item, spider) d.addErrback(self._handle_error, item, spider) d.addBoth(lambda _: item) return d #将每行更新或写入数据库中
同时运行多个scrapy爬虫的几种方法(自定义scrapy项目命令) http://www.cnblogs.com/rwxwsblog/p/4578764.html?utm_source=tuicool&utm_medium=referral
Python爬虫实战-使用Scrapy框架爬取土巴兔 http://www.jianshu.com/p/5355b467d414
有python 操作mysql python遇见数据采集 http://www.imooc.com/learn/712python操作mysql http://www.cnblogs.com/wt11/p/6141225.html
一个技术人员python 的小站: http://www.liuyu.live/
防止爬虫被ban http://www.jianshu.com/p/e577194e3216
Python爬虫框架Scrapy学习笔记
基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL http://blog.csdn.net/zengsl233/article/details/52294760scrapy 爬取百度知道,多spider子一个项目中,使用一个pielines https://yq.aliyun.com/articles/69903?spm=5176.100240.searchblog.172.kRZPMN
scrapy 资料1 http://blog.csdn.net/elecjack/article/category/6108703
Python 操作 MySQL 的正确姿势 https://www.qcloud.com/community/article/687813?fromSource=gwzcw.97898.97898.97898
Scrapy 爬虫框架入门案例详解 https://www.qcloud.com/community/article/592498?fromSource=gwzcw.106916.106916.106916
python中如何用正则表达式匹配汉字由于 需求原因,需要匹配 提取中文,大量google下,并没有我需要的。花了一个小时大概测试,此utf8中文通过,特留文。
参考: http://hi.baidu.com/nivrrex/blog/item/e6ccaf511d0926888d543071.html http://topic.csdn.net/u/20070404/15/b011aa83-f9b7-43b3-bbff-bfe4f653df03.html
首先,确保所有编码都为 unicode
比如 str.decode('utf8') #从utf8文本中
u"啊l" #在控制台输出中
(罗嗦下)本想使用参考一定编码 Hex 但郁闷的是 这每个字好像占2个位置,使用正则匹配无果。
其次,确定中文范围 : [\u4e00-\u9fa5]
(这里注意下 python 的re写的时候) 要 u"[\u4e00-\u9fa5]"
#确定正则表达式也是 unicode 的
demo :
>>> print re.match(ur"[\u4e00-\u9fa5]+","啊")
None
>>> print re.match(ur"[\u4e00-\u9fa5]+",u"啊")
<_sre.SRE_Match object at 0x2a98981308>
>>> print re.match(ur"[\u4e00-\u9fa5]+",u"t")
None
>>> print tt
现在才明白
>>> tt
'\xe7\x8e\xb0\xe5\x9c\xa8\xe6\x89\x8d\xe6\x98\x8e\xe7\x99\xbd'
>>> print re.match(r"[\u4e00-\u9fa5]",tt.decode('utf8'))
None
>>> print re.match(ur"[\u4e00-\u9fa5]",tt.decode('utf8'))
<_sre.SRE_Match object at 0x2a955d9c60>
>>> print re.match(ur".*["u4e00-"u9fa5]+",u"hi,匹配到了")
<_sre.SRE_Match object at 0x2a955d9c60>
>>> print re.match(ur".*["u4e00-"u9fa5]+",u"hi,no no")
None
里面有一个域名是数据id的排序思路不错:http://www.cnblogs.com/threemore/p/5578372.html
其他 扩充 范围 (转)
这里是几个主要非英文语系字符范围(google上找到的):
2E80~33FFh:中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,中日韩的符号、标点、带圈或带括符文数字、月份,以及日本的假名组合、单位、年号、月份、日期、时间等。
3400~4DFFh:中日韩认同表意文字扩充A区,总计收容6,582个中日韩汉字。
4E00~9FFFh:中日韩认同表意文字区,总计收容20,902个中日韩汉字。
A000~A4FFh:彝族文字区,收容中国南方彝族文字和字根。
AC00~D7FFh:韩文拼音组合字区,收容以韩文音符拼成的文字。
F900~FAFFh:中日韩兼容表意文字区,总计收容302个中日韩汉字。
FB00~FFFDh:文字表现形式区,收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角符号等。
比如需要匹配所有中日韩非符号字符,那么正则表达式应该是^[\u3400-\u9FFF]+$
理论上没错, 可是我到msn.co.ko随便复制了个韩文下来, 发现根本不对, 诡异
再到msn.co.jp复制了个’お’, 也不得行..
然后把范围扩大到^[\u2E80-\u9FFF]+$, 这样倒是都通过了, 这个应该就是匹配中日韩文字的正则表达式了, 包括我們臺灣省還在盲目使用的繁體中文
而关于中文的正则表达式, 应该是^[\u4E00-\u9FFF]+$, 和论坛里常被人提起的^[\u4E00-\u9FA5]+$很接近
需要注意的是论坛里说的^[\u4E00-\u9FA5]+$这是专门用于匹配简体中文的正则表达式, 实际上繁体字也在里面, 我用测试器测试了下’中華人民共和國’, 也通过了, 当然, ^[\u4E00-\u9FFF]+$也是一样的结果。
相关文章推荐
- [备忘]一个不错的图形技术网站
- 学习XHTML、CSS、DIV、Javascript,AJAX等页面技术的不错网站
- 需要关注的技术网站 & 不错的个人博客站点
- 一个不错的技术文章网站
- 搜集的一些不错的技术分享和知识整理的网站
- 不错的英文技术网站
- 哎呦!天津网站建设-文率科技建站技术不错哦!
- 比较不错的技术网站
- 一个不错的虚拟技术网站
- 国防科技论坛,一个不错的技术资料分享网站
- 一个不错的自学网站,各种技术应用尽有
- 一个不错的网站,搞技术的可以点点看偶
- 推荐你认为最不错的3-5个技术或IT社区网站,谢谢!
- 一个不错的技术视频学习网站:http://bbs.langsin.com/index.php?fromuid=58264
- 推荐一个不错的网站 REFCARDZ(IT开发技术相关)
- 整理的一些个人觉得不错的国外【图形学】技术论坛和个人网站,以后还会陆续更新
- 一个不错的 DPDK & OVS & HyperScan 技术网站; http://syswift.com/
- 几个技术不错的技术网站
- 2个不错的web技术网站 webgl等
- 偶然发现一个不错的处理二手计算机技术书籍的网站