您的位置：首页 > 运维架构 > 网站架构

不错的技术网站

2017-04-25 17:10 239 查看

经典：

python分布式爬虫打造搜索引擎--------scrapy实现

http://www.cnblogs.com/jinxiao-pu/p/6706319.html

selenium+python+PhantomJS的使用

http://www.cnblogs.com/jinxiao-pu/p/6677782.html?utm_source=tuicool&utm_medium=referral

scrapy selenium phantomJS

http://jiayi.space/post/scrapy-phantomjs-seleniumdong-tai-pa-chong#fb_new_comment

http://blog.csdn.net/qq_30242609/article/details/70859891

phantomjs

http://www.tuicool.com/articles/beeMNj/

http://www.tuicool.com/articles/ARbmmam

http://www.tuicool.com/articles/Qzeiqi2

http://www.tuicool.com/topics/11060064

python scrapy imagespipelines 相关　

http://blog.csdn.net/qzc295919009/article/details/42680457

详细解说了imagespipelines相关函数

https://my.oschina.net/jastme/blog/280114

https://segmentfault.com/q/1010000000413334

http://www.cnblogs.com/Shirlies/p/4537931.html

用urllib.urlretrieve　的例子

Python 爬虫：用 Scrapy 框架实现漫画的爬取　　http://www.jianshu.com/p/c1704b4dc04d

Scrapy爬取美女图片简单有效的例子 imagespipelines
http://www.iot-online.com/analytics/2017/042664784.html

scrapy 下载图片 ImagesPipeline
http://m.blog.csdn.net/article/details?id=42680457

m.blog.csdn.net/article/details?id=53677516

http://www.cnblogs.com/tester-l/p/6064212.html

http://www.jianshu.com/p/8d65da080c47

Scrapy爬虫入门教程一安装和基本使用

Scrapy爬虫入门教程二官方提供Demo

Scrapy爬虫入门教程三命令行工具介绍和示例

Scrapy爬虫入门教程四 Spider（爬虫）

Scrapy爬虫入门教程五 Selectors（选择器）

Scrapy爬虫入门教程六 Items（项目）

Scrapy爬虫入门教程七 Item Loaders（项目加载器）

Scrapy爬虫入门教程八交互式 shell 方便调试

Scrapy爬虫入门教程九 Item Pipeline（项目管道）

Scrapy爬虫入门教程十 Feed exports（导出文件）

Scrapy爬虫入门教程十一 Request和Response（请求和响应）

Scrapy爬虫入门教程十二 Link Extractors（链接提取器）

Scrapy使用以及Xpath的一些坑, 再入剁手 http://www.cnblogs.com/Bright-Star/p/4163107.html?utm_source=tuicool&utm_medium=referral

1.李燕西的博客 http://blog.csdn.net/yancey_blog 关于scrapy的，有多个spider同时工作的

里面还有一个简单的数据库去重　或增量采集的思路　：http://blog.csdn.net/yancey_blog/article/details/53895821

使用scrapy爬取百度贴吧-上海吧： http://ucstudio.iteye.com/blog/2192574
下载图片　 scrapy 用　urllib.request.urlretrieve(url, filename = file )
www.tuicool.com/articles/bIBJnqu

网页爬虫--scrapy进阶 www.cnblogs.com/rubinorth/p/5963066.html
1.以使用twisted提供的数据库库来维护一个连接池：

self.dbpool = adbapi.ConnectionPool('MySQLdb',.....)
2.每个spider不同设置。在spider中加入custom_settings即可覆盖settings.py中相应的设置，
这样的话在settings.py中只需要放一些公用的设置就行了。最常用的就是设置每个spider的pipeline。
3.pipeline中spider.name的应用。pipeline中的process_item中可以根据spider.name来对不同的item进行不同的处理。

def process_item(self, item, spider):
if spider.name == 'a':
****
if spider.name == 'b':
****

用Python爬取实习信息（Scrapy初体验）http://www.jianshu.com/p/35c0830448c2#

　　采集水木社区的实习生信息　使用Selenium和Phantomjs的配合　　比如适合入门．

Scrapy Pipeline之与数据库交互　　http://blog.csdn.net/q_an1314/article/details/51208901?utm_source=tuicool&utm_medium=referral

关于

self.dbpool = adbapi.ConnectionPool('MySQLdb'．．．)  相关的详解

Scrapy基础——CrawlSpider详解　http://www.jianshu.com/p/0f64297fc912

问题：CrawlSpider如何工作的？　　问题：CrawlSpider如何获取rules？　　有callback的是由指定的函数处理，没有callback的是由哪个函数处理的？

Scrapy爬虫实例教程（二）---数据存入MySQL　http://www.cnblogs.com/mchen/p/5581333.html?utm_source=tuicool&utm_medium=referral

self.dbpool = adbapi.ConnectionPool('MySQLdb',**dbargs)

根据Excel文件配置运行多个爬虫 http://www.cnblogs.com/kylinlin/p/5404403.html?utm_source=tuicool&utm_medium=referral
很多时候，我们都需要为每一个单独的网站编写一个爬虫，但有一些情况是你要爬取的几个网站的唯一不同之处在于Xpath表达式不同，此时要分别为每一个网站编写一个爬虫就显得徒劳了，其实可以只使用一个spider就爬取这些相似的网站。

由于我们并不能提前知道URL，所以要从spider中移除start_urls和allowed_domains部分，使用start_requests()方法，对于csv文件中的每一行都产生一个Request对象，并且将字段名和Xpath表达式放入参数request.mate中，传递到parse函数

scrapy爬虫成长日记之将抓取内容写入mysql数据库 www.cnblogs.com/rwxwsblog/p/4572367.html

class MySQLStoreCnblogsPipeline(object):
def __init__(self, dbpool):
self.dbpool = dbpool

@classmethod
def from_settings(cls, settings):
dbargs = dict(
host=settings['MYSQL_HOST'],
db=settings['MYSQL_DBNAME'],
user=settings['MYSQL_USER'],
passwd=settings['MYSQL_PASSWD'],
charset='utf8',
cursorclass = MySQLdb.cursors.DictCursor,
use_unicode= True,
)
dbpool = adbapi.ConnectionPool('MySQLdb', **dbargs)
return cls(dbpool)

#pipeline默认调用
def process_item(self, item, spider):
d = self.dbpool.runInteraction(self._do_upinsert, item, spider)
d.addErrback(self._handle_error, item, spider)
d.addBoth(lambda _: item)
return d
#将每行更新或写入数据库中

同时运行多个scrapy爬虫的几种方法（自定义scrapy项目命令） http://www.cnblogs.com/rwxwsblog/p/4578764.html?utm_source=tuicool&utm_medium=referral

Python爬虫实战-使用Scrapy框架爬取土巴兔 http://www.jianshu.com/p/5355b467d414

　　有python 操作mysql python遇见数据采集　http://www.imooc.com/learn/712

python操作mysql http://www.cnblogs.com/wt11/p/6141225.html
一个技术人员python 的小站： http://www.liuyu.live/

防止爬虫被ban http://www.jianshu.com/p/e577194e3216

Python爬虫框架Scrapy学习笔记

基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL http://blog.csdn.net/zengsl233/article/details/52294760
scrapy 爬取百度知道，多spider子一个项目中，使用一个pielines https://yq.aliyun.com/articles/69903?spm=5176.100240.searchblog.172.kRZPMN

scrapy 资料1 http://blog.csdn.net/elecjack/article/category/6108703

Python 操作 MySQL 的正确姿势 https://www.qcloud.com/community/article/687813?fromSource=gwzcw.97898.97898.97898

Scrapy 爬虫框架入门案例详解 https://www.qcloud.com/community/article/592498?fromSource=gwzcw.106916.106916.106916

python中如何用正则表达式匹配汉字

由于需求原因，需要匹配提取中文，大量google下，并没有我需要的。花了一个小时大概测试，此utf8中文通过，特留文。
   参考： http://hi.baidu.com/nivrrex/blog/item/e6ccaf511d0926888d543071.html           http://topic.csdn.net/u/20070404/15/b011aa83-f9b7-43b3-bbff-bfe4f653df03.html
    首先，确保所有编码都为 unicode
   比如 str.decode('utf8') #从utf8文本中
              u"啊l" #在控制台输出中
         (罗嗦下)本想使用参考一定编码 Hex 但郁闷的是这每个字好像占2个位置，使用正则匹配无果。
    其次，确定中文范围 : [\u4e00-\u9fa5]
          (这里注意下 python 的re写的时候) 要  u"[\u4e00-\u9fa5]"
#确定正则表达式也是 unicode 的
    demo :


>>> print re.match(ur"[\u4e00-\u9fa5]+","啊")

None
>>> print re.match(ur"[\u4e00-\u9fa5]+",u"啊")
<_sre.SRE_Match object at 0x2a98981308>

>>> print re.match(ur"[\u4e00-\u9fa5]+",u"t")

None

>>> print tt

现在才明白
>>> tt
'\xe7\x8e\xb0\xe5\x9c\xa8\xe6\x89\x8d\xe6\x98\x8e\xe7\x99\xbd'
>>> print re.match(r"[\u4e00-\u9fa5]",tt.decode('utf8'))

None
>>> print re.match(ur"[\u4e00-\u9fa5]",tt.decode('utf8'))
<_sre.SRE_Match object at 0x2a955d9c60>

>>> print re.match(ur".*["u4e00-"u9fa5]+",u"hi,匹配到了")
<_sre.SRE_Match object at 0x2a955d9c60>
>>> print re.match(ur".*["u4e00-"u9fa5]+",u"hi,no no")

None



里面有一个域名是数据id的排序思路不错：http://www.cnblogs.com/threemore/p/5578372.html

其他扩充范围 (转)

这里是几个主要非英文语系字符范围(google上找到的):
2E80～33FFh：中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符，中日韩的符号、标点、带圈或带括符文数字、月份，以及日本的假名组合、单位、年号、月份、日期、时间等。
3400～4DFFh：中日韩认同表意文字扩充A区，总计收容6,582个中日韩汉字。
4E00～9FFFh：中日韩认同表意文字区，总计收容20,902个中日韩汉字。
A000～A4FFh：彝族文字区，收容中国南方彝族文字和字根。
AC00～D7FFh：韩文拼音组合字区，收容以韩文音符拼成的文字。
F900～FAFFh：中日韩兼容表意文字区，总计收容302个中日韩汉字。
FB00～FFFDh：文字表现形式区，收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角符号等。

比如需要匹配所有中日韩非符号字符,那么正则表达式应该是^[\u3400-\u9FFF]+$

理论上没错, 可是我到msn.co.ko随便复制了个韩文下来, 发现根本不对, 诡异

再到msn.co.jp复制了个’お’, 也不得行..

然后把范围扩大到^[\u2E80-\u9FFF]+$, 这样倒是都通过了, 这个应该就是匹配中日韩文字的正则表达式了, 包括我們臺灣省還在盲目使用的繁體中文

而关于中文的正则表达式, 应该是^[\u4E00-\u9FFF]+$, 和论坛里常被人提起的^[\u4E00-\u9FA5]+$很接近

需要注意的是论坛里说的^[\u4E00-\u9FA5]+$这是专门用于匹配简体中文的正则表达式, 实际上繁体字也在里面, 我用测试器测试了下’中華人民共和國’, 也通过了, 当然, ^[\u4E00-\u9FFF]+$也是一样的结果。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python

相关文章推荐

新的分享

章节导航