您的位置:首页 > 运维架构 > 网站架构

不错的技术网站

2017-04-25 17:10 239 查看
经典:


python分布式爬虫打造搜索引擎--------scrapy实现

http://www.cnblogs.com/jinxiao-pu/p/6706319.html


selenium+python+PhantomJS的使用

http://www.cnblogs.com/jinxiao-pu/p/6677782.html?utm_source=tuicool&utm_medium=referral

scrapy selenium phantomJS

http://jiayi.space/post/scrapy-phantomjs-seleniumdong-tai-pa-chong#fb_new_comment

http://blog.csdn.net/qq_30242609/article/details/70859891

phantomjs

http://www.tuicool.com/articles/beeMNj/

http://www.tuicool.com/articles/ARbmmam

http://www.tuicool.com/articles/Qzeiqi2

http://www.tuicool.com/topics/11060064

python scrapy imagespipelines 相关 

http://blog.csdn.net/qzc295919009/article/details/42680457

详细解说了imagespipelines相关函数

https://my.oschina.net/jastme/blog/280114




https://segmentfault.com/q/1010000000413334




http://www.cnblogs.com/Shirlies/p/4537931.html

用urllib.urlretrieve 的例子

Python 爬虫:用 Scrapy 框架实现漫画的爬取  http://www.jianshu.com/p/c1704b4dc04d

Scrapy爬取美女图片 简单有效的例子 imagespipelines
http://www.iot-online.com/analytics/2017/042664784.html

scrapy 下载图片 ImagesPipeline
http://m.blog.csdn.net/article/details?id=42680457

m.blog.csdn.net/article/details?id=53677516

http://www.cnblogs.com/tester-l/p/6064212.html

http://www.jianshu.com/p/8d65da080c47

Scrapy爬虫入门教程一 安装和基本使用

Scrapy爬虫入门教程二 官方提供Demo

Scrapy爬虫入门教程三 命令行工具介绍和示例

Scrapy爬虫入门教程四 Spider(爬虫)

Scrapy爬虫入门教程五 Selectors(选择器)

Scrapy爬虫入门教程六 Items(项目)

Scrapy爬虫入门教程七 Item Loaders(项目加载器)

Scrapy爬虫入门教程八 交互式 shell 方便调试

Scrapy爬虫入门教程九 Item Pipeline(项目管道)

Scrapy爬虫入门教程十 Feed exports(导出文件)

Scrapy爬虫入门教程十一 Request和Response(请求和响应)

Scrapy爬虫入门教程十二 Link Extractors(链接提取器)

Scrapy使用以及Xpath的一些坑, 再入剁手 http://www.cnblogs.com/Bright-Star/p/4163107.html?utm_source=tuicool&utm_medium=referral

1.李燕西的博客  http://blog.csdn.net/yancey_blog    关于scrapy的,有多个spider同时工作的

里面还有一个简单的数据库去重 或增量采集的思路 :http://blog.csdn.net/yancey_blog/article/details/53895821


使用scrapy爬取百度贴吧-上海吧: http://ucstudio.iteye.com/blog/2192574 
下载图片  scrapy  用 urllib.request.urlretrieve(url, filename = file )
www.tuicool.com/articles/bIBJnqu

网页爬虫--scrapy进阶 www.cnblogs.com/rubinorth/p/5963066.html
1.以使用twisted提供的数据库库来维护一个连接池:

self.dbpool = adbapi.ConnectionPool('MySQLdb',.....)
2.每个spider不同设置。在spider中加入custom_settings即可覆盖settings.py中相应的设置,
这样的话在settings.py中只需要放一些公用的设置就行了。最常用的就是设置每个spider的pipeline。
3.pipeline中spider.name的应用。pipeline中的process_item中可以根据spider.name来对不同的item进行不同的处理。
def process_item(self, item, spider):
if spider.name == 'a':
****
if spider.name == 'b':
****


用Python爬取实习信息(Scrapy初体验)http://www.jianshu.com/p/35c0830448c2#

  采集水木社区的实习生信息 使用Selenium和Phantomjs的配合  比如适合入门.

Scrapy Pipeline之与数据库交互  http://blog.csdn.net/q_an1314/article/details/51208901?utm_source=tuicool&utm_medium=referral

关于
self.dbpool = adbapi.ConnectionPool('MySQLdb'...)  相关的详解


Scrapy基础——CrawlSpider详解 http://www.jianshu.com/p/0f64297fc912

问题:CrawlSpider如何工作的?  问题:CrawlSpider如何获取rules?  有callback的是由指定的函数处理,没有callback的是由哪个函数处理的?

Scrapy爬虫实例教程(二)---数据存入MySQL http://www.cnblogs.com/mchen/p/5581333.html?utm_source=tuicool&utm_medium=referral

self.dbpool = adbapi.ConnectionPool('MySQLdb',**dbargs)


根据Excel文件配置运行多个爬虫  http://www.cnblogs.com/kylinlin/p/5404403.html?utm_source=tuicool&utm_medium=referral
很多时候,我们都需要为每一个单独的网站编写一个爬虫,但有一些情况是你要爬取的几个网站的唯一不同之处在于Xpath表达式不同,此时要分别为每一个网站编写一个爬虫就显得徒劳了,其实可以只使用一个spider就爬取这些相似的网站。

由于我们并不能提前知道URL,所以要从spider中移除start_urls和allowed_domains部分,使用start_requests()方法,对于csv文件中的每一行都产生一个Request对象,并且将字段名和Xpath表达式放入参数request.mate中,传递到parse函数

scrapy爬虫成长日记之将抓取内容写入mysql数据库  www.cnblogs.com/rwxwsblog/p/4572367.html

class MySQLStoreCnblogsPipeline(object):
def __init__(self, dbpool):
self.dbpool = dbpool

@classmethod
def from_settings(cls, settings):
dbargs = dict(
host=settings['MYSQL_HOST'],
db=settings['MYSQL_DBNAME'],
user=settings['MYSQL_USER'],
passwd=settings['MYSQL_PASSWD'],
charset='utf8',
cursorclass = MySQLdb.cursors.DictCursor,
use_unicode= True,
)
dbpool = adbapi.ConnectionPool('MySQLdb', **dbargs)
return cls(dbpool)

#pipeline默认调用
def process_item(self, item, spider):
d = self.dbpool.runInteraction(self._do_upinsert, item, spider)
d.addErrback(self._handle_error, item, spider)
d.addBoth(lambda _: item)
return d
#将每行更新或写入数据库中


同时运行多个scrapy爬虫的几种方法(自定义scrapy项目命令)  http://www.cnblogs.com/rwxwsblog/p/4578764.html?utm_source=tuicool&utm_medium=referral

Python爬虫实战-使用Scrapy框架爬取土巴兔 http://www.jianshu.com/p/5355b467d414

  有python 操作mysql  python遇见数据采集 http://www.imooc.com/learn/712

python操作mysql http://www.cnblogs.com/wt11/p/6141225.html
一个技术人员python 的小站: http://www.liuyu.live/




防止爬虫被ban  http://www.jianshu.com/p/e577194e3216

Python爬虫框架Scrapy学习笔记

基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL   http://blog.csdn.net/zengsl233/article/details/52294760
scrapy 爬取百度知道,多spider子一个项目中,使用一个pielines   https://yq.aliyun.com/articles/69903?spm=5176.100240.searchblog.172.kRZPMN

scrapy 资料1  http://blog.csdn.net/elecjack/article/category/6108703


Python 操作 MySQL 的正确姿势  https://www.qcloud.com/community/article/687813?fromSource=gwzcw.97898.97898.97898


Scrapy 爬虫框架入门案例详解  https://www.qcloud.com/community/article/592498?fromSource=gwzcw.106916.106916.106916

python中如何用正则表达式匹配汉字

由于 需求原因,需要匹配 提取中文,大量google下,并没有我需要的。花了一个小时大概测试,此utf8中文通过,特留文。
   参考: http://hi.baidu.com/nivrrex/blog/item/e6ccaf511d0926888d543071.html           http://topic.csdn.net/u/20070404/15/b011aa83-f9b7-43b3-bbff-bfe4f653df03.html
    首先,确保所有编码都为 unicode
         比如 str.decode('utf8') #从utf8文本中
              u"啊l"  #在控制台输出中    
         (罗嗦下)本想使用参考一定编码 Hex 但郁闷的是 这每个字好像占2个位置,使用正则匹配无果。
    其次,确定中文范围 : [\u4e00-\u9fa5]
          (这里注意下 python 的re写的时候) 要  u"[\u4e00-\u9fa5]"
#确定正则表达式也是 unicode 的
    demo :
    

>>> print re.match(ur"[\u4e00-\u9fa5]+","啊")

None
>>> print re.match(ur"[\u4e00-\u9fa5]+",u"啊")
<_sre.SRE_Match object at 0x2a98981308>

>>> print re.match(ur"[\u4e00-\u9fa5]+",u"t")

None

>>> print tt

现在才明白
>>> tt
'\xe7\x8e\xb0\xe5\x9c\xa8\xe6\x89\x8d\xe6\x98\x8e\xe7\x99\xbd'
>>> print re.match(r"[\u4e00-\u9fa5]",tt.decode('utf8'))

None
>>> print re.match(ur"[\u4e00-\u9fa5]",tt.decode('utf8'))
<_sre.SRE_Match object at 0x2a955d9c60>

>>> print re.match(ur".*["u4e00-"u9fa5]+",u"hi,匹配到了")
<_sre.SRE_Match object at 0x2a955d9c60>
>>> print re.match(ur".*["u4e00-"u9fa5]+",u"hi,no no")

None

       

里面有一个域名是数据id的排序思路不错:http://www.cnblogs.com/threemore/p/5578372.html

其他 扩充 范围 (转)

这里是几个主要非英文语系字符范围(google上找到的):
2E80~33FFh:中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,中日韩的符号、标点、带圈或带括符文数字、月份,以及日本的假名组合、单位、年号、月份、日期、时间等。
3400~4DFFh:中日韩认同表意文字扩充A区,总计收容6,582个中日韩汉字。
4E00~9FFFh:中日韩认同表意文字区,总计收容20,902个中日韩汉字。
A000~A4FFh:彝族文字区,收容中国南方彝族文字和字根。
AC00~D7FFh:韩文拼音组合字区,收容以韩文音符拼成的文字。
F900~FAFFh:中日韩兼容表意文字区,总计收容302个中日韩汉字。
FB00~FFFDh:文字表现形式区,收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角符号等。

比如需要匹配所有中日韩非符号字符,那么正则表达式应该是^[\u3400-\u9FFF]+$

理论上没错, 可是我到msn.co.ko随便复制了个韩文下来, 发现根本不对, 诡异

再到msn.co.jp复制了个’お’, 也不得行..

然后把范围扩大到^[\u2E80-\u9FFF]+$, 这样倒是都通过了, 这个应该就是匹配中日韩文字的正则表达式了, 包括我們臺灣省還在盲目使用的繁體中文

而关于中文的正则表达式, 应该是^[\u4E00-\u9FFF]+$, 和论坛里常被人提起的^[\u4E00-\u9FA5]+$很接近

需要注意的是论坛里说的^[\u4E00-\u9FA5]+$这是专门用于匹配简体中文的正则表达式, 实际上繁体字也在里面, 我用测试器测试了下’中華人民共和國’, 也通过了, 当然, ^[\u4E00-\u9FFF]+$也是一样的结果。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python