心情
2015-05-03 21:09
218 查看
感觉挺沮丧的,运动一下好多了。记录下今天的学习吧。
已经想好了是看这篇http://www.cnblogs.com/chenqingyang/p/3762123.html,觉得应该可以学到如何带着cookie打开别的页面;存储(不过他貌似不是存在数据库里)他是多文件索引式结构。
1h10min
在处理登陆需要验证码的情况下,要在页面中得到验证码的id和url,他使用的代码是
我试了下,可以导入PIL库
但没有Image这个属性。到python27目录下的site-packages/PIL下的确是有Image.py和Image.pyc的。网上有类似问题,说是删了pyc,让Image.py重新编译一遍。没用。
我就没管了,已知图片url,打开保存在磁盘上,再去对应位置看好了。
关键是开始想学一下PIL图像处理的库和StringIO的库。算了。
2. 1h35min
“如果一次http请求失败,重新请求的时候有一定的暂停,这个是后来加的,如果不加暂停,就赤裸裸地暴露了自己是爬虫,很快ip就被封了”于是用goagent.
我运行失败
可能是需要配置goagent吧。
人家有说
“IE10使用goagent:Internet选项-》连接-》局域网设置-》勾选「为LAN使用代理。。。」-》勾选「对本地地址不使用代理服务器」-》上面的地址是127.0.0.1;端口是8087,除此以外,都不用设置了,就可以FQ。”
我这样配置了下chrome,显示“无法连接到代理服务器”。在网上一搜的确有很多教怎么配置goagent的
这是配置在浏览器上的!又不是配置在python上,python还是像以前一样吧
是有挺多的。但是好长啊,而且这个时效性很重要,一定是要最近的,不然GFW升级了没用【摊手】(就像各个软件的破解).今年的有3篇吧,底下有评论说用不了…我就没试了(再多花点时间肯定能配置好,但是参见1)
心情糟糕…感觉就像刚看的那篇友邻的日记里写的,“拿别人给的sample来运行,不是运行不了,而是很多时候根本连package都安装不上。各种dependency。。。。。。”从刚刚到现在,这两个困扰都是配置引来的。
3. 1h
算了,直接看他在github上的源码吧。
程序有点问题。然后我像处女座一样开始改pycharm右边竖条里的黄色标记,就是格式错误。
其实我只是想看他登陆后抓起评论的,现在饭没吃,一直在摆盘子是怎么回事?
会变好的,会搞定一切的。
已经想好了是看这篇http://www.cnblogs.com/chenqingyang/p/3762123.html,觉得应该可以学到如何带着cookie打开别的页面;存储(不过他貌似不是存在数据库里)他是多文件索引式结构。
1h10min
在处理登陆需要验证码的情况下,要在页面中得到验证码的id和url,他使用的代码是
from PIL import Image buffer=urllib2.urlopen(imgUrl).read() im=Image.open(StringIO.StringIO(buffer)) im.show()
我试了下,可以导入PIL库
但没有Image这个属性。到python27目录下的site-packages/PIL下的确是有Image.py和Image.pyc的。网上有类似问题,说是删了pyc,让Image.py重新编译一遍。没用。
我就没管了,已知图片url,打开保存在磁盘上,再去对应位置看好了。
关键是开始想学一下PIL图像处理的库和StringIO的库。算了。
2. 1h35min
“如果一次http请求失败,重新请求的时候有一定的暂停,这个是后来加的,如果不加暂停,就赤裸裸地暴露了自己是爬虫,很快ip就被封了”于是用goagent.
#coding=utf-8 import urllib2 import urllib import cookielib from bs4 import BeautifulSoup proxy_support = urllib2.ProxyHandler({'http':'http://127.0.0.1:8087'}) opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler) urllib2.install_opener(opener) for i in range(0,10): content = urllib2.urlopen('http://ip.chinaz.com/').read() #print content soup=BeautifulSoup(content) info=soup.find(attrs={'class':'info3'}) print info.find(attrs= 'class':'red'}).get_text(),info.contents[3].get_text()
我运行失败
可能是需要配置goagent吧。
人家有说
“IE10使用goagent:Internet选项-》连接-》局域网设置-》勾选「为LAN使用代理。。。」-》勾选「对本地地址不使用代理服务器」-》上面的地址是127.0.0.1;端口是8087,除此以外,都不用设置了,就可以FQ。”
我这样配置了下chrome,显示“无法连接到代理服务器”。在网上一搜的确有很多教怎么配置goagent的
这是配置在浏览器上的!又不是配置在python上,python还是像以前一样吧
是有挺多的。但是好长啊,而且这个时效性很重要,一定是要最近的,不然GFW升级了没用【摊手】(就像各个软件的破解).今年的有3篇吧,底下有评论说用不了…我就没试了(再多花点时间肯定能配置好,但是参见1)
心情糟糕…感觉就像刚看的那篇友邻的日记里写的,“拿别人给的sample来运行,不是运行不了,而是很多时候根本连package都安装不上。各种dependency。。。。。。”从刚刚到现在,这两个困扰都是配置引来的。
3. 1h
算了,直接看他在github上的源码吧。
程序有点问题。然后我像处女座一样开始改pycharm右边竖条里的黄色标记,就是格式错误。
其实我只是想看他登陆后抓起评论的,现在饭没吃,一直在摆盘子是怎么回事?
会变好的,会搞定一切的。