您的位置:首页 > 其它

心情

2015-05-03 21:09 218 查看
感觉挺沮丧的,运动一下好多了。记录下今天的学习吧。

已经想好了是看这篇http://www.cnblogs.com/chenqingyang/p/3762123.html,觉得应该可以学到如何带着cookie打开别的页面;存储(不过他貌似不是存在数据库里)他是多文件索引式结构。

1h10min

在处理登陆需要验证码的情况下,要在页面中得到验证码的id和url,他使用的代码是

from PIL import Image
buffer=urllib2.urlopen(imgUrl).read()
im=Image.open(StringIO.StringIO(buffer))
im.show()


我试了下,可以导入PIL库


但没有Image这个属性。到python27目录下的site-packages/PIL下的确是有Image.py和Image.pyc的。网上有类似问题,说是删了pyc,让Image.py重新编译一遍。没用。

我就没管了,已知图片url,打开保存在磁盘上,再去对应位置看好了。

关键是开始想学一下PIL图像处理的库和StringIO的库。算了。

2. 1h35min

“如果一次http请求失败,重新请求的时候有一定的暂停,这个是后来加的,如果不加暂停,就赤裸裸地暴露了自己是爬虫,很快ip就被封了”于是用goagent.

#coding=utf-8
import urllib2
import urllib
import cookielib
from bs4 import BeautifulSoup

proxy_support = urllib2.ProxyHandler({'http':'http://127.0.0.1:8087'})
opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)
urllib2.install_opener(opener)

for i in range(0,10):
content = urllib2.urlopen('http://ip.chinaz.com/').read()
#print content
soup=BeautifulSoup(content)
info=soup.find(attrs={'class':'info3'})
print info.find(attrs= 'class':'red'}).get_text(),info.contents[3].get_text()


我运行失败


可能是需要配置goagent吧。

人家有说

“IE10使用goagent:Internet选项-》连接-》局域网设置-》勾选「为LAN使用代理。。。」-》勾选「对本地地址不使用代理服务器」-》上面的地址是127.0.0.1;端口是8087,除此以外,都不用设置了,就可以FQ。”

我这样配置了下chrome,显示“无法连接到代理服务器”。在网上一搜的确有很多教怎么配置goagent的

这是配置在浏览器上的!又不是配置在python上,python还是像以前一样吧

是有挺多的。但是好长啊,而且这个时效性很重要,一定是要最近的,不然GFW升级了没用【摊手】(就像各个软件的破解).今年的有3篇吧,底下有评论说用不了…我就没试了(再多花点时间肯定能配置好,但是参见1)

心情糟糕…感觉就像刚看的那篇友邻的日记里写的,“拿别人给的sample来运行,不是运行不了,而是很多时候根本连package都安装不上。各种dependency。。。。。。”从刚刚到现在,这两个困扰都是配置引来的。

3. 1h

算了,直接看他在github上的源码吧。

程序有点问题。然后我像处女座一样开始改pycharm右边竖条里的黄色标记,就是格式错误。

其实我只是想看他登陆后抓起评论的,现在饭没吃,一直在摆盘子是怎么回事?

会变好的,会搞定一切的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  感想