统计某个网站内的一些内容,很不完善。大家不要看了,浪费时间
2014-01-17 10:09
295 查看
#coding = gb2312 #from HTMLParser import HTMLParser from HTMLParser import * #import HTMLParser import urllib import sys import time import MySQLdb #html_parser = HTMLParser.HTMLParser() def db_insert_77169(id,sub_id,data,link): conn = MySQLdb.connect(host='localhost',user='root',passwd='111111',db='sample',port=3306,charset='gb2312') cur = conn.cursor() #count = cur.execute('select * from botsample') #values=(id,data,link) values=[id,str(sub_id),data,link] cur.execute('insert into 77169_download_info values(%s,%s,%s,%s)',values) conn.commit() cur.close() conn.close() def db_insert_77169_temp(id,sub_id): conn = MySQLdb.connect(host='localhost',user='root',passwd='111111',db='sample',port=3306,charset='gb2312') cur = conn.cursor() #count = cur.execute('select * from botsample') #values=(id,data,link) #values=[id,str(sub_id),data,link] cur.execute('insert into 77169_download_info_temp values(%s,%s)',[id,str(sub_id)]) conn.commit() cur.close() conn.close() class parselinks(HTMLParser): def __init__(self): self.data=[] self.link=[] self.href=0 self.linkname='' self.linkname_temp='' HTMLParser.__init__(self) def handle_starttag(self,tag,attrs): if tag =='a': if len(attrs)==2: for name,value in attrs: if name == 'href': self.linkname_temp = value self.href=1 def handle_data(self,data): # print data if self.href: self.linkname+=data def handle_endtag(self,tag): if tag=='a': self.linkname=''.join(self.linkname.split()) self.linkname=self.linkname.strip() if self.linkname: self.data.append(self.linkname) self.link.append(self.linkname_temp) self.linkname_temp = '' self.linkname='' self.href=0 def getresult(self): #print len(self.data) #print len(self.link) #for value in self.data: if len(self.data)==len(self.link): for i in range(len(self.data)): # value_local = '\xb1\xbe\xb5\xd8\xcf\xc2\xd4\xd8' #value1 ="本地下载" #if not cmp(value_local,value): try: db_insert_77169(total_id,i,self.data[i],self.link[i]) except: db_insert_77169_temp(total_id,i) #import HTMLParser #html_parser = HTMLParser.HTMLParser() #temp_link = html_parser.unescape(self.link[i]) #self.link[i] = html_parser.unescape(self.link[i]) #db_insert(total_id,i,self.data[i],temp_link) #exit() #time.sleep(1) #print total_id,i,self.data[i],self.link[i] if __name__=="__main__": #print __name__ #total_id = 0 for total_id in range(0,70000): try: url_link = "http://soft.aaaaa.com/HTML/" + str(total_id) + ".html" IParser = parselinks() data_dl = urllib.urlopen(url_link).read() #print data_dl IParser.feed(data_dl) IParser.getresult() IParser.close() print total_id #time.sleep(1) except: continue
相关文章推荐
- Google的analytics工具 - 我所知最完善的网站访问统计工具
- 分享iphone开发的好网站,希望大家也能提供一些分享下
- 大家都不可以不看的一些网站
- 在github上一些好的项目统计给大家
- 推荐一些网站给大家[转]
- 给大家带来点福利 整理了一些学习网站,问答网站,和IT咨询网站(老师给我们说的)
- 配合scrapy,用请求方式抓取一些网站内容。例如抓取360手机应用APP信息。
- 推荐一些网站给大家
- 请大家指点一下 visaul basic .net中的checkedlistbox控件的一些内容
- ArcGIS 《空间分析使用手册》的一些内容(分配函数、成本加权距离制图、单元统计、邻域统计等等)
- 精准推广大家都忽略的一个重点是结合自身网站的内容
- 破解有一些网站里的文字内容不能用鼠标选定及复制的问题
- 用excel做一个家庭流水账本 增加一些统计功能 和大家分享
- 推荐一些网站给大家
- 网站统计的一些基本概念总结
- jQuery插件实现select下拉框左右选择_交换内容(multiselect2side) 的一些网站 (有时间整理)
- 大家都不可以不看的一些网站
- 这个网站有些D3D的内容,对初学者很有一些帮助。。。
- 精准推广大家都忽略的一个重点是结合自身网站的内容
- js统计网站访问,会员圈选,find 定位时间段内文件,grep过滤内容,gawk 排除,去重,格式化输出