Python简单抓取新浪某网页新闻链接及标题
2012-06-14 01:24
676 查看
进行了一些拓展(还可以再扩展,吧tele中间路径从主页中获取到,然后用map给用户选择):
没怎么接触网页及网络相关知识,再用没上手的Python,下面这段程序一波三折,bugs不少,但勉强还算是实现了对http://roll.tech.sina.com.cn/tele/2012-05-01.shtml网页新闻的抓取。win系统服务没加上,及一堆问题,待续……
#这里可以再改进,进行扩展,自行输入时间(貌似都一样,正则还是可以用) #doc = urlopen("http://roll.tech.sina.com.cn/tele/2012-05-01.shtml").read() newsYear = raw_input("Please input the year likes 2012: ") newsMouth = raw_input("Please input the mouth likes 03: ") newsDay = raw_input("Please input the day likes 02: ") doc = urlopen("http://roll.tech.sina.com.cn/tele/" + \ newsYear + "-" + \ newsMouth + "-" + \ newsDay + \ ".shtml").read()
没怎么接触网页及网络相关知识,再用没上手的Python,下面这段程序一波三折,bugs不少,但勉强还算是实现了对http://roll.tech.sina.com.cn/tele/2012-05-01.shtml网页新闻的抓取。win系统服务没加上,及一堆问题,待续……
# -*- coding: cp936 -*- import win32serviceutil import win32service import win32event from urllib import urlretrieve from urllib import urlopen import smtplib from email.mime.text import MIMEText from email.MIMEMultipart import MIMEMultipart from email.Header import Header #这个正则库感觉很棒 import re import os import xlrd doc = urlopen("http://roll.tech.sina.com.cn/tele/2012-05-01.shtml").read() #分别寻找链接和新闻标题 def extract_url(info): rege = "<li><a href=\"(.*)\" target=_blank>" url = re.findall(rege, info) return url def extract_title(info): pat = "\" target=_blank>(.*)</a><span class=" title = re.findall(pat, info) return title url = extract_url(doc) title = extract_title(doc) #xlrd模块的使用有问题,打开路径出错 # XLRDError('Unsupported format, or corrupt file: ' + msg) def get_email_list(): path = os.getcwd() wb = xlrd.open_workbook(path + "\\email_list.xls", encoding_override="cp1252") sheet = wb.sheet_by_name("mail") first_column = sheet.col_values(0) return first_column #emaildest = get_email_list() n = len(url) #邮件表格仍然有问题 #换为div去实现简单换行 #<a href="http://www.baidu.com" target="_blank">fsddfs</a> mail_context = "" #mail_context += "<table width=\"700\" border=\"1\" align=\"left\" face=\"宋体\">" for i in range(0, n): # mail_context += "<tr><td><font size=\"2\">" # mail_context += "<span class=\"line1\"><a href=\"" # mail_context += url[i] # mail_context += "\" target=_blank>" # mail_context += title[i] # mail_context += "</a></span>" # mail_context += "</font></td>" # mail_context += "</table>" mail_context += "<div><a href=\"" mail_context += url[i] mail_context += "\" target=\"_blank\">" mail_context += title[i] mail_context += "</a></div>" def sendsimplemail(text, dest): msg = MIMEText(text, 'html', 'gb2312') msg['Subject'] = Header('title', 'gb2312') msg['From'] = 'sourcedest' msg['To'] = str(dest) try: #登录邮箱服务器 smtp = smtplib.SMTP() #登录验证 smtp.connect(r'smtp.Serve.com') smtp.login('user','password') #发送邮箱 #有验证现在,所以发送还是相同为好 smtp.sendmail('user', dest, msg.as_string()) smtp.close() except Exception, e: print e dest = ['targetEmailAddress'] sendsimplemail(mail_context, dest)
相关文章推荐
- Python正则抓取新闻标题和链接的方法示例
- 简单的爬取新浪新闻标题与链接
- Python抓取新闻标题和链接
- Python实现抓取页面上链接的简单爬虫分
- 使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies
- HTMLParser解析网页,提取链接地址、标题名称,并插入数据库 分类: python 小练习 HTMLParser 2014-02-19 09:57 519人阅读 评论(0) 收藏
- Python抓取网页中的链接
- Jsoup实现新闻网页的爬取,标题,正文,图片,新闻时间,网页链接的解析示例
- visual studio 2010下 C# 编写的一个简单的网页源代码分析、链接抓取器
- 一个简单的使用python抓取网页中的水文数据的程序
- 鱼c笔记——Python爬虫(一):利用urllib进行简单的网页抓取
- beautifulsoup库简单抓取网页--获取所有链接例子
- Python实现抓取页面上链接的简单爬虫分享
- python爬虫抓取目标网页链接
- python爬虫 -- 抓取网页中链接的静态图片
- Python抓取网页链接
- Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)
- 用python写了一个简单的模拟浏览器抓取网页的库webclient
- Python数据抓取(3) —抓取标题、时间及链接
- 【python】使用HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies