新浪明星日志推荐系统——爬虫爬取数据(1)
2015-05-21 07:52
183 查看
今天有了一个想法,想自己用Python写一个新浪明星日志推荐系统
那么第一步要完成的工作就是获得新浪明星日志的数据,于是自己写了一个爬虫,实现的功能是爬取新浪明星日志的作者,推荐的文章链接,以及作者日志列表或者首页链接,具体程序如下:
# -*- coding: utf-8 -*-"""
Created on Wed May 20 13:55:00 2015
@author: Administrator
"""
import urllib
import os,re
import sys
from bs4 import BeautifulSoup
reload(sys)
sys.setdefaultencoding("utf-8")
if "__main__"==__name__:
i = 1
for j in range(1,140):
url = "http://roll.ent.sina.com.cn/blog/star/index_" + str(i) +".shtml"
fp = file("EveryPageHref.txt","a")
fp.write(url)
fp.write("\n")
fp.close()
i+=1
page = urllib.urlopen(url).read()
soup = BeautifulSoup(page,from_encoding = "gb18030")
list_ul = soup.find_all("ul",class_="list_009")
list_li = list_ul[0].find_all("li")
for li in list_li:
list_a = li.find_all("a")
one_link = list_a[1].get("href") #获取连接
print list_a[0].get_text()
print one_link
if len(one_link)>10:
page = urllib.urlopen(one_link).read()
if len(page)!=0:
href=r'<a class="on" href=.*?>'
link = re.findall(href,page,re.M|re.S)
if link:
a_soup = BeautifulSoup(link[0],from_encoding= "gb18030")
a_href = a_soup.find_all('a')
href = a_href[0].get('href')
print a_href[0].get('href')
fp = file("title.txt","a")
fp.write(list_a[0].get_text())
fp.write("\n")
fp.write(one_link)
fp.write("\n")
fp.write(href)
fp.write("\n")
fp.close()
else:
pass
print "OK!"
相关文章推荐
- 新浪明星日志推荐系统——爬虫爬取数据(2)
- 新浪明星日志推荐系统——java实现(3)
- 数据挖掘项目之---通过对web日志的挖掘来实现内容推荐系统
- 爬虫系统-日志、初始化url
- ERP系统管理员的工具箱 推荐几款优秀的数据比较同步工具 Data Compare and Sync tool
- 推荐系统——数据分析
- 金融科技&大数据产品推荐:金蜂巢大数据集成与脱敏系统
- 大数据产品推荐:百融信贷决策审批系统
- 浅谈数据容灾系统中带宽、延迟、并发流、效率等(摘自《大话存储2》) 推荐
- 《海量日志数据分析与应用》之社交数据分析:好友推荐
- 金融科技&大数据产品推荐:荣之联·风报—人工智能企业情报分析系统
- 推荐系统数据稀疏性问题
- 专栏文章推荐:轻松玩转ELK海量可视化日志分析系统
- 大数据日志分析系统-hdfs日志存储
- 推荐系统研究中的九大数据集
- 达观数据分析推荐系统和搜索引擎关系
- 推荐系统中对数据的需求和利用
- 2018企业大数据爬虫系统
- 数据推荐系统系列 8种方法之一 CosSim余弦相识性方式
- Linux全攻略--系统性能、进程监控和日志管理 推荐