2.2 urllib和requests库书写代码以及完整豆瓣当页影评爬取代码
2018-01-31 01:07
375 查看
import urllib.request #导入urllib.request包和库 f = urllib.request.urlopen('http://www.baidu.com') #打开网址,返回一个类文件对象 f.read(500) #打印前500字符 print(f.read(500).decode('utf-8')) #打印前500字符,并修改编码为utf-8 import requests #导入requests库 r1 = requests.get('http://www.baidu.com') #使用requests.get方法获取网页信息 r1.encoding='utf-8' #修改编码 print(r1.text) #打印结果
完整豆瓣当页影评爬取代码
import requests import pandas as pd from bs4 import BeautifulSoup url = requests.get('https://movie.douban.com/subject/6874741/comments?status=P').text soup = BeautifulSoup(url,'lxml') #网页解析,用的lxml解析 pattern = soup.find_all('p','') #p标签加引号,class属性为comment for item in pattern: #循环打印所有评论 print(item.string) #pandas存储数据 comments = [] #创建空list for item in pattern: comments.append(item.string) #循环存入list中 df = pd.DataFrame(comments) #列表循环以pandas dataframe格式存入 df.to_csv('comments.csv') #再存入csv中 #提示:报存csv时原来的csv不能同时打开不然报错 代码运行结果示例:
相关文章推荐
- android官方最新以及2.2、2.3.5源代码(完整)下载以及用source insight查看源代码
- 《水晶之约》的完整代码以及一些思想很值得学习---优秀程序的代码固然能更提高自己
- JS和ASP一行代码可获取完整URL地址以及参数
- 3 使用requests爬取豆瓣点评及爬取网页通用框架完整代码
- lkmusic项目完整代码以及使用离线存储优化
- WPF开发较为完整的音乐播放器(三) ---数据读取类以及界面的构建和所有代码
- 二进制中1的个数的多种解法解析以及完整c语言代码
- C#中的代码书写规范以及命名规范
- ajax结合豆瓣搜索结果进行分页完整代码
- Spring-Mybatis整合注意的问题以及完整代码示例(见评论)
- highcharts图表中级入门:图表手动放大缩小自动切换图表标题(title/subtitle)以及图例(legend)、credits字体示例呈现3 6、完整实例代码:
- C#中的代码书写规范以及命名规范
- [转载]Python爬取豆瓣影评并生成词云图代码
- leetcode[60]Permutation Sequence 以及 全排列的编码与解码——康托展开 (附完整代码)
- Interface (以及java代码书写规范)
- 求旋转数组的最小数字算法的解析以及完整c语言代码实现
- 如何优雅的管理以及书写好代码
- iOS每日一记之------iOS代码书写的规范以及要求
- Prim算法原理以及完整C代码实现
- 数据结构(十六) 线索二叉树讲解(带头节点后序加线索) 以及实现的完整代码