您的位置：首页 > 编程语言 > Python开发

Python3.X Windows平台安装BeautifulSoup4

2017-07-03 10:40 232 查看

1、安装BeautifulSoup4

打开cmd，运行pip install BeautifulSoup4

2、安装lxml

在Windows下，安装lxml费了一点劲儿，不能直接通过命令成功安装。

首先，查看我们的平台依赖的工具版本：

然后，去官网下载对应的.whl文件。官网地址：http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml

Ctrl + F，输入lxml，找到下面这段：

Lxml, a binding for the libxml2 and libxslt libraries.

lxml‑3.7.3‑cp27‑cp27m‑win32.whl

lxml‑3.7.3‑cp27‑cp27m‑win_amd64.whl

lxml‑3.7.3‑cp34‑cp34m‑win32.whl

lxml‑3.7.3‑cp34‑cp34m‑win_amd64.whl

lxml‑3.7.3‑cp35‑cp35m‑win32.whl

lxml‑3.7.3‑cp35‑cp35m‑win_amd64.whl

lxml‑3.7.3‑cp36‑cp36m‑win32.whl

lxml‑3.7.3‑cp36‑cp36m‑win_amd64.whl

cp后面是Python的版本号，36表示3.6，根据你的Python版本选择下载。

最后进行安装，打开cmd，先运行pip install wheel 安装wheel工具，做好准备工作。

接着运行pip install *.whl文件，我的对应版本为lxml-3.7.3-cp36-cp36m-win_amd64.whl即可成功安装lxml解析器。

3、使用BeautifulSoup4

下面的https://movie.douban.com/网址为豆瓣电影地址
所实现的功能是爬取页面所有电影的名字。

#!/usr/bin/python
# -*- coding: UTF-8 -*-
from urllib.request import urlopen
from bs4 importBeautifulSoup
html= urlopen("https://movie.douban.com/")
# 将html对象转化为BeautifulSoup对象
bsObj= BeautifulSoup(html,"lxml")
# 找到所有符合此class属性的li标签
liList= bsObj.findAll("li",{"class":"title"})
for li inliList:
#获取标签<a>中文字
name= li.a.get_text()
print(name)

运行结果：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python 爬虫

相关文章推荐

新的分享

章节导航

Python3.X Windows平台 安装BeautifulSoup4

1、安装BeautifulSoup4

2、安装lxml

3、使用BeautifulSoup4

Python3.X Windows平台安装BeautifulSoup4