您的位置:首页 > 编程语言 > Python开发

Python3.X Windows平台 安装BeautifulSoup4

2017-07-03 10:40 232 查看


1、安装BeautifulSoup4

打开cmd,运行pip install BeautifulSoup4


2、安装lxml

在Windows下,安装lxml费了一点劲儿,不能直接通过命令成功安装。

首先,查看我们的平台依赖的工具版本:



然后,去官网下载对应的.whl文件。官网地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml

Ctrl + F,输入lxml,找到下面这段:

Lxml, a binding for the libxml2 and libxslt libraries.

lxml‑3.7.3‑cp27‑cp27m‑win32.whl

lxml‑3.7.3‑cp27‑cp27m‑win_amd64.whl

lxml‑3.7.3‑cp34‑cp34m‑win32.whl

lxml‑3.7.3‑cp34‑cp34m‑win_amd64.whl

lxml‑3.7.3‑cp35‑cp35m‑win32.whl

lxml‑3.7.3‑cp35‑cp35m‑win_amd64.whl

lxml‑3.7.3‑cp36‑cp36m‑win32.whl

lxml‑3.7.3‑cp36‑cp36m‑win_amd64.whl

cp后面是Python的版本号,36表示3.6,根据你的Python版本选择下载。

最后进行安装,打开cmd,先运行pip install wheel 安装wheel工具,做好准备工作。

接着运行pip install *.whl文件,我的对应版本为lxml-3.7.3-cp36-cp36m-win_amd64.whl即可成功安装lxml解析器。



3、使用BeautifulSoup4

下面的https://movie.douban.com/网址为豆瓣电影地址
所实现的功能是爬取页面所有电影的名字。

#!/usr/bin/python
# -*- coding: UTF-8 -*-
from urllib.request import urlopen
from bs4 importBeautifulSoup
html= urlopen("https://movie.douban.com/")
# 将html对象转化为BeautifulSoup对象
bsObj= BeautifulSoup(html,"lxml")
# 找到所有符合此class属性的li标签
liList= bsObj.findAll("li",{"class":"title"})
for li inliList:
#获取标签<a>中文字
name= li.a.get_text()
print(name)


运行结果:

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python 爬虫