您的位置:首页 > 理论基础 > 计算机网络

第一周测验:网络爬虫之规则

2017-03-16 11:38 239 查看
1单选(1分)

下面哪个不是Python Requests库提供的方法?

A、.post()

B、.push()

C、.get()

D、.head()

答案:B

2单选(1分)

Requests库中,下面哪个是检查Response对象返回是否成功的状态属性?

A、.headers

B、.status

C、.status_code

D、.raise_for_status

答案:C

3单选(1分)

Requests库中,下面哪个属性代表了从服务器返回HTTP协议头所推荐的编码方式?

A、.text

B、.apparent_encoding

C、.headers

D、.encoding

答案:D

4单选(1分)

Requests库中,下面哪个属性代表了从服务器返回HTTP协议内容部分猜测的编码方式?

A、.text

B、.encoding

C、.apparent_encoding

D、.headers

答案:C

5单选(1分)

Requests库中,下面哪个是由于DNS查询失败造成的获取URL异常?

A、requests.Timeout

B、requests.HTTPError

C、requests.URLRequired

D、requests.ConnectionError

答案:D

6单选(1分)

以下哪个是不合法的HTTP URL?

A、http://223.252.199.7/course/BIT-1001871002#/

B、news.sina.com.cn:80

C、http://dwz.cn/hMvN8

D、https://210.14.148.99/

答案:B

7单选(1分)

在Requests库的get()方法中,能够定制向服务器提交HTTP请求头的参数是什么?

A、data

B、cookies

C、headers

D、json

答案:C

8单选(1分)

在Requests库的get()方法中,timeout参数用来约定请求的超时时间,请问该参数的单位是什么?

A、分钟

B、微秒

C、毫秒

D、秒

答案:D

9单选(1分)

下面哪个不是网络爬虫带来的负面问题?

A、法律风险

B、隐私泄露

C、性能骚扰

D、商业利益

答案:D

10单选(1分)

下面哪个说法是不正确的?

A、Robots协议可以作为法律判决的参考性“行业共识”。

B、Robots协议告知网络爬虫哪些页面可以抓取,哪些不可以。

C、Robots协议是互联网上的国际准则,必须严格遵守。

D、Robots协议是一种约定。

答案:C

11单选(1分)

如果一个网站的根目录下没有robots.txt文件,下面哪个说法是不正确的?

A、网络爬虫应该以不对服务器造成性能骚扰的方式爬取内容。

B、网络爬虫可以不受限制的爬取该网站内容并进行商业使用。

C、网络爬虫可以肆意爬取该网站内容。

D、网络爬虫的不当爬取行为仍然具有法律风险。

答案:B

12单选(1分)

百度的关键词查询提交接口如下,其中,keyword代表查询关键词:

http://www.baidu.com/s?wd=keyword

请问,提交查询关键词该使用Requests库的哪个方法?

A、.patch()

B、.get()

C、.post()

D、.put()

答案:B

13单选(1分)

获取网络上某个URL对应的图片或视频等二进制资源,应该采用Response类的哪个属性?

A、.text

B、.head

C、.content

D、.status_code

答案:C

14单选(1分)

Requests库中的get()方法最常用,下面哪个说法正确?

A、HTTP协议中GET方法应用最广泛,所以,get()方法最常用。

B、服务器因为安全原因对其他方法进行限制,所以,get()方法最常用。

C、get()方法是其它方法的基础,所以最常用。

D、网络爬虫主要进行信息获取,所以,get()方法最常用。

答案:B

15单选(1分)

下面哪些功能网络爬虫做不到?

A、爬取网络公开的用户信息,并汇总出售。

B、爬取某个人电脑中的数据和文件。

C、分析教务系统网络接口,用程序在网上抢最热门的课。

D、持续关注某个人的微博或朋友圈,自动为新发布的内容点赞。

答案:B

16填空(2分)

try:
r = requests.get(url)
r.__________________()
r.encoding = r.apparent_encoding
print(r.text)
except:
print("Error")


请在上述网络爬虫通用代码框架中,填写空格处的方法名称。

答案:
raise_for_status


17填空(2分)

在HTTP协议中,能够对URL进行局部更新的方法是什么?

得分/总分

答案:
PATCH


18填空(2分)

>>> kv = {'k': 'v', 'x': 'y'}
>>> r = requests.request('GET', 'http://python123.io/ws', params=kv)
>>> print(r.url)


上述代码的输出结果是什么?

答案:
http://python123.io/ws?k=v&x=y


19填空(2分)

某一个网络爬虫叫NoSpider,编写一个Robots协议文本,限制该爬虫爬取根目录下所有.html类型文件,但不限制其它文件。请填写robots.txt中空格内容:

User-agent:NoSpider
Disallow:___________


答案:
/*.html


20填空(2分)

>>>import requests
>>>r =  requests.get(url)


请填写下面语句的空格部分,使得该语句能够输出向服务器提交的url链接。

>>>print(r.____________)


答案:
url
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: