爬虫实例(中国大学排名前10)
2017-11-16 16:01
309 查看
1、从网络上获得大学排名内容页面
2、将页面中信息提取为合适结构:
3、将信息按照一定格式打印出来:
然在主函数中调用这三个函数:
def main():
uinfo = []
url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
html = getHTMLText(url)
fillUnivList(uinfo,html)
printUnivList(uinfo,10)
最后记得调用主函数main()哦
def getHTMLText(url): try: r = requests.get(url,timeout = 20) r.raise_for_status r.encoding = r.apparent_encoding return r.text except: return ""
2、将页面中信息提取为合适结构:
def fillUnivList(ulist,html): soup = BeautifulSoup(html,"html.parser") for tr in soup.find('tbody').children: if isinstance(tr,bs4.element.Tag): #判断tr是不是bs4.element.Tag tds = tr('td') ulist.append([tds[0].string,tds[1].string,tds[3].string])
3、将信息按照一定格式打印出来:
def printUnivList(ulist,num): tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}" #{3}用于填充的单个字符,^居中显示,10槽的宽度 print(tplt.format("排名","学校名称","总分",chr(12288))) #chr(12288)用中文填充 for i in range(num): u = ulist[i] print(tplt.format(u[0],u[1],u[2],chr(12288)))
然在主函数中调用这三个函数:
def main():
uinfo = []
url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
html = getHTMLText(url)
fillUnivList(uinfo,html)
printUnivList(uinfo,10)
最后记得调用主函数main()哦
相关文章推荐
- 爬虫实例(二)——中国大学排名爬虫
- Python爬虫实践(10):实例2教务系统登录
- Python 爬虫实例(10)—— 四行代码实现刷 博客园 阅读数量
- Python网络爬虫与信息提取-Day10-(实例)中国大学排名定向爬虫
- python爬虫系列(1)——一个简单的爬虫实例
- phanomjsdriver使用和爬虫实例
- python爬虫人门(10)Scrapy框架之Downloader Middlewares
- 10) 泛型工厂方法创建实例ClassRegister [原创,泛型编程,自由下载转载,需注明出处]
- python爬虫实例之一
- 爬虫笔记(10/4)-------scrapy项目管理
- 使用Python的urllib和urllib2模块制作爬虫的实例教程
- 每日一个js实例10--回车键
- 爬虫笔记(10/7)-----------避免被禁止
- Python爬虫框架Scrapy实例代码
- python爬虫实例2017-3-14
- Python实例:网络爬虫抓取豆瓣3万本书(7)
- Python爬虫实例一
- Python爬虫爬取百度百科内容实例
- 使用Python进行新浪微博的mid和url互相转换实例(10进制和62进制互算)
- 网络爬虫讲解(附java实现的实例)