您的位置:首页 > 编程语言 > Python开发

2015-12-15python爬虫学习

2015-12-15 00:00 597 查看
今天白天上了一天课,上午离散数学,下午数据库。

都结课了,离散数学一直没怎么听。数据库大多数都听了,也掌握了最基本的。

接下来两周就是数据库课程设计。

值得一提的是,今天最后一节课数据库老师说画重点。结果把一本书的知识点都画进去了。

感觉老师是在完那你画我猜啊。

晚上回来还在一直研究爬虫,想爬取sina的热点话题。

写正则表达式的时候,一直遇到问题。就是一直只能匹配一个结果。

一下是我把源码提取出来并经过格式化代码得到的结果,本来html文件都在一行的。
http://weibo.cn/pub/?tf=5_005,这个页面的源码全在一行。
<body>
<div class="t">
<img src="http://u1.sinaimg.cn/upload/wap/img/logo-wap_20140328.png"
alt="LOGO" />
</div>
<div class="u">
<div class="ut">给蜗牛配点音乐,下午好!</div>
</div>
<div class="tip">
<a href="http://weibo.cn/?pos=65&s2w=admin">首页</a>.<a
href="/v2star/?pos=65">名人</a>.<a href="/page/261?pos=65">导航</a>.<a
href="http://vip.weibo.cn">会员</a>.<a
href="http://down.sina.cn/weibo/">客户端</a><br />
</div>
<div class="c">
<a
href="http://weibo.com/p/100808e903e9c6f954c7770505dc2947591cf9?pos=65">王宝强痛骂酒驾逃逸</a>
</div>
<div class="c">
<a
href="http://weibo.com/p/100808837542f8faf4d7d6d70d58d8b8e0874b?pos=65">实拍:女孩被母亲推入河中训斥</a>
</div>
<div class="c">
<a
href="http://weibo.com/p/1008085797e228591e19783b3218d3657a392c?pos=65">天了噜!一女子雾霾中串门找不到家</a>
</div>
<div class="c">
<form action="/search/" method="post">
<div>
<input type="text" name="keyword" value="" size="12" /><input
type="submit" name="suser" value="找人" /><input type="submit"
name="smblog" value="搜微博" />
</div>
</form>
</div>
<div class="tip">
<a href="/pub/topmblog?pos=65">热门微博</a>
</div>
<div class="c">
<a href="http://weibo.cn/5698201083/D8nDcxNku?pos=65">崩溃了!第一次和女网友视频</a>
</div>
<div class="c">
<a href="http://weibo.cn/1642512402/D8vtW1xFc?pos=65">容易读错的116个汉字</a>
</div>
<div class="c">
<a href="http://weibo.cn/2705478317/D8xfKqE3I?pos=65">好听!钢琴古筝合奏《葬花吟》</a>
</div>
<div class="c">
<a href="http://weibo.cn/5522810625/D8odNBMgP?pos=65">女神Man起来直女癌都能掰弯</a>
</div>
<div class="c">
<a href="http://weibo.cn/2230913455/D8xpIz8VT?pos=65">1993年华语乐坛巅峰时刻</a>
</div>
<div class="c">
<a href="/pub/topmblog?pos=65">查看更多>></a>
</div>
<div class="tip">
<a href="http://huati.weibo.cn">热门话题</a>
</div>
<div class="c">
<a
href="http://weibo.com/p/100808b150723a6c2d030d71df66a20d09da42?pos=65">职业乞丐开宝马上班</a>
</div>
<div class="c">
<a
href="http://weibo.com/p/100808fa8d4b8dd4374a996252dcc71b858851?pos=65">男子闻妻子内裤发现奸情</a>
</div>
<div class="c">
<a
href="http://weibo.com/p/10080879d73fc2fe67707d9e621902606f71cd?pos=65">尿毒症“未婚妈妈”创业自救</a>
</div>
<div class="c">
<a
href="http://weibo.com/p/100808d4347b8ee4853bb7ecbed216bf9e6f39?pos=65">男童惨遭父亲毒打致器官衰竭</a>
</div>
<div class="c">
<a
href="http://weibo.com/p/100808ce9bdb0b2c83047292b31c3cac27f5f7?pos=65">随便输液是变相谋杀</a>
</div>
<div class="c">
<a href="http://huati.weibo.cn">查看更多>></a>
</div>
<div class="tip">精品推荐</div>
<div class="c">
<a href="http://vip.weibo.cn">会员</a>.<a
href="http://weibo.cn/dpool/ttt/data.php?s2w=admin">微数据</a>.<a
href="/dpool/ttt/sharerank.php">微分享</a>
</div>
<div class="c">
<ahref ="/u/1658688240?pos=65">@手机微博 为您解答使用问题</a>
</div>
<div class="c">
<a
href="http://3g.sina.com.cn/3g/pro/index.php?tid=254&did=1354&vid=150">微博盗链举报!</a>
</div>
<div class="cd">
<a href="#top"><img
src="http://r3.sinaimg.cn/3g/image/upload/0/62/203/18979/5e990ec2.gif"
alt="TOP" /></a>
</div>
</body>
</html>

只要用正则匹配出来的结果就是

http://weibo.com/p/1008089df06f9e8dac54f7b21c113f91b5488e?pos=65">上海地铁现惊悚裸男涂鸦</a>        </div><div class="c"><a href="http://weibo.com/p/1008085797e228591e19783b3218d3657a392c?pos=65">天了噜!一女子雾霾中串门找不到家</a>        </div><div class="c"><a href="http://weibo.com/p/1008089af68004bed2fe8bf6912cbf64847a0a?pos=65">一元烟钱引发的悲剧?</a>        </div><div class="c"><form action="/search/" method="post"><div><input type="text" name="keyword" value="" size="12"/><input type="submit" name="suser" value="找人"/><input type="submit" name="smblog" value="搜微博"/>            </div></form></div><div class="tip"><a href="/pub/topmblog?pos=65">热门微博</a></div><div class="c"><a href="http://weibo.cn/1680002624/D8nP2wmcD?pos=65">一场情侣之间简单的对话</a>            </div><div class="c"><a href="http://weibo.cn/5522810625/D8odNBMgP?pos=65">女神Man起来直女癌都能掰弯</a>            </div><div class="c"><a href="http://weibo.cn/2705478317/D8xfKqE3I?pos=65">好听!钢琴古筝合奏《葬花吟》</a>            </div><div class="c"><a href="http://weibo.cn/2230913455/D8xpIz8VT?pos=65">1993年华语乐坛巅峰时刻</a>            </div><div class="c"><a href="http://weibo.cn/5659237191/D8miSeryO?pos=65">重口味疗法--灌大便</a>            </div><div class="c"><a href="/pub/topmblog?pos=65">查看更多>></a></div><div class="tip"><a href="http://huati.weibo.cn">热门话题</a></div><div class="c"><a href="http://weibo.com/p/100808386d43bc01026c64d911d24da7b12042?pos=65">少女校内遭多人扒衣猥亵</a>            </div><div class="c"><a href="http://weibo.com/p/10080879d73fc2fe67707d9e621902606f71cd?pos=65">尿毒症“未婚妈妈”创业自救</a>            </div><div class="c"><a href="http://weibo.com/p/100808783a7c456e2faebf891652ddbc88d6ec?pos=65">小学生写诗感叹周末补习太忙</a>            </div><div class="c"><a href="http://weibo.com/p/100808b150723a6c2d030d71df66a20d09da42?pos=65">职业乞丐开宝马上班</a>            </div><div class="c"><a href="http://weibo.com/p/100808ce9bdb0b2c83047292b31c3cac27f5f7?pos=65">随便输液是变相谋杀</a>            </div><div class="c"><a href="http://huati.weibo.cn">查看更多>></a></div><div class="tip"><a href="/pub/top?cat=star&pos=65">名人排行</a>.<ahref="/pub/top?cat=grass&pos=65">草根排行</a></div><table><tr><td valign="top"><a href="/npss" class="pl"><img src="http://tp3.sinaimg.cn/1237869662/50/5702634624/1" alt="头像" class="por" /></a></td><td valign="top"><a href="http://weibo.cn/npss" class="nk">南派三叔</a><img src="http://u1.sinaimg.cn/upload/2011/07/28/5338.gif" alt="V" /><img src="http://u1.sinaimg.cn/upload/h5/img/hyzs/donate_btn_s.png" alt="M"/><br/>粉丝11102026人<br/><a href="/attention/add?uid=1237869662&rl=0&st=802e22">关注他</a></td></tr></table><table><tr><td valign="top"><a href="/u/2049787153" class="pl"><img src="http://tp2.sinaimg.cn/2049787153/50/5739783622/1" alt="头像" class="por" /></a></td><td valign="top"><a href="http://weibo.cn/u/2049787153" class="nk">宁桓宇</a><img src="http://u1.sinaimg.cn/upload/2011/07/28/5338.gif" alt="V" /><img src="http://u1.sinaimg.cn/upload/h5/img/hyzs/donate_btn_s.png" alt="M"/><br/>粉丝2187342人<br/><a href="/attention/add?uid=2049787153&rl=0&st=802e22">关注他</a></td></tr></table><div class="c"><a href="/pub/top?cat=star&pos=65">查看更多>></a></div><div class="tip">精品推荐</div><div class="c"><a href="http://vip.weibo.cn">会员</a>.<a href="http://weibo.cn/dpool/ttt/data.php?s2w=admin">微数据</a>.<a href="/dpool/ttt/sharerank.php">微分享</a></div><div class="c"><ahref="/u/1658688240?pos=6

一个结果,后来我才发现。

sina的手机端源码都是一行,没有换行。这导致我在匹配的时候永远只能匹配一个结果。

我倒现在还没有解决这个问题,请问这个问题如何解决?
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: