您的位置:首页 > 编程语言 > Python开发

等等 python 爬虫

2016-03-21 14:28 429 查看
  # 匹配评论

        pattern6 = re.compile('<div id="review_.*?" class="reviewSelector.*?<!--etk-->', re.S)

        # 获得所有的评论

        items6 = re.findall(pattern6, html)

        # 遍历分析每一个评论内容

        for item in items6:

            # 获取用户的主页地址 http://www.tripadvisor.cn/members/打头
            p6_user_url ='href="members/(.*?)"'

            user_url = re.search().group()

            print(user_url)

            # 评论标题

            p6_rv_title = '<span class="noQuotes">(.*?)</span>'

            rv_title = re.search().group()

            # 评分

            p6_rv_rate = '<img class="sprite-rating_s_fill.*?alt=[0-9]分'

            rv_rate = re.search().group()

            # 发表时间

            p6_rv_time = '<span class="ratingDate">(.*?)</span>'

            rv_time = re.search().group()

            # 评论内容

            p6_rv_content = '<p class="partial_entry">(.*?)</p>'

            rv_content = re.search().group()
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python