如何抓取google的搜索结果?
2011-11-05 16:10
507 查看
昨天周末快下班的时候,看到QQ群一朋友在在问"如何抓取google的搜索结果?",平时这群高手也众多,都很活跃,今天突然没动静了(估计周末忙),我就去看了下google 的搜索结果页面的源码。源码中没有实际的“搜索的文字”,只是大量的js。虽然google的js代码写的阅读性不强,我也没有格式化去阅读,就试着找一些关键点(比方说 和ajax相关的,一些包含的其他js).我发现了一点东西:
http://www.google.com.hk/complete/search?q=hello 打开这个会得到一个js 文件,内容如下:
这里包含了“hello”的 相关关键词。(发挥你的想象,至少这个当做seo的数据源。)
不过还没有解决到上面的问题,又接着看代码(还是跳跃式的看),突然发现一句:“no_ajax_no_load.js”的时候,突然想到不支持ajax的用户能使用google吗?google这么大的公司肯定不会放弃禁止使用javascript的用户,我禁止javascript后测试后发现如下地址:
http://www.google.com.hk/search?hl=zh-CN&newwindow=1&safe=strict&gbv=1&q=hello
好了,问题解决了,搜索结果页面 源代码中包含抓取的内容,使用此url也不需要禁用javascript了。
说明:我没有实际写代码做抓取结果的测试,但我用站长的机器人工具(http://tool.chinaz.com/Tools/Robot.aspx)能获取内容。当然我想google肯定也相关的限制,比如:同一ip的访问频率限制等。
http://www.google.com.hk/complete/search?q=hello 打开这个会得到一个js 文件,内容如下:
window.google.ac.h(["hello",[["hello kitty","","0"],["hello kitty专卖店","","1"],["hello kitty图片","","2"],["hello","","3"],["hello kitty 手机","","4"],["hello world","","5"],["hello pizza","","6"],["hello teddy","","7"],["hellotxt","","8"],["hellocq","","9"]],{"k":1}])
这里包含了“hello”的 相关关键词。(发挥你的想象,至少这个当做seo的数据源。)
不过还没有解决到上面的问题,又接着看代码(还是跳跃式的看),突然发现一句:“no_ajax_no_load.js”的时候,突然想到不支持ajax的用户能使用google吗?google这么大的公司肯定不会放弃禁止使用javascript的用户,我禁止javascript后测试后发现如下地址:
http://www.google.com.hk/search?hl=zh-CN&newwindow=1&safe=strict&gbv=1&q=hello
好了,问题解决了,搜索结果页面 源代码中包含抓取的内容,使用此url也不需要禁用javascript了。
说明:我没有实际写代码做抓取结果的测试,但我用站长的机器人工具(http://tool.chinaz.com/Tools/Robot.aspx)能获取内容。当然我想google肯定也相关的限制,比如:同一ip的访问频率限制等。
相关文章推荐
- 如何抓取google的搜索结果?
- 绕GOOGLE防抓取搜索结果的方法
- IE中使用google的搜索程序时总是先弹出“查看在google.com.hk上的搜索结果”页面,如何让其直接返回搜索结果?
- python抓取google搜索结果
- 如何在Google搜索结果中显示网站的作者信息
- 如何去除Google搜索结果病毒提示
- 关于python抓取google搜索结果的若干问题
- 如何抓取谷歌,百度里面特定的搜索结果
- 关于python抓取google搜索结果的若干问题
- 如何让Google的搜索结果在新的页面打开
- 抓取 google 搜索结果
- python 抓取google搜索结果
- C#winform抓取百度,Google搜索关键词结果
- Google 将知道你的鼠标是如何在搜索结果页面上移动的
- firefox中实现onpropertychange在IE下的效果(google 124,000条搜索结果都可无视了)
- 使用 robots.txt 文件拦截或删除Google搜索蜘蛛抓取网页
- Google https搜索结果跳转时自动加https的方法
- Google工程师详述Google的搜索结果排列算法[选摘]
- 模拟Google首页(dwr实现ajax) 弹出补全搜索结果
- 多种方法取消Google搜索结果重定向|无需跳转直达目标网站