您的位置:首页 > 编程语言 > Go语言

Google搜索从入门到精通(一)

2010-10-17 15:25 204 查看
本文简要的介绍了GOOGLE的历史和特点,GOOGLE的基本搜索语法和高级搜索语法,GOOGLE的特色功能,包括图片搜索、新闻组搜索和集成工具条等,还简单的介绍了一些常用搜索技巧和实用个案。尽管本文名为“GOOGLE搜索从入门到精通”,但事实上,笔者对运用GOOGLE进行搜索也尚处于“入门”阶段。:)

搜索结果要求包含两个及两个以上关键字

一般搜索引擎需要在多个关键字之间加上“+”,而GOOGLE无需用明文的“+”来表示逻辑“与”操作,只要空格就可以了。

示例:搜索所有包含关键词“易筋经”和“吸星大法”的中文网页
搜索:“易筋经 吸星大法”
结果:已搜索有关易筋经 吸星大法的中文(简体)网页。共约有774项查询结果,这是第1-10项 。 搜索用时 0.24秒。

注意:文章中搜索语法外面的引号仅起引用作用,不能带入搜索栏内。

搜索结果要求不包含某些特定信息

GOOGLE用减号“-”表示逻辑“非”操作。

示例:搜索所有包含“易筋经”而不含“吸星大法”的中文网页
搜索:“易筋经 -吸星大法”
结果:已搜索有关易筋经 -吸星大法的中文(简体)网页。 共约有5,150项查询结果,这是第1-10项 。 搜索用时 0.40秒。

注意:这里的“+”和“-”号,是英文字符,而不是中文字符的“+”和“-”。此外,操作符与作用的关键字之间,不能有空格。比如“易筋经 - 吸星大法”,搜索引擎将视为关键字为易筋经和吸星大法的逻辑“与”操作,中间的“-”被忽略。

搜索结果至少包含多个关键字中的任意一个

GOOGLE用大写的“OR”表示逻辑“或”操作。假定你是布兰妮和批头士的歌迷,现在要查找所有关于布兰妮和批头士的中文网页。

示例:搜索包含布兰妮“Britney”或者披头士“Beatles”、或者两者均有的中文网页。
搜索:“Britney OR Beatles OR 布兰妮 OR 批头士”
结果:已搜索有关Britney OR Beatles OR 布兰妮 OR 批头士的中文(简体)网页。共约有31,300项查询结果,这是第1-10项 。

注意:小写的“or”,在查询的时候将被忽略;这样上述的操作实际上变成了一次“与”查询。

“+”、“-”和“OR”的混合查询

混合查询涉及到逻辑操作符的顺序问题。一般而言,搜索引擎按照从左往右的顺序读取操作符号。如果只涉及“与”操作和“非”操作,则不会产生顺序问题,搜索结果数量和关键字顺序无关,不过,具体搜索的结果顺序会视关键字的顺序而定。单纯的“或”操作也同样道理。但是,如果“或”查询和其他两种查询混合在一起,问题就复杂了。现在我们做这样的查询:“所有关于Britney或者Beatles、但是没有Madonna相关信息的中文网页”。

搜索:“Britney OR Beatles -Madonna”
结果:已搜索有关Britney OR Beatles -Madonna的中文(简体)网页。 共约有16,200项查询结果,这是第1-10项 。 搜索用时0.23秒。

搜索:“-Madonna Britney OR Beatles”
结果:已搜索有关-Madonna Britney OR Beatles的中文(简体)网页。 共约有16,200项查询结果,这是第1-10项 。 搜索用时0.13秒。

搜索:“Britney -Madonna OR Beatles”
结果:找不到和您的查询-Britney -Madonna OR Beatles-相符的网页

搜索:“Britney OR -Madonna Beatles”
结果:找不到和您的查询-Britney OR -Madonna Beatles -相符的网页

可见,“或”操作的前后两个关键字必须是默认的“与”查询,否则,搜索引擎将无法完成搜索。

用“+”和“-”减少冗余信息

通常情况下,用一个关键字查询,会得到很多和查询目的不相关的冗余信息。我们总是希望,搜索结果的第一个条目中就包含所需要的信息。“+”和“-”很多时候就起到缩小搜索结果的范围,以提高查询结果命中率。

例:查阅天龙八部具体是哪八部。

分析:如果光用“天龙八部”做关键字,搜索结果有20,300项,而且排前列的主要与金庸的小说《天龙八部》相关,很难找到所需要的资讯。可以用两个方法减少无关结果。

(1)、如果你知道八部中的某一部,比如阿修罗,增加“阿修罗”关键字。“天龙八部 阿修罗”的搜索结果就只有1,050项,可以很快找到全部八部。

(2)、如果你不知道八部中的任何一部,但知道这与佛教相关,可以排除与金庸小说相关的记录。“天龙八部 佛教 -金庸”的查询结果为1,120项,可以迅速找到需要的资料。

通配符问题

很多搜索引擎支持通配符号,如“*”代表一连串字符,“?”代表单个字符等。Google对通配符支持有限。它目前只可以用“*”来替代单个字符,而且包含“*”必须用""引起来。比如,“"以*治国"”,表示搜索第一个为“以”,末两个为“治国”的四字短语,中间的“*”可以为任何字符。

搜索整个短语或者句子

Google的关键字可以是单词(中间没有空格),也可以是短语(中间有空格)。但是,用短语做关键字,必须加英文引号,否则空格会被当作“与”操作符。

示例:搜索关于第一次世界大战的英文信息。

搜索:“"world war I"”

结果:已向英特网搜索"world war i". 共约有937,000项查询结果,这是第1-10项 。 搜索用时0.06秒。

搜索引擎忽略的字符以及强制搜索

Google对一些网路上出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理。

示例:搜索关于www起源的一些历史资料。

搜索:“www的历史 internet”

结果:以下的字词因为使用过于频繁,没有被列入搜索范围: www 的. 已搜索有关www的历史 internet的中文(简体)网页。 共约有75,100项查询结果,这是第1-10项 。 搜索用时0.22秒。

我们看到,搜索“www的历史 internet”,但搜索引擎把“www”和“的”都省略了。于是上述搜索只搜索了“历史”和“internet”。这显然不符合要求。这里我顺便说一点搜索引擎分词的知识。当我们在搜索“www的历史”的时候,搜索引擎实际上把这个短语分成三部分,“www”、“的”和“历史”分别来检索,这就是搜索引擎的分词。所以尽管你输入了连续的“www的历史”,但搜索引擎还是把这个短语当成三个关键字分别检索。

如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。

搜索:“+www +的历史 internet”

结果:已搜索有关+www +的历史 internet的中文(简体)网页。 共约有25,000项查询结果,这是第1-10项 。 搜索用时0.05秒。

另一个强制搜索的方法是把上述的关键字用英文双引号引起来。在上例“”world war I””中,“I”其实也是忽略词,但因为被英文双引号引起来,搜索引擎就强制搜索这一特定短语。

搜索:“"www的历史" internet”

结果:已搜索有关"www的历史" internet的中文(简体)网页。 共约有7项查询结果,这是第1-6项 。 搜索用时0.26秒。

我们看到,这一搜索事实上把“www的历史”作为完整的一个关键字。显然,包含这样一个特定短语的网页并不是很多,不过,每一项都很符合要求。

注意:大部分常用英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行。

进阶搜索

上面已经探讨了Google的一些最基础搜索语法。通常而言,这些简单的搜索语法已经能解决绝大部分问题了。不过,如果想更迅速更贴切找到需要的信息,你还需要了解更多的东西。

对搜索的网站进行限制

“site”表示搜索结果局限于某个具体网站或者网站频道,如“www.sina.com.cn”、“edu.sina.com.cn”,或者是某个域名,如“com.cn”、“com”等等。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。

示例:搜索中文教育科研网站(edu.cn)上关于搜索引擎技巧的页面。

搜索:“搜索引擎 技巧 site:edu.cn”

结果:已搜索有关搜索引擎 技巧 site:edu.cn的中文(简体)网页。 共约有608项查询结果,这是第1-10项 。 搜索用时0.05秒。

示例:上著名IT门户网站ZDNET和CNET搜索一下关于搜索引擎技巧方面的资讯。

搜索:“"search engine" tips site:www.zdnet.com OR site:www.cnet.com”

结果:已在www.zdnet.com内搜索有关"search engine" tips OR site:www.cnet.com的网页。 共约有1,040项查询结果,这是第1-10项 。 搜索用时0.09秒。

注意,在这里Google有个小BUG。“已在www.zdnet.com内搜索…”,其实应该表述成“已在www.zdnet.com和www.cnet.com内搜索…”。

示例:搜索新浪科技频道中关于搜索引擎技巧的信息。

搜索:“搜索引擎 技巧 site:tech.sina.com.cn”

结果:已在tech.sina.com.cn搜索有关搜索引擎 技巧 的中文(简体)网页。 共约有163项查询结果,这是第1-10项 。 搜索用时0.07秒。

注意:site后的冒号为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一个搜索的关键字。此外,网站域名不能有“http://”前缀,也不能有任何“/”的目录后缀;网站频道则只局限于“频道名.域名”方式,而不能是“域名/频道名”方式。

在某一类文件中查找信息

“filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说,Google不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。目前,Google已经能检索微软的Office文档如.xls、.ppt、.doc,.rtf,WordPerfect文档,Lotus1-2-3文档,Adobe的.pdf文档,ShockWave的.swf文档(Flash动画)等。其中最实用的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。目前Google检索的PDF文档大约有2500万左右,大约占所有索引的二进制文档数量的80%。PDF文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。

示例:搜索几个资产负债表的Office文档。

搜索:“资产负债表 filetype:doc OR filetype:xls OR filetype:ppt”

结果:已搜索有关资产负债表 filetype:doc OR filetype:xls OR filetype:ppt的中文(简体)网页。 共约有481项查询结果,这是第1-10项 。 搜索用时0.04秒。

注意,下载的Office文件可能含有宏病毒,谨慎操作。

示例:搜索一些关于搜索引擎知识和技巧方面的PDF文档

搜索:“"search engine" tips OR tutorial filetype:pdf”

结果:已向英特网搜索"search engine" tips OR tutorial filetype:pdf. 共约有12,600项查询结果,这是第1-10项 。 搜索用时0.22秒。

我们来看其中的一个结果:

[PDF]Search Engines Tips

文档类型: PDF/Adobe Acrobat - HTML 版

... http://www.google.com/press/zeitgeist.html See what people are searching on at Google.com

* Search Engine Watch http://searchenginewatch.com/ Some free tips ...

www.allvertical.com/PromoKits/SearchEngineTips.pdf - 类似网页

可以看到,Google用[PDF]来标记这是一个PDF的文档检索,另外,它还给出了该PDF文档的HTML版本,该HTML版保留了文档的文字内容和结构,但没有图片。

搜索的关键字包含在URL链接中

“inurl”语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。

示例:查找MIDI曲“沧海一声笑”。

搜索:“inurl:midi “沧海一声笑””

结果:已搜索有关inurl:midi "沧海一声笑"的中文(简体)网页。 共约有27项查询结果,这是第1-10项 。 搜索用时0.34秒。

注意:“inurl:”后面不能有空格,Google也不对URL符号如“/”进行搜索。例如,Google会把“cgi-bin/phf”中的“/”当成空格处理。

“allinurl”语法返回的网页的链接中包含所有作用关键字。这个查询的关键字只集中于网页的链接字符串。

示例:查找可能具有PHF安全漏洞的公司网站。通常这些网站的CGI-BIN目录中含有PHF脚本程序(这个脚本是不安全的),表现在链接中就是“域名/cgi-bin/phf”。

搜索:“allinurl:"cgi-bin" phf +com”

结果:已向英特网搜索allinurl:"cgi-bin" phf +com. 共约有51项查询结果,这是第1-10项 。 搜索用时0.11秒。

搜索的关键字包含在网页标题中

“intitle”和“allintitle”的用法类似于上面的inurl和allinurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面。

示例:查找日本明星藤原纪香的照片集。

搜索:“intitle:藤原纪香 "写真集"”

结果:已搜索有关intitle:藤原纪香 "写真集"的中文(简体)网页。 共约有315项查询结果,这是第1-10项 。 搜索用时0.15秒。

搜索的关键字包含在网页的“锚”(anchor)链点内

所谓“锚”,就是在同一个网页中快速切换链接点。与URL和TITLE类似,Google提供了两种对anchor的检索,“inanchor”和“allincnchor”。对此不作详述。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: