百度切词分词浅析
2013-11-25 19:28
162 查看
我们都知道投其所好,会很好的帮助我们达成自己的愿望。那么,针对百度切词分词,我们该如何投其所好呢?下面我们来简单絮叨一下百度切词分词浅析。
百度分词是根据内容中第一次出现关键词相关词为标准来分的。例如“天津京津皮肤病专科医院”这个词如果你的正文中第一个出现的是“天津”这个词,那么你的页面上的关键词就会被拆分成“天津”和“京津皮肤病专科医院”两个词,标题中一定要包含关键词,但不一定要完全匹配,但内容中出现的关键词是要跟百度分词完全匹配的,在完全匹配中又会根据文件URL路径的深度来进行排序,在关键词都完全匹配的情况下,比如说目录比文件有优先权,根目录下的文件要比二级目录下的文件有优先权,完全匹配的会排在前面,然后再是部分匹配的。
在关键词没有完全匹配的情况下,如果有分词,比如说:皮肤病医院,这个关键词,有一个网页里第一次出现的关键词是皮肤病,并且有较高的关键词密度,但是这个网页中却没有“医院”这个关键词而另一个网页里第一次出现的关键词是医院,那么这个网页的关键词就会被拆分成 皮肤病 医院 两个词,虽然第二个网页里包含有“皮肤病” “医院” 但是第一个网页还是会排在第二个网页的前面,这说明关键词的前面部分是最重要的。
关键词第一部分出现的频率是排名的关键,比如说 “皮肤病 医院”,如果两个网页都没有完全匹配,都是含有两个分词,那么“皮肤病”这个分词密度高的网页将会排在前面。
如果完全匹配,但是关键词第一出现是在页面内容的最后面部分,那么这个网页的排名将比前面这些页面还要低。所以关键词尽早在内容中出现是非常重要的。
百度根据第一次出现的相关关键词切词,如果第一次出现的相关关键词是关键词的尾部,那么就从后面开始切,如果是前面部分就从前面开始切,也就是根据网页内容的顺序和反序进行分词,顺序的时候就是以关键词前半部分为起点,反序的时候就是以关键词的后半部分为起点。例如:“天津京津皮肤病专科医院” 这个关键词,如果你的网页中第一次出现的关键词是“热血江湖sf”,那么你这个页面的关键词会被拆分成“热血江湖sf”和“今日新开”两个词。
可以根据百度的切词原理,自己来选择比较好作的关键词头部(也就是调整你网页内容中第一次出现的关键词)。也就是进行人为切词,百度会进行从前往后判断,也会从后往前面切。
如果切词出现前半部分和后半部分有重复,那么有重复的会比没重复的排名低,但如果都有重复那么就是根据前半部分的密度来判断。
例如:天津京津皮肤病专科医院 如果被切成 天津京津|京津皮肤病专科医院 (这样切出来的词前半部分太长,所以排名不利)那么排名肯定要比切成天津|京津皮肤病|医院 的排名差
如果在关键词没有完全匹配,并且关键词出现得不完整,比如说:天津京津皮肤病专科医院,网页的内容包含的关键词中如果没有“天津”这个词,那么切词就会从“京津”开始,但是这样的网页都会排在比较靠后了,因为你关键词的前部分都没有包含
缺词,如果与不缺词的网页进行比较的话,那还是根据切词前部分的密度进行排序,也就是说按照切词的顺序,如果切出来的词,前部分的密度比后部分的密度比例是关键,例如一个网页中,前部分与后部分关键词的比例是1:2,另外一个网页的比例是1:4,那么当然前面的那个网页排名要靠前。同样在缺词的情况下,切出来前词短的排名有优势
不缺词,但是关键词后面部分比前面部分先出现,例如“天津京津皮肤病专科医院” 医院这个词先出现,但是“天津京津皮肤病专科”这个词的密度又不高的话,那么排名会比那些缺词的还要靠后
同样是后词出现在前面,但是前词与后词的比例是关键,例如一个网页中包含有“医院” “天津京津皮肤病专科”这样两个词,比例为1:1另外一个网页包含的是 “京津皮肤病专科” “医院” “天津京津” 比例是2:1:1,那么前面的那个网页排名有优势,关键词的数量不是关键,出现的位置,以及分词的比例是非常关键的。越靠后的分词占的比例越多,排名越不利
关键词在正文中出现的位置过于靠后也是不利的,主词的密度太低也不利,前面的网页情况都是在主词密度差不多的情况下进行比较的。
百度分词是根据内容中第一次出现关键词相关词为标准来分的。例如“天津京津皮肤病专科医院”这个词如果你的正文中第一个出现的是“天津”这个词,那么你的页面上的关键词就会被拆分成“天津”和“京津皮肤病专科医院”两个词,标题中一定要包含关键词,但不一定要完全匹配,但内容中出现的关键词是要跟百度分词完全匹配的,在完全匹配中又会根据文件URL路径的深度来进行排序,在关键词都完全匹配的情况下,比如说目录比文件有优先权,根目录下的文件要比二级目录下的文件有优先权,完全匹配的会排在前面,然后再是部分匹配的。
在关键词没有完全匹配的情况下,如果有分词,比如说:皮肤病医院,这个关键词,有一个网页里第一次出现的关键词是皮肤病,并且有较高的关键词密度,但是这个网页中却没有“医院”这个关键词而另一个网页里第一次出现的关键词是医院,那么这个网页的关键词就会被拆分成 皮肤病 医院 两个词,虽然第二个网页里包含有“皮肤病” “医院” 但是第一个网页还是会排在第二个网页的前面,这说明关键词的前面部分是最重要的。
关键词第一部分出现的频率是排名的关键,比如说 “皮肤病 医院”,如果两个网页都没有完全匹配,都是含有两个分词,那么“皮肤病”这个分词密度高的网页将会排在前面。
如果完全匹配,但是关键词第一出现是在页面内容的最后面部分,那么这个网页的排名将比前面这些页面还要低。所以关键词尽早在内容中出现是非常重要的。
百度根据第一次出现的相关关键词切词,如果第一次出现的相关关键词是关键词的尾部,那么就从后面开始切,如果是前面部分就从前面开始切,也就是根据网页内容的顺序和反序进行分词,顺序的时候就是以关键词前半部分为起点,反序的时候就是以关键词的后半部分为起点。例如:“天津京津皮肤病专科医院” 这个关键词,如果你的网页中第一次出现的关键词是“热血江湖sf”,那么你这个页面的关键词会被拆分成“热血江湖sf”和“今日新开”两个词。
可以根据百度的切词原理,自己来选择比较好作的关键词头部(也就是调整你网页内容中第一次出现的关键词)。也就是进行人为切词,百度会进行从前往后判断,也会从后往前面切。
如果切词出现前半部分和后半部分有重复,那么有重复的会比没重复的排名低,但如果都有重复那么就是根据前半部分的密度来判断。
例如:天津京津皮肤病专科医院 如果被切成 天津京津|京津皮肤病专科医院 (这样切出来的词前半部分太长,所以排名不利)那么排名肯定要比切成天津|京津皮肤病|医院 的排名差
如果在关键词没有完全匹配,并且关键词出现得不完整,比如说:天津京津皮肤病专科医院,网页的内容包含的关键词中如果没有“天津”这个词,那么切词就会从“京津”开始,但是这样的网页都会排在比较靠后了,因为你关键词的前部分都没有包含
缺词,如果与不缺词的网页进行比较的话,那还是根据切词前部分的密度进行排序,也就是说按照切词的顺序,如果切出来的词,前部分的密度比后部分的密度比例是关键,例如一个网页中,前部分与后部分关键词的比例是1:2,另外一个网页的比例是1:4,那么当然前面的那个网页排名要靠前。同样在缺词的情况下,切出来前词短的排名有优势
不缺词,但是关键词后面部分比前面部分先出现,例如“天津京津皮肤病专科医院” 医院这个词先出现,但是“天津京津皮肤病专科”这个词的密度又不高的话,那么排名会比那些缺词的还要靠后
同样是后词出现在前面,但是前词与后词的比例是关键,例如一个网页中包含有“医院” “天津京津皮肤病专科”这样两个词,比例为1:1另外一个网页包含的是 “京津皮肤病专科” “医院” “天津京津” 比例是2:1:1,那么前面的那个网页排名有优势,关键词的数量不是关键,出现的位置,以及分词的比例是非常关键的。越靠后的分词占的比例越多,排名越不利
关键词在正文中出现的位置过于靠后也是不利的,主词的密度太低也不利,前面的网页情况都是在主词密度差不多的情况下进行比较的。
相关文章推荐
- 浏览器插件 - 通用注入模版JS
- jar 转换成dll
- sdn相关资料
- 2013-秋季校招之--java笔试--1
- 再来一道线段树的题。
- C语言字符串操作积累
- 第十三周 用迭代的方法输出Fibnacci序列中的第二十个数
- 黑PSD文件方法
- Java 统计英文单词
- TQ2440裸板---pwm时钟(详细注释)
- 安卓客户端解析json
- java 在控制台上输入密码时,密码不显示在控制台上
- 可执行文件信息查看工具代码示例
- java 成绩处理
- Curl盗取京东图片
- Win 32 多线程程序设计学习笔记之三:*WaitFor*Object函数
- IKVM简介
- 算法导论 第8章 线性时间排序-计数排序的原址排序
- 黑马程序员--Java基础之IO流(2)
- uva 10369(最小生成树)