Zipf分布
2011-05-10 18:30
127 查看
Zipf分布
默认分类 2011-03-08 14:40:26 阅读27 评论0 字号:大中小 订阅有一个基本定律,就是大家常说对于内容的访问遵循80/20原则,也就是20%的内容,会占有80%的访问量。
Zipf分布与其类似。
这是一个定性的原则,定量来说,内容访问近似符合Zipf定律(Zipf's law), 这个定律是美国语言学家Zipf发现的,他在1932年研究英文单词的出现频率时,发现如果把单词频率从高到低的次序排列,每个单词出现频率和它的符号访问排名存在简单反比关系:
这里 r 表示一个单词的出现频率的排名,P(r)表示排名为r的单词的出现频率.
(单词频率分布中 C约等于0.1, a约等于1)
后人将这个分布称为齐夫分布,这个分布是一个统计型的经验规律,描述了这样一个定理:只有少数英文单词经常被使用,大部分的单词很少被使用。这个定理也在很多分布里面得到了验证,比如人们的收入,互联网的网站数量和访问比例,互联网内容和访问比例(其他分>布两个常数有所不同,a越大,分布越密集,对于VOD来说某些时候符合双zipf分布)。
相关文章推荐
- Zipf,Power-laws,Pareto分布
- ZIPF分布、PARETO分布和幂律分布
- zipf分布
- ZipF分布和索引设计
- Hadoop-1.2.1伪分布下 hive-0.10.0内嵌模式安装
- 多个图片平均分布
- RIP与OSPF路由重分布
- 二、Ubuntu14.04下安装Hadoop2.4.0 (伪分布模式)
- 正态分布的前世今生:误差分布曲线的确立
- hadoop全分布模式的详细操作
- hadoop学习第一天之伪分布模式安装( 上)
- Hadoop大象之旅007-配置Hadoop伪分布模式
- 《BI那点儿事》三国人物智力分布状态分析
- excel中散点图和折线图的区别(散点图时间均匀分布)
- Hadoop集群(第2期)_机器信息分布表
- 【UNIX】从一个可执行文件的生成到进程在内存中分布 (下)/进程的内存分布
- hadoop2.x 伪分布 安装部署
- 一款基于jQuery饼状图比例分布数据报表
- 分布式系统之数据存储&分布概览
- C语言中内存分布及程序运行中(BSS段、数据段、代码段、堆栈)