最优二叉查找树详解(算法导论学习笔记)
2017-06-08 09:04
507 查看
代码均未经过严格测试,仅供参考
动态规划通常是用来求解最优化问题(optimization problem).这类问题可以有很多个可行解,每个解都有一个值,我们希望寻找最优值(最大值或者最小值)的解。我们称这样的解为问题的一个最优解(oneoptimization solution)而不是最优解(theoptimization solution),因为可能有多个解都达到最优值。
通常按照如下四个步骤来设计一个动态规划算法:
刻画一个最优解的结构特征;
递归地定义最优解的值;
计算最优解的值,通常采用自底向上的方法;
利用计算出的线性构造一个最优解。
查找成功时的ASL计算方法:ASL=∑ni=0Pi∗Ci
n:记录的个数
pi:查找第i个记录的概率
( 不特别声明时认为等概率 pi =1/n )
ci:找到第i个记录所需的比较次数
约定:无特殊说明,一般默认关键字的类型为整型
ASLs:(查找成功的的平均查找长度)
ASLf:(查找失败的平均查找长度)
性质:带权内路径长度之和PH为最小值。
PH=∑ni=1(Wi∗Hi) 与ASLs成正比
其中n:二叉树上结点的个数(有序表长度)
Hi:第i个结点在二叉树上的层次数
Wi=c*pi:c为某个常量;
pi:第i个结点的查找概率
2)每次访问应使结点两边尚未访问的结点的被访概率之和尽可能相等。
比静态最优查找树易于构造,时间开销少
首先按照权值升序排列,每一次选择一个,右边所有节点权值相加和减去左边节点权值相加和 最小的节点作为根节点,然后以左边节点作为左子树,右边节点作为右子树,分别构造其次优查找树。
递推式的形式为dp[i][j]=min(dp[i][r−1]+dp[r+1][j]+sum[i][j])
可以考虑用四边形不等式优化。
我们来尝试使用动态规划算法构造最优查找树
记录了每个区间的PH值和根节点之后,再递归还原出整课最优查找树即可。
代码如下:
最优二叉查找树
动态规划原理
动态规划与分治法相似,都是通过组合子问题的解来求解原问题。动态规划通常是用来求解最优化问题(optimization problem).这类问题可以有很多个可行解,每个解都有一个值,我们希望寻找最优值(最大值或者最小值)的解。我们称这样的解为问题的一个最优解(oneoptimization solution)而不是最优解(theoptimization solution),因为可能有多个解都达到最优值。
通常按照如下四个步骤来设计一个动态规划算法:
刻画一个最优解的结构特征;
递归地定义最优解的值;
计算最优解的值,通常采用自底向上的方法;
利用计算出的线性构造一个最优解。
基本概念
平均查找长度ASL——查找方法时效的度量:为确定记录在查找表中的位置,需将关键字和给定值比较次数的期望值。查找成功时的ASL计算方法:ASL=∑ni=0Pi∗Ci
n:记录的个数
pi:查找第i个记录的概率
( 不特别声明时认为等概率 pi =1/n )
ci:找到第i个记录所需的比较次数
约定:无特殊说明,一般默认关键字的类型为整型
ASLs:(查找成功的的平均查找长度)
ASLf:(查找失败的平均查找长度)
关于静态最优查找树
定义:查找性能最佳的判定树。性质:带权内路径长度之和PH为最小值。
PH=∑ni=1(Wi∗Hi) 与ASLs成正比
其中n:二叉树上结点的个数(有序表长度)
Hi:第i个结点在二叉树上的层次数
Wi=c*pi:c为某个常量;
pi:第i个结点的查找概率
问题描述
给定n个不同关键字的已经排序的序列k1,k2,k3...kn我们希望用这些关键字构造一颗二叉搜索树,对每个关键字都有一个概率p表示其搜索频率。有些要搜索的值可能不在K中,因此我们还有n+1个”伪关键字”d0,d1,d2...dn其中d0表示所有小于k1的值,dn表示所有大于kn的值,对于i=1,2,3,4...n−1,di表示所有在ki到ki+1之间的值。对每个伪关键字di也都一个概率qi表示对应的搜索频率。每个关键字ki是一个内部节点,每一个关键字di表示一个叶节点。有∑ni=1pi+∑ni−1qi=1最优查找体现的原则:
1)最先访问的结点应是访问概率最大的结点;2)每次访问应使结点两边尚未访问的结点的被访概率之和尽可能相等。
关于次优查找树
PH值近似为最小比静态最优查找树易于构造,时间开销少
首先按照权值升序排列,每一次选择一个,右边所有节点权值相加和减去左边节点权值相加和 最小的节点作为根节点,然后以左边节点作为左子树,右边节点作为右子树,分别构造其次优查找树。
复杂度分析以及可能的优化
很显然由于需要枚举区间长度,区间端点以及根节点。所以算法复杂度为O(n3)递推式的形式为dp[i][j]=min(dp[i][r−1]+dp[r+1][j]+sum[i][j])
可以考虑用四边形不等式优化。
算法实现
次优查找树的实现非常简单,一个数组存储每个节点的权值。计算前缀和,找到差值最大的点作为根节点后。递归构造左子树和右子树的次优查找树。我们来尝试使用动态规划算法构造最优查找树
double p[MAXN];//用来记录每一个节点的查找概率 double q[MAXN];//用来记录伪关键字的搜索概率 double dp[MAXN][MAXN];//dp[i][j]表示从节点i到节点j构成的最优查找树的PH值的最小值 int root[MAXN][MAXN];//root[i][j]表示从节点i到节点j构成的最优查找树的根节点 double sum[MAXN][MAXN];//sum[i][j]表示区间i到j的的区间概率和 //伪代码如下 for(int 子树大小 len=1;len<=n;len++){ for(int 子树起点 i=1;i<n-len+1;i++){ int 子树的终点则为j=i+len-1 然后试图用每个节点作为根节点,找到使得总代价最小的一个 总代价为左右子树的代价相加+区间的概率和。因为每一个节点都往下移了一层 for(int r=i;r<=j;r++){ dp[i][j]=min(dp[i][r-1]+dp[r+1][j]+sum[i][j]); 并更新对应的根节点的值 } } }
记录了每个区间的PH值和根节点之后,再递归还原出整课最优查找树即可。
代码如下:
#include <iostream> #include <cstdio> #include <algorithm> #include <cmath> #include <cstring> #include <string> #include <vector> #include <map> #include <set> using namespace std; #define _ sync_with_stdio(false) typedef long long ll; const int MAXN=1000+10; const double INF=1e9+7; int n;//节点总个数 double p[MAXN];//用来记录每一个节点的查找概率 double q[MAXN];//用来记录伪关键字的搜索概率 double dp[MAXN][MAXN];//dp[i][j]表示从节点i到节点j构成的最优查找树的PH值的最小值 int root[MAXN][MAXN];//root[i][j]表示从节点i到节点j构成的最优查找树的根节点 double sum[MAXN][MAXN];//sum[i][j]表示区间i到j的的区间概率和 void solve(){ for(int len=1;len<=n;len++){ for(int i=1;i<=n-len+1;i++){ int j=i+len-1; dp[i][j]=INF; for(int r=i;r<=j;r++){ double temp; temp=dp[i][r-1]+dp[r+1][j]+sum[i][j]; if(temp<dp[i][j]){ root[i][j]=r; dp[i][j]=temp; } } } } } void init(){ for(int i=1;i<=n;i++){ for(int j=0;j<=n;j++){ if(j==i-1){ sum[i][j]=q[i-1]; dp[i][j]=q[i-1]; } else if(j>=i){ sum[i][j]=sum[i][j-1]+p[j]+q[j]; if(i==j){ //dp[i][j]=p[i]+q[i-1]+q[i]; root[i][j]=i; } dp[i][j]=0; }else{ sum[i][j]=0; dp[i][j]=0; } } } sum[n+1] =dp[n+1] =q ; } void dfs(int l,int r){ if(l>r){ cout<<"{}"; return; } cout<<root[l][r]; int Root=root[l][r]; cout<<"{"; dfs(l,Root-1); cout<<","; dfs(Root+1,r); cout<<"}"; return; } int main(){ freopen("in.txt", "r", stdin); cout<<"请输入待查找关键字的数量:"<<endl; cin>>n; cout<<"请输入"<<n<<"个待查找关键字的搜索频率:"<<endl; for(int i=1;i<=n;i++){ cin>>p[i]; } cout<<"请输入"<<n+1<<"个伪关键字的搜索频率:"<<endl; for(int i=0;i<=n;i++){ cin>>q[i]; } init(); solve(); cout<<"最小PH值为:"<<dp[1] <<endl<<"最优查找树构造如下:"<<endl; dfs(1,n); return 0; }
相关文章推荐
- DFT和FFT详解(算法导论学习笔记)
- 算法导论学习笔记-1
- 算法导论学习笔记-找数组中第二小的数
- 算法导论学习笔记-第十四章-数据结构的扩张
- Introduction to Algorithms 算法导论 第2章 算法入门 学习笔记及习题解答
- 二叉查找树 算法导论笔记
- Introduction to Algorithms 算法导论 第1章 基础知识 学习笔记及习题解答
- 算法导论学习笔记——基数排序
- Introduction to Algorithms 算法导论 第3章 函数的增长 学习笔记及习题解答
- 数据结构和算法分析学习笔记(三)--二叉查找树的懒惰删除(lazy deletion)
- 算法导论学习笔记(16)——图的基本算法
- 算法导论学习笔记-第十六章-贪心算法
- 算法学习导论学习笔记-第6章 堆排序
- Introduction to Algorithms 算法导论 第4章 递归式 学习笔记及习题解答
- 算法导论学习笔记-第五章-概率分析和随机算法
- 算法导论学习笔记-第二十章-斐波那契堆
- 算法导论学习笔记-第九章-中位数和顺序统计学
- 算法导论学习笔记-第2章 算法入门
- 算法导论学习笔记(11)——贪心算法之哈夫曼树
- 算法导论学习笔记(10)——动态规划之最优二叉查找树