[导入]最近做了个短期程序“百度MP3搜索”,把内容帖一帖
2004-09-25 00:13
477 查看
百度[/b]MP3[/b]设计文档:[/b]
(2004-9-13,renzhongfang@nju.org.cn,有丰富输入法编程、串口编程[/b]、网络编程、网站设计、数据库编程[/b]经验,C、VC、java、VB)
1[/b]、需求[/b]
功能:通过程序从baidu(http://mp3.baidu.com/搜索内容,并提出内容(主要是URL地址),
主要要提交2个函数
void GetLyric(string SongName, string SingerName, string &Lyric); // 获得歌词
要求:
当SingerName为空时,对SongName的搜索进行精确匹配
当SingerName不空时,对SingerName和SongName作精确匹配
bool GetMusicUrl(bool test, MusicType type, string SongName, string SingerName,
string &Url1, string &Url2, string &Url3); // 获得歌曲链接
要求:
当test为TRUE时,对所取到的URL进行连接测试,要求至少有两个可以连接
当test为FALSE时,不做连接测试
enum MusicType { ALLMUSIC,MP3,RM,WMA,FLASH } 分别对应着baidu上的全部音乐,mp3,rm,wma,flash不同类型。根据类型的不同,分别取不同的URL
当SingerName为空时,对SongName的搜索进行精确匹配
当SingerName不空时,对SingerName和SongName作精确匹配
返回值:
当输入SongName与搜索到的mp3名称不符时,返回FALSE
当输入SongName与搜索到的mp3名称相符时,返回TRUE
提交内容:源程序及Demo程序,文档
要求语言:C++,最好用VC开发,用wininet或winhttp,不要用其它的http library
2[/b]、设计思路[/b]
从向BAIDUMP3搜索引擎模拟发送HTTP请求,获取网页内容然后提取歌词或者歌曲链接
分析1、百度MP3搜索的HTTP请求格式:
搜索“吻别”:
歌词: http://mp3.baidu.com/m?tn=baidump3lyric&ct=150994944&rn=10&word=吻别&lm=-1
ALLMUSIC: http://mp3.baidu.com/m?rn=&tn=baidump3&ct=134217728&word=吻别&lm=-1
MP3: http://mp3.baidu.com/m?tn=baidump3&ct=134217728&rn=&word=吻别&lm=0
RM: http://mp3.baidu.com/m?tn=baidump3&ct=134217728&rn=&word=吻别&lm=1
WMA: http://mp3.baidu.com/m?tn=baidump3&ct=134217728&rn=&word=吻别&lm=2
FLASH: http://mp3.baidu.com/m?tn=baidump3&ct=134217728&rn=&word=吻别&lm=6
仔细分析上面的链接会发现请求分为这么几段:
HTTP HEAD: http://mp3.baidu.com/m?
rn : 歌词时为10其他为空
tn : 查歌词时为baidump3lyric,查歌曲时为baidump3
ct : 查歌词时为150994944,查歌曲时为134217728
lm : 查歌词和查所有歌曲时为-1,MP3, RM, WMA, FLASH分别对应0, 1, 2, 6
word : 要查询的内容
其中rn, tn和lm的值都是不变的,而ct的值每天都在变化,需要先获取,检查http://mp3.baidu.com/的源代码发现如下这段代码:
function syn(form)
{
if (form.lm[0].checked){
form.rn.value="10";
form.tn.value="baidump3lyric";
form.ct.value="150994944";
} else{
if(form.lm[6].checked){
form.tn.value="baidump3ring";
form.ct.value="285212672";
} else {
form.tn.value="baidump3";
form.ct.value="134217728";
}
}
}
这样就可以先从http://mp3.baidu.com/提取ct的内容然后用来查询,提取方法有三种:
1、分析源代码,构建if、else二叉树,
2、找到form.lm[0].checked和form.lm[6].checked再查值
3、找到form.tn.value="xxxxxxx",然后查它附近的ct值即可
附近的:提取网页源码后,找到form.tn.value位置,向前找到{的位置,向后找到}的位置,这里面的内容里找到ct.value就是相应的tn.value对应的内容。
这些值确定下来以后,就可以根据用户查询内容来构造查询的HTTP请求了。
根据查询内容的HTTP请求获得源码内容以后,可以从中提取歌词和歌曲,提取关键词如下:
歌词:
string lyricHead = "<b><font size=+1><font style=color:#e10900>";
string lyricTail = "<p align=right>";
歌曲:
string songLinkHead = "word-break :break-all\"><a href=\"";
3、主要函数说明:
//获取一个URL对应的HTML源文件,使用了CHttpGet类(自己做的,有源码)
string GetURLPage(string url)
//测试一个URL的链接是否可用,使用了CHttpGet类(自己做的,有源码)
bool testConnection(string url)
//清除空格、回车、换行、tab
void ClearSpaces(string &str)
//初始化ct的值,成功则返回true,否则返回false
bool Initialize()
//析取page里面的音乐链接
vector<string> TearSongURLs(string page)
//去除html标志串
void StripTags(CString &html)
//析取page里面的第一个歌词
string TearLyric(string page)
//构造查询用的URL
string BuildURL(int searchIndex, string songName, string singerName)
//要提供的两个API
void GetLyric(string songName, string singerName, string &lyric)
bool GetMusicUrl(bool test, MusicType type,
string songName, string singerName,
string &url1, string &url2, string &url3)
-------------------------------------------------
2004-09-24 4:27 PM 尉迟方
这个项目承诺1000,我在第一次用MFC里面的CHttpXXX系列完成以后,用时半天,拿到500,然后客户说改用WinINet,因为整个项目不需要使用MFC,回来改。
发现[连接测试]有问题,如果获取mp3内容的话,太慢,不获取又不准确,所以后来改用多线程,获取部分内容的方式。不过这个并没有派上用场,因为后来跟客户谈判破裂:他让我把源码用email寄给他,源码是我能拿到合理报酬的最终依靠,我说当面给他或者先付款再给,他说我不信任他,我说信任是相互的,我不可能把源码这么给它。
他还说一开始已经给我500了,我说我已经把上一次MFC的源码给它,而且这个小东西重要的是分析,我已经整理成上面的文档给他了。这500元无论如何都是我应得的,最后,谈判破裂,他没给我另500元,我也没有给他源码。
呵呵,没想到啊,1000元的小项目也这么多波折。不过倒是查了查资料看了看WinInet的用法,下决心要把网络学好了,不能像这次开发这样到处找资料还心里没有底:)
2004-11-12 12:52 AM www.feedss.com
哈哈
前段时间,我也搞了一个
没啥意思
欢迎访问www.feedss.com
2005-02-25 8:49 PM niruiyu
其实用正则表达式,或者直接一个运行Javascript的容器,并运行之求得结果,是最直接地道的方法
前者很根本,我知道怎么做;后者没底,但是也应该可以。
(2004-9-13,renzhongfang@nju.org.cn,有丰富输入法编程、串口编程[/b]、网络编程、网站设计、数据库编程[/b]经验,C、VC、java、VB)
1[/b]、需求[/b]
功能:通过程序从baidu(http://mp3.baidu.com/搜索内容,并提出内容(主要是URL地址),
主要要提交2个函数
void GetLyric(string SongName, string SingerName, string &Lyric); // 获得歌词
要求:
当SingerName为空时,对SongName的搜索进行精确匹配
当SingerName不空时,对SingerName和SongName作精确匹配
bool GetMusicUrl(bool test, MusicType type, string SongName, string SingerName,
string &Url1, string &Url2, string &Url3); // 获得歌曲链接
要求:
当test为TRUE时,对所取到的URL进行连接测试,要求至少有两个可以连接
当test为FALSE时,不做连接测试
enum MusicType { ALLMUSIC,MP3,RM,WMA,FLASH } 分别对应着baidu上的全部音乐,mp3,rm,wma,flash不同类型。根据类型的不同,分别取不同的URL
当SingerName为空时,对SongName的搜索进行精确匹配
当SingerName不空时,对SingerName和SongName作精确匹配
返回值:
当输入SongName与搜索到的mp3名称不符时,返回FALSE
当输入SongName与搜索到的mp3名称相符时,返回TRUE
提交内容:源程序及Demo程序,文档
要求语言:C++,最好用VC开发,用wininet或winhttp,不要用其它的http library
2[/b]、设计思路[/b]
从向BAIDUMP3搜索引擎模拟发送HTTP请求,获取网页内容然后提取歌词或者歌曲链接
分析1、百度MP3搜索的HTTP请求格式:
搜索“吻别”:
歌词: http://mp3.baidu.com/m?tn=baidump3lyric&ct=150994944&rn=10&word=吻别&lm=-1
ALLMUSIC: http://mp3.baidu.com/m?rn=&tn=baidump3&ct=134217728&word=吻别&lm=-1
MP3: http://mp3.baidu.com/m?tn=baidump3&ct=134217728&rn=&word=吻别&lm=0
RM: http://mp3.baidu.com/m?tn=baidump3&ct=134217728&rn=&word=吻别&lm=1
WMA: http://mp3.baidu.com/m?tn=baidump3&ct=134217728&rn=&word=吻别&lm=2
FLASH: http://mp3.baidu.com/m?tn=baidump3&ct=134217728&rn=&word=吻别&lm=6
仔细分析上面的链接会发现请求分为这么几段:
HTTP HEAD: http://mp3.baidu.com/m?
rn : 歌词时为10其他为空
tn : 查歌词时为baidump3lyric,查歌曲时为baidump3
ct : 查歌词时为150994944,查歌曲时为134217728
lm : 查歌词和查所有歌曲时为-1,MP3, RM, WMA, FLASH分别对应0, 1, 2, 6
word : 要查询的内容
其中rn, tn和lm的值都是不变的,而ct的值每天都在变化,需要先获取,检查http://mp3.baidu.com/的源代码发现如下这段代码:
function syn(form)
{
if (form.lm[0].checked){
form.rn.value="10";
form.tn.value="baidump3lyric";
form.ct.value="150994944";
} else{
if(form.lm[6].checked){
form.tn.value="baidump3ring";
form.ct.value="285212672";
} else {
form.tn.value="baidump3";
form.ct.value="134217728";
}
}
}
这样就可以先从http://mp3.baidu.com/提取ct的内容然后用来查询,提取方法有三种:
1、分析源代码,构建if、else二叉树,
2、找到form.lm[0].checked和form.lm[6].checked再查值
3、找到form.tn.value="xxxxxxx",然后查它附近的ct值即可
附近的:提取网页源码后,找到form.tn.value位置,向前找到{的位置,向后找到}的位置,这里面的内容里找到ct.value就是相应的tn.value对应的内容。
这些值确定下来以后,就可以根据用户查询内容来构造查询的HTTP请求了。
根据查询内容的HTTP请求获得源码内容以后,可以从中提取歌词和歌曲,提取关键词如下:
歌词:
string lyricHead = "<b><font size=+1><font style=color:#e10900>";
string lyricTail = "<p align=right>";
歌曲:
string songLinkHead = "word-break :break-all\"><a href=\"";
3、主要函数说明:
//获取一个URL对应的HTML源文件,使用了CHttpGet类(自己做的,有源码)
string GetURLPage(string url)
//测试一个URL的链接是否可用,使用了CHttpGet类(自己做的,有源码)
bool testConnection(string url)
//清除空格、回车、换行、tab
void ClearSpaces(string &str)
//初始化ct的值,成功则返回true,否则返回false
bool Initialize()
//析取page里面的音乐链接
vector<string> TearSongURLs(string page)
//去除html标志串
void StripTags(CString &html)
//析取page里面的第一个歌词
string TearLyric(string page)
//构造查询用的URL
string BuildURL(int searchIndex, string songName, string singerName)
//要提供的两个API
void GetLyric(string songName, string singerName, string &lyric)
bool GetMusicUrl(bool test, MusicType type,
string songName, string singerName,
string &url1, string &url2, string &url3)
-------------------------------------------------
2004-09-24 4:27 PM 尉迟方
这个项目承诺1000,我在第一次用MFC里面的CHttpXXX系列完成以后,用时半天,拿到500,然后客户说改用WinINet,因为整个项目不需要使用MFC,回来改。
发现[连接测试]有问题,如果获取mp3内容的话,太慢,不获取又不准确,所以后来改用多线程,获取部分内容的方式。不过这个并没有派上用场,因为后来跟客户谈判破裂:他让我把源码用email寄给他,源码是我能拿到合理报酬的最终依靠,我说当面给他或者先付款再给,他说我不信任他,我说信任是相互的,我不可能把源码这么给它。
他还说一开始已经给我500了,我说我已经把上一次MFC的源码给它,而且这个小东西重要的是分析,我已经整理成上面的文档给他了。这500元无论如何都是我应得的,最后,谈判破裂,他没给我另500元,我也没有给他源码。
呵呵,没想到啊,1000元的小项目也这么多波折。不过倒是查了查资料看了看WinInet的用法,下决心要把网络学好了,不能像这次开发这样到处找资料还心里没有底:)
2004-11-12 12:52 AM www.feedss.com
哈哈
前段时间,我也搞了一个
没啥意思
欢迎访问www.feedss.com
2005-02-25 8:49 PM niruiyu
其实用正则表达式,或者直接一个运行Javascript的容器,并运行之求得结果,是最直接地道的方法
前者很根本,我知道怎么做;后者没底,但是也应该可以。
相关文章推荐
- 有沒有愛是可以重來的 (一)
- 影视音乐,不了的情怀
- 把男友升级为老公的时候发生的BUG
- 从头上拔下根黑色的线来
- 发张red hat 的截图,):-
- 我们真的需要英雄?
- 这段话真的好喜欢
- 奇怪:有关虚拟机
- [转载][翻译] 利用JSF、SpringFramework和Hibernate构建Web应用的实例讲述
- SpringFramework中的AOP简单使用
- 在网页中实现点击某一电话号码后拨通ip电话
- 俺也装linux 了
- 豺狼哲学
- Css中奇妙的Expression
- 从php3升级到php4出现的一个参数传递问题
- 纪念cynthia的钱包和我的aiwa随身听,希望看我blog的朋友坐车时当心小偷!
- 2004.09.24,Fri - 看了石家庄的图片,想家了
- 牙疼啊~
- 请参加首届CSDN.济南区聚会的程序员注意了,这里有一份CSDN杂志的读者调查反馈表要填!
- 一个关于tomcat的疑惑??