Daily Scrum 11.5
2013-11-21 02:34
323 查看
我们已经确定了具体改进的方向和改进的具体实现措施。
具体今天的进度:
我们主要明确了重点的改进方向,还有一些细微的地方将在以后的实现过程中改进。
1.分词算法
分为两类:中文分词(中科院ICTCLAS算法)
英文分词(朴素贝叶斯算法(与词库匹配))
2.提取关键词的算法
tf-idf算法。具体idf的计算方式还要进一步学习。
3.数据库操作完善(排除冗余数据)
4. 增加机器翻译的工作。
5.pdf的关键信息提取。
明天要完成的事项:
1.学习Web数据挖掘中关于朴素贝叶斯算法的部分。(杨军)
2.下载中科院ICTCLAS的分词包,进行试验,观察分词效果。(杨军,柴泽华)
3.熟悉tf-idf算法。(柴泽华)
4.研究C#操作pdf进行信息提取。(徐姗)
总体上来说,今天已经确定了大家今后工作的方向,这也是我们第一轮迭代力争要完成的效果。
希望大家明确自己的分工,加油!
——edited by 柴泽华
具体今天的进度:
我们主要明确了重点的改进方向,还有一些细微的地方将在以后的实现过程中改进。
1.分词算法
分为两类:中文分词(中科院ICTCLAS算法)
英文分词(朴素贝叶斯算法(与词库匹配))
2.提取关键词的算法
tf-idf算法。具体idf的计算方式还要进一步学习。
3.数据库操作完善(排除冗余数据)
4. 增加机器翻译的工作。
5.pdf的关键信息提取。
明天要完成的事项:
1.学习Web数据挖掘中关于朴素贝叶斯算法的部分。(杨军)
2.下载中科院ICTCLAS的分词包,进行试验,观察分词效果。(杨军,柴泽华)
3.熟悉tf-idf算法。(柴泽华)
4.研究C#操作pdf进行信息提取。(徐姗)
总体上来说,今天已经确定了大家今后工作的方向,这也是我们第一轮迭代力争要完成的效果。
希望大家明确自己的分工,加油!
——edited by 柴泽华
相关文章推荐
- 11.5Daily Scrum
- Daily Scrum 11.5
- Daily Scrum 11.5
- Daily Scrum 11.5
- Daily Scrum 11.5
- Daily Scrum 11.5
- Daily scrum 11.5
- daily scrum 11.5
- How to register your own or the third ActiveX Control to the target PC using InstallShield 11.5 Pre Edition?
- 08年11.5大选美国总统奥巴马胜选演说,视频+中英手抄文本
- 本博客11.5~11.13期间暂停更新
- pb11.2可用pb11.5的lic文件
- daily scrum 6
- Daily scrum第二天!
- 11.5 第十一章小结
- PowerBuilder 11.5 以WebService为数据源生成数据窗口
- Daily Scrum 9.27
- Daily scrum 10.15
- daily scrum 11.1
- Daily scrum 11.5