NLP入门实验
2017-04-09 17:24
302 查看
[1] 什么是 NLP(自然语言处理)
[2] 为什么要写博客
入手差不多有一个月,算是有点了解。前期总想着把自己一步步获取的知识写下来,用以作为知识路线为以后的深造指明方向。先,把前期做的几个小实验总结一下
[3] 内容摘要
这里只有简单的几个小实验,如果你想入门 NLP。建议看一下去搜一下,CSDN 中就有好多资料。这里可以帮你在刚刚入门后,自己动动手。当然,有一定基础的可以根据这几个实验入门 NLP。(实验非常简单,不懂的搜一搜就入门了)时间宝贵,决定去留吧!【不希望,你看后没有一点收获】
要求:训练北大人民日报的语料,利用 正向最大匹配法 实现中文分词。(最简单的分词方法)详见如下
代码参考
ps:这只是一个简单的分词练习,现在有好多利用机器学习的方法来解决分词问题的。现在基于字标注的方法效果比较好(crf)
要求:训练北大人民日报的语料,基于 HMM 实现词性标注。(提示:viterbi 动态规划算法)
代码参考
ps:注意这里的实验与 NLP 有点差异,但是也可以看做入门知识吧!
代码参考
ps:这里的代码并没有局限于实验要求,而是做了一个小型的检索引擎。
ps:关于搜索引擎的目前 google 等在完善语义搜索
代码参考
ps:该实验有点统计模型的思想,涉及到统计模型你就应该想到机器学习了吧!
感谢:实验内容由谭老师提供,感谢!
接下来要总结自己的入门路线了,奋斗ing 。。。
[2] 为什么要写博客
入手差不多有一个月,算是有点了解。前期总想着把自己一步步获取的知识写下来,用以作为知识路线为以后的深造指明方向。先,把前期做的几个小实验总结一下
[3] 内容摘要
这里只有简单的几个小实验,如果你想入门 NLP。建议看一下去搜一下,CSDN 中就有好多资料。这里可以帮你在刚刚入门后,自己动动手。当然,有一定基础的可以根据这几个实验入门 NLP。(实验非常简单,不懂的搜一搜就入门了)时间宝贵,决定去留吧!【不希望,你看后没有一点收获】
实验一:中文分词
语料:北大的人民日报语料。人民日报语料要求:训练北大人民日报的语料,利用 正向最大匹配法 实现中文分词。(最简单的分词方法)详见如下
代码参考
ps:这只是一个简单的分词练习,现在有好多利用机器学习的方法来解决分词问题的。现在基于字标注的方法效果比较好(crf)
实验二:词性标注
语料:北大的人民日报语料。人民日报语料要求:训练北大人民日报的语料,基于 HMM 实现词性标注。(提示:viterbi 动态规划算法)
代码参考
实验三:信息检索(布尔查询及VSM查询)
要求:详见如下ps:注意这里的实验与 NLP 有点差异,但是也可以看做入门知识吧!
代码参考
ps:这里的代码并没有局限于实验要求,而是做了一个小型的检索引擎。
ps:关于搜索引擎的目前 google 等在完善语义搜索
实验四:基于LM(语言模型)的检索
要求:详见如下(只是下面的第二问)代码参考
ps:该实验有点统计模型的思想,涉及到统计模型你就应该想到机器学习了吧!
感谢:实验内容由谭老师提供,感谢!
接下来要总结自己的入门路线了,奋斗ing 。。。
相关文章推荐
- Arduino入门笔记(5):1602液晶实验(实现时钟)
- Linux入门-网络实验3.3
- NLP入门(一)词袋模型及句子相似度
- 《软件测试》实验——实验一 测试入门
- html5入门实验
- Cisco Packet Tracer入门实验之双机互联
- 汇编语言程序入门实验二:在dos下建立子目录操作
- 报表服务入门(实验3)配置虚拟目录
- 报表服务入门(实验9)安装Report Builder
- NLP(一)word2Vec实验
- AT91SAM7S64入门笔记----中断实验(3)
- Linux入门-网络实验3.3
- 微信实验三、微信公众号开发者PHP入门
- 【Oracle】Oracle 12c DB In-Memory入门实验手册(一)
- 实验1 Visual C++6.0开发环境入门
- 数据仓库入门(实验5)添加维度
- 山东大学数据科学实验----NLP说明
- FPGA入门实验三:计数器、波形仿真、SignalTap
- 汇编语言程序入门实验一:在dos下对用户输入作出应答
- ctf入门——实验吧