您的位置:首页 > 编程语言 > Java开发

NLP入门实验

2017-04-09 17:24 302 查看
[1] 什么是 NLP(自然语言处理)

[2] 为什么要写博客

入手差不多有一个月,算是有点了解。前期总想着把自己一步步获取的知识写下来,用以作为知识路线为以后的深造指明方向。先,把前期做的几个小实验总结一下

[3] 内容摘要

这里只有简单的几个小实验,如果你想入门 NLP。建议看一下去搜一下,CSDN 中就有好多资料。这里可以帮你在刚刚入门后,自己动动手。当然,有一定基础的可以根据这几个实验入门 NLP。(实验非常简单,不懂的搜一搜就入门了)时间宝贵,决定去留吧!【不希望,你看后没有一点收获】

实验一:中文分词

语料:北大的人民日报语料。人民日报语料

要求:训练北大人民日报的语料,利用 正向最大匹配法 实现中文分词。(最简单的分词方法)详见如下





代码参考

ps:这只是一个简单的分词练习,现在有好多利用机器学习的方法来解决分词问题的。现在基于字标注的方法效果比较好(crf)

实验二:词性标注

语料:北大的人民日报语料。人民日报语料

要求:训练北大人民日报的语料,基于 HMM 实现词性标注。(提示:viterbi 动态规划算法)

代码参考

实验三:信息检索(布尔查询及VSM查询)

要求:详见如下



ps:注意这里的实验与 NLP 有点差异,但是也可以看做入门知识吧!

代码参考

ps:这里的代码并没有局限于实验要求,而是做了一个小型的检索引擎。

ps:关于搜索引擎的目前 google 等在完善语义搜索

实验四:基于LM(语言模型)的检索

要求:详见如下(只是下面的第二问)



代码参考

ps:该实验有点统计模型的思想,涉及到统计模型你就应该想到机器学习了吧!

感谢:实验内容由谭老师提供,感谢!

接下来要总结自己的入门路线了,奋斗ing 。。。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息