您的位置:首页 > 其它

[置顶] 文本分析杂记之一 课程资源

2018-02-05 11:36 260 查看
最近因为想分析一些文本,打算研究研究文本分析的相关技术,看看到底能分析到什么程度。之前做编译器相关的时候,关注过自然语言分析这块,但是没有太深入。这两年再看,优质的资料真的很多了,而且很多方向也做的很不错了。之前经常在Coursera | Online Courses From Top Universities. Join for Freewww.coursera.org听课,所以第一时间上去找了找了,找到了UIUC大学的两门课:Text Mining and AnalyticsText Retrieval and Search Engines都是ChengXiang Zhai开设的。同时,也推荐了自己的一些相关论文和著作作为课程的参考资料,这些资料目前在网络上都可以找到免费的:1、C. Zhai and S. Massung, Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining. ACM and Morgan & Claypool Publishers, 2016.2、Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing. MIT Press. Cambridge, MA: May 1999.3、Chengxiang Zhai, Exploiting context to identify lexical atoms: A statistical view of linguistic context. Proceedings of the International and Interdisciplinary Conference on Modelling and Using Context (CONTEXT-97), Rio de Janeiro, Brazil, Feb. 4-6, 1997, pp.4、Shan Jiang and ChengXiang Zhai, Random walks on adjacency graphs for mining lexical relations from big text data. Proceedings of IEEE BigData Conference 2014, pp.
自然语言处理(NLP)是文本分析的基础。自然语言处理(NLP)的大致过程有点类似于编程语言的分析,也只是过程类似(词法、语法、语义等),核心的东西差别还是很大的。自然语言因为是作为人类交流的语言,本身潜意识的省略了很多通识性的知识,这些知识是理解自然语言所需要的基础,人可以通过学习和交流自然习得这些常识,而计算机则在这个问题上则要费力很多。同时,本身自然语言表达的时候,其中包含了一些具有二义性的内容,这对计算机来说也是个问题。ambiguity可以分为word-level ambiguity和syntactic ambituity两个层级的。

PS:刚刚接触,一点记录,欢迎各位大神指正。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐