您的位置：首页 > 其它

[置顶] 文本分析杂记之一课程资源

2018-02-05 11:36 260 查看

最近因为想分析一些文本，打算研究研究文本分析的相关技术，看看到底能分析到什么程度。之前做编译器相关的时候，关注过自然语言分析这块，但是没有太深入。这两年再看，优质的资料真的很多了，而且很多方向也做的很不错了。之前经常在Coursera | Online Courses From Top Universities. Join for Free www.coursera.org听课，所以第一时间上去找了找了，找到了UIUC大学的两门课：Text Mining and AnalyticsText Retrieval and Search Engines都是ChengXiang Zhai开设的。同时，也推荐了自己的一些相关论文和著作作为课程的参考资料，这些资料目前在网络上都可以找到免费的：1、C. Zhai and S. Massung, Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining. ACM and Morgan & Claypool Publishers, 2016.2、Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing. MIT Press. Cambridge, MA: May 1999.3、Chengxiang Zhai, Exploiting context to identify lexical atoms: A statistical view of linguistic context. Proceedings of the International and Interdisciplinary Conference on Modelling and Using Context (CONTEXT-97), Rio de Janeiro, Brazil, Feb. 4-6, 1997, pp.4、Shan Jiang and ChengXiang Zhai, Random walks on adjacency graphs for mining lexical relations from big text data. Proceedings of IEEE BigData Conference 2014, pp.
自然语言处理（NLP）是文本分析的基础。自然语言处理（NLP）的大致过程有点类似于编程语言的分析，也只是过程类似（词法、语法、语义等），核心的东西差别还是很大的。自然语言因为是作为人类交流的语言，本身潜意识的省略了很多通识性的知识，这些知识是理解自然语言所需要的基础，人可以通过学习和交流自然习得这些常识，而计算机则在这个问题上则要费力很多。同时，本身自然语言表达的时候，其中包含了一些具有二义性的内容，这对计算机来说也是个问题。ambiguity可以分为word-level ambiguity和syntactic ambituity两个层级的。

PS：刚刚接触，一点记录，欢迎各位大神指正。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

[置顶] 文本分析杂记之一 课程资源

[置顶] 文本分析杂记之一课程资源