您的位置:首页 > 其它

2015-12-30

2015-12-30 13:47 197 查看
今天是我在CSDN开通博客的第一天,因为我想把自己每天的工作内容和技术感想都记录下来,以后自己找也方便,今天Rosanna说开始准备下学期课IEMS5723的材料了,需要我给学生讲Python编程,去年我读Master的时候也有上这门课,基本上就是社交媒体,社交网络,自然语言处理,文本分类的一个入门,需要用Python做一些Assignment,Rosanna说她想我加入用Python写爬虫的内容,我说可以,之前我都是用request加beautifulsoup再加上google chrome去写爬虫,还是很实用的,她也给了个链接给我,是San
Diego State University的一个教程,看了下觉得还不错,但我觉得我到时应该主要讲request跟beautifulsoup,因为这两个最实用,urllib跟htmlparser还是简单讲讲好了。

今天项目做的工作就是把用户聊天记录做了下处理,每个用户的聊天记录都会通过我的服务器端代码,在我们这个系统里面,每个词用一个code表示,我把code

的2-Gram存在mongodb里面了,同时还有这个2-Gram出现的时间跟使用用户的唯一标识token,这样,每一条聊天记录都会在mongodb里面产生多条记录,这些记录对我们以后的研究是很有用的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: