2015-12-30
2015-12-30 13:47
197 查看
今天是我在CSDN开通博客的第一天,因为我想把自己每天的工作内容和技术感想都记录下来,以后自己找也方便,今天Rosanna说开始准备下学期课IEMS5723的材料了,需要我给学生讲Python编程,去年我读Master的时候也有上这门课,基本上就是社交媒体,社交网络,自然语言处理,文本分类的一个入门,需要用Python做一些Assignment,Rosanna说她想我加入用Python写爬虫的内容,我说可以,之前我都是用request加beautifulsoup再加上google chrome去写爬虫,还是很实用的,她也给了个链接给我,是San
Diego State University的一个教程,看了下觉得还不错,但我觉得我到时应该主要讲request跟beautifulsoup,因为这两个最实用,urllib跟htmlparser还是简单讲讲好了。
今天项目做的工作就是把用户聊天记录做了下处理,每个用户的聊天记录都会通过我的服务器端代码,在我们这个系统里面,每个词用一个code表示,我把code
的2-Gram存在mongodb里面了,同时还有这个2-Gram出现的时间跟使用用户的唯一标识token,这样,每一条聊天记录都会在mongodb里面产生多条记录,这些记录对我们以后的研究是很有用的。
Diego State University的一个教程,看了下觉得还不错,但我觉得我到时应该主要讲request跟beautifulsoup,因为这两个最实用,urllib跟htmlparser还是简单讲讲好了。
今天项目做的工作就是把用户聊天记录做了下处理,每个用户的聊天记录都会通过我的服务器端代码,在我们这个系统里面,每个词用一个code表示,我把code
的2-Gram存在mongodb里面了,同时还有这个2-Gram出现的时间跟使用用户的唯一标识token,这样,每一条聊天记录都会在mongodb里面产生多条记录,这些记录对我们以后的研究是很有用的。
相关文章推荐
- Java循环
- java 统计某个短的字符串出现在大的字符串中的次数
- 2015年工作总结
- 相机 + 相册中获取相片并裁剪显示
- 用特征码秒杀各程序语言按钮事件
- android 十进制颜色值转化为十六进制颜色值的方法
- ROS安装
- Android开发笔记(三十四)Excel文件的读写
- opensuse安装gnome怀旧界面
- PHP中instanceof关键字
- [LeetCode]题解(python):081-Search in Rotated Sorted Array II
- Linux指令大全
- Kinect v2.0原理介绍之十三:面部帧获取
- MDM设备管理编程中遇到的一些问题
- CGlib 入门
- 蓝牙结构
- linux版本的区分
- express - ejs使用介绍
- HTML 限制文本框只能输入数字
- ssdt 表结构及hook的一般理解