checkenc - 自动文本编码识别
2016-03-15 17:13
274 查看
http://qinwenfeng.com/cn/checkenc/
不知道你有没有经常遇到读取文本数据的乱码问题,这很有可能是由于读取文本时所使用的编码格式不正确导致的。
有的时候人工判断文件编码是一件比较麻烦的事情,特别是有大量文本需要处理的时候,通过手工检索肯定是不现实的。
GB18030 编码的文件。
目前该包还没有发布到 CRAN ,可以通过 Github 安装,Windows 用户需要安装 Rtools。
除了
checkenc
不知道你有没有经常遇到读取文本数据的乱码问题,这很有可能是由于读取文本时所使用的编码格式不正确导致的。有的时候人工判断文件编码是一件比较麻烦的事情,特别是有大量文本需要处理的时候,通过手工检索肯定是不现实的。
jiebaR包里有一个
filecoding函数,这个函数使用了吴咏炜先生使用的文本编码检测方法,但是这个方法暂时没有办法识别
GB18030 编码的文件。
universalchardet是 火狐浏览器进行网页文本编码识别的一个 c++ 库,可以识别的编码种类更多一些。这里有一篇 02 年发表的相关文章,感兴趣的可以看一下。checkenc 使用
universalchardet进行识别。
目前该包还没有发布到 CRAN ,可以通过 Github 安装,Windows 用户需要安装 Rtools。
devtools::install_github("qinwf/checkenc")
checkenc("file.name")
除了
checkenc,文本编码识别方法还有 ICU 和 Enca,大家也可以自己尝试一下。
相关文章推荐
- Redux API之compose
- CentOS 6.5下利用Rsyslog+LogAnalyzer+MySQL部署日志服务器
- Java 从流中读取byte的奇怪现象,出现负值,详解
- IplImage 4通道转3通道
- python学习 3笔记
- 软件工程学习进度
- 几种简单排序的实现
- Android MVP 架构示例
- 169. Majority Element
- 如何用Scapy写一个端口扫描器?
- zabbix安装配置
- PAT (Top Level) Practise 1010 Lehmer Code (35)
- Arcgis server发布切片替换之前的注意事项
- Android ViewDragHelper完全解析 自定义ViewGroup神器
- 多重json转换为JAVA对象
- 三种内存问题与三种指针
- web进修之—Hibernate起步(1)
- 在某一数值范围内取随机数
- Leet code 67. Add Binary
- 【Oracle】 Oracle全文检索功能建立