spark 读取elasticsearch中数据不完整问题
2017-06-28 14:37
489 查看
使用spark读取elasticsearch中的数据,使用es提供的api来进行,
sc.esRDD("logstash").values
官方网站也是这种方式读取数据的,但是我测试的时候有时候会出现读取数据不完整的情况,比如本来读取的数据是这样的
Map(msg -> 2016-03-18 15:24:14 System_ID=ruijie sp_malware:Client_IP=172.40.1.100 Server_IP=61.4.184.50 URL=app.weather.com.cn/dataService/appManage file_name=web scanner2,virus_name=CIH3 Action=block_log Method=POST, srcip -> 172.40.1.100但是我读取的数据却是这样的
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:03 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:04 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:04 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:04 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:04 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:05 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:05 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:05 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:05 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:05 CST 2017)
看来这种读数据的方式是有问题的,后来就改成读取方式为下面这种方式,加上type
sc.esRDD("logstash/count").values
然后问题解决,
sc.esRDD("logstash").values
官方网站也是这种方式读取数据的,但是我测试的时候有时候会出现读取数据不完整的情况,比如本来读取的数据是这样的
Map(msg -> 2016-03-18 15:24:14 System_ID=ruijie sp_malware:Client_IP=172.40.1.100 Server_IP=61.4.184.50 URL=app.weather.com.cn/dataService/appManage file_name=web scanner2,virus_name=CIH3 Action=block_log Method=POST, srcip -> 172.40.1.100但是我读取的数据却是这样的
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:03 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:04 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:04 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:04 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:04 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:05 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:05 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:05 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:05 CST 2017)
Map(@version -> 1, @timestamp -> Wed Jun 28 14:36:05 CST 2017)
看来这种读数据的方式是有问题的,后来就改成读取方式为下面这种方式,加上type
sc.esRDD("logstash/count").values
然后问题解决,
相关文章推荐
- 关于spark读取elasticsearch中数据,但是无法实现过滤数据的问题
- 使用ifstream读取文件的数据不完整的问题
- java中读取缓冲流时接受数据不完整的问题
- 解决InputStream中数据读取不完整问题
- 从源码看Spark读取Hive表数据小文件和分块的问题
- spark中读取elasticsearch数据
- Spark Streaming 读取Kafka数据写入Elasticsearch
- elasticsearch的3个基本问题之读取数据
- java读取网络数据流不完整的问题
- spark中读取elasticsearch数据
- Spark通过https的方式读取elasticsearch中的数据
- spark streaming 读取kafka数据问题
- 24-java版Spark程序读取ElasticSearch数据
- spark读取hdfs数据本地性问题
- spark中读取elasticsearch数据
- C# 读取EXCEL文件出现数据丢失问题,数据不完整
- 网络编程:流式套接字应用数据完整包读取问题
- sparksql 从oracle读取数据然后整合到elasticsearch
- Word保存到数据以及读取的问题
- 用javascript读取xml,并进行修改xml数据,解决保存没有权限问题