您的位置:首页 > 其它

spark 中 rdd to dataframe 问题

2017-03-02 13:54 507 查看
在spark streaming 过程中遇到数据不对的地方,最有check 到时我们RDD到dataframe 出现了问题

  rowRdd = rdd.flatMap(build_data_row)

  statsRdd = rowRdd.map(map_to_id)

  dfstats = sqlContext.createDataFrame(statsRdd, schema=docShema)

上面的程序中map_to_id 这个function 尽管return Row(.......) 但是在sqlContext.createDataFrame 中出现数据跟预期的不一样的情况

最后从spark 的文档发现, RDD ==> DataFrame 中要指定schema, 或者sampleRatio 的, 如果没有指定的话,可能出现数据的错乱

尤其是在table 字段很多的情况下.

PS:

data – an RDD of Row/tuple/list/dict, list, or pandas.DataFrame
schema – a StructType or list of names of columns
samplingRatio – the sample ratio of rows used for inferring
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: