python多维数组分位数的求取方式
2020-03-11 17:50
489 查看
在python中计算一个多维数组的任意百分比分位数,只需用np.percentile即可,十分方便
import numpy as np a = [154, 400, 1124, 82, 94, 108] print np.percentile(a,95) # gives the 95th percentile
补充拓展:如何解决hive同时计算多个分位数的问题
众所周知,原生hive没有计算中位数的函数(有的平台会有),只有计算分位数的函数percentile
在数据量不大的时候,速度尚可。但是数据量一上来之后,完全计算不出来。
那么如何解决这个问题呢,我们可以使用 row_number() over()通过两次排序来解决同时计算多个分位数,速度飞快。
比如我们需要计算mkt_mcc_storeidx表下以mkt_label,mccgroup,month分组,value_mccgroup的分位数
第一步:利用row_number() over()给value_mccgroup在分组里排序,记录下排名
第二步:计算mkt_label,mccgroup,month分组下的数据总数
第三步:join前两步的结果,取rank=你需要计算的分位数位置,想计算多少个分位数就计算多少个
第四步:再排一次序,这次数据量就已经少了很多了,毕竟每组里面只有几个数据,记录排名
第五步:得到具体的分位数
第六步:行转成列,所有分位数计算完毕
后来查看了下SQL代码的执行树,发现percentile利用了map来存数据,怪不得这么耗内存,其实时间久并不是算的时间久,是因为内存不够了,系统一直在回收内存
而rank over 仅仅就是个排序而已
以上这篇python多维数组分位数的求取方式就是小编分享给大家的全部内容了,希望能给大家一个参考
您可能感兴趣的文章:
相关文章推荐
- python多维数组分位数的求取
- 在python中创建指定大小的多维数组方式
- python 多维数组的初始化生成
- Python数据分析 | (6)NumPy的多维数组对象ndarray
- 用最复杂的方式学会数组(Python实现动态数组)
- python中的矩阵,多维数组和numpy库的的使用
- Python 初始化多维数组代码
- 检车数组内number类型的小数位数(支持多维数组)
- python中使用numpy创建多维数组可能遇见的错误(data type not understood)
- python数组切片之多维数组赋值,用逗号分割
- C++多维数组:存储方式、访问方式和作为函数参数
- python 实现多维数组转向量
- python 多维数组的排序
- python读取图片的方式,以及将图片以三维数组的形式输出方法
- Java重修之路(五)数组基本概念,存储方式,遍历,排序,查找,多维数组
- python 用numpy生成多维随机数组
- Python中多维数组flatten的技巧
- c++ 遍历多维数组的10种方式
- php curl vs python提交多维数组+文件
- 多维数组存储的两种方式