您的位置:首页 > 数据库 > Oracle

2017.06.15-2016.06.18回顾 loc/iloc/ix dataframe相关 oracle无自增去重 correl

2017-06-20 10:37 696 查看
上周最后阶段比较忙,主要是忙jd的数据测试的事情还有就是各种新产品的事情,下面回顾一下这段时间的工作。

1、上周四快下班的时候开了一个新产品的会,初步确定了风控策略,但是接近下班的时候又告诉我另外一个新产品需要紧急上线,同时jd的数据到了,草草看了下就下班了

2、pandas中loc/iloc/ix区别,loc按行名列名索引,iloc按下标索引(可以切片),ix可以混合前面两种索引方式,df不能通过df[:,3:5]类似于这种直接hash,必须用loc/iloc/ix,numpy可以直接hash

3、df.append是添加dataframe或者行,return是添加好的dataframe,其实行就是一个只包含一行的dataframe

4、两个series组成dataframe,a、b是两个Series,pd.DataFrame({a.name:a,b.name:b})

5、dataframe增加列也比较简单,df[:,'column_name'] = a,a可以是一个series/list

6、还遇到一个oracle无自增键去重的问题

row_number() over (partition by column1 order by column2)

这个语法的意思是按照column1进行分组,分组内部按照column的顺序进行编号,从1开始。

我发现oracle没有distinct on(column)的语法,在这种条件去重方面,最方便的还是pgsql,oracle有distinct,mysql有distinct。

在我的问题中有一点特殊,因为整行重复的,所以找不到一个column2来排序,但是依然可以正常编号,不影响去重

7、excel按身份证计算年龄,百度一搜很多例子,不用去记忆

8、excel也可以计算pearson相关系数,用到的是correl
9、周五一天主要都是搞京东数据的事情,一来上班的时候搞了一下r3c的审批逻辑,还未完成

10、一天之内写好了京东的逻辑,输出了结果,除了income给同事做,其他的框架全部搭好,用python写的规则引擎,并没什么新东西,注意的就是df.append需要赋值一道

11、mysql的power,对应到python是pow

12、pandas.read_csv()有个缺点就是,csv不能存储字符串,比如身份证,这个时候可以用read_excel函数

周末在家,运动没能坚持,只需要1个小时啊,执行力!还是没有请爽哥吃饭,该死,执行力啊(从台湾回来那个周一定要请了,第一优先级的事情)!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: