2017.06.15-2016.06.18回顾 loc/iloc/ix dataframe相关 oracle无自增去重 correl
2017-06-20 10:37
696 查看
上周最后阶段比较忙,主要是忙jd的数据测试的事情还有就是各种新产品的事情,下面回顾一下这段时间的工作。
1、上周四快下班的时候开了一个新产品的会,初步确定了风控策略,但是接近下班的时候又告诉我另外一个新产品需要紧急上线,同时jd的数据到了,草草看了下就下班了
2、pandas中loc/iloc/ix区别,loc按行名列名索引,iloc按下标索引(可以切片),ix可以混合前面两种索引方式,df不能通过df[:,3:5]类似于这种直接hash,必须用loc/iloc/ix,numpy可以直接hash
3、df.append是添加dataframe或者行,return是添加好的dataframe,其实行就是一个只包含一行的dataframe
4、两个series组成dataframe,a、b是两个Series,pd.DataFrame({a.name:a,b.name:b})
5、dataframe增加列也比较简单,df[:,'column_name'] = a,a可以是一个series/list
6、还遇到一个oracle无自增键去重的问题
row_number() over (partition by column1 order by column2)
这个语法的意思是按照column1进行分组,分组内部按照column的顺序进行编号,从1开始。
我发现oracle没有distinct on(column)的语法,在这种条件去重方面,最方便的还是pgsql,oracle有distinct,mysql有distinct。
在我的问题中有一点特殊,因为整行重复的,所以找不到一个column2来排序,但是依然可以正常编号,不影响去重
7、excel按身份证计算年龄,百度一搜很多例子,不用去记忆
8、excel也可以计算pearson相关系数,用到的是correl
9、周五一天主要都是搞京东数据的事情,一来上班的时候搞了一下r3c的审批逻辑,还未完成
10、一天之内写好了京东的逻辑,输出了结果,除了income给同事做,其他的框架全部搭好,用python写的规则引擎,并没什么新东西,注意的就是df.append需要赋值一道
11、mysql的power,对应到python是pow
12、pandas.read_csv()有个缺点就是,csv不能存储字符串,比如身份证,这个时候可以用read_excel函数
周末在家,运动没能坚持,只需要1个小时啊,执行力!还是没有请爽哥吃饭,该死,执行力啊(从台湾回来那个周一定要请了,第一优先级的事情)!
1、上周四快下班的时候开了一个新产品的会,初步确定了风控策略,但是接近下班的时候又告诉我另外一个新产品需要紧急上线,同时jd的数据到了,草草看了下就下班了
2、pandas中loc/iloc/ix区别,loc按行名列名索引,iloc按下标索引(可以切片),ix可以混合前面两种索引方式,df不能通过df[:,3:5]类似于这种直接hash,必须用loc/iloc/ix,numpy可以直接hash
3、df.append是添加dataframe或者行,return是添加好的dataframe,其实行就是一个只包含一行的dataframe
4、两个series组成dataframe,a、b是两个Series,pd.DataFrame({a.name:a,b.name:b})
5、dataframe增加列也比较简单,df[:,'column_name'] = a,a可以是一个series/list
6、还遇到一个oracle无自增键去重的问题
row_number() over (partition by column1 order by column2)
这个语法的意思是按照column1进行分组,分组内部按照column的顺序进行编号,从1开始。
我发现oracle没有distinct on(column)的语法,在这种条件去重方面,最方便的还是pgsql,oracle有distinct,mysql有distinct。
在我的问题中有一点特殊,因为整行重复的,所以找不到一个column2来排序,但是依然可以正常编号,不影响去重
7、excel按身份证计算年龄,百度一搜很多例子,不用去记忆
8、excel也可以计算pearson相关系数,用到的是correl
9、周五一天主要都是搞京东数据的事情,一来上班的时候搞了一下r3c的审批逻辑,还未完成
10、一天之内写好了京东的逻辑,输出了结果,除了income给同事做,其他的框架全部搭好,用python写的规则引擎,并没什么新东西,注意的就是df.append需要赋值一道
11、mysql的power,对应到python是pow
12、pandas.read_csv()有个缺点就是,csv不能存储字符串,比如身份证,这个时候可以用read_excel函数
周末在家,运动没能坚持,只需要1个小时啊,执行力!还是没有请爽哥吃饭,该死,执行力啊(从台湾回来那个周一定要请了,第一优先级的事情)!
相关文章推荐
- python pandas.DataFrame选取、修改数据最好用.loc,.iloc,.ix
- python pandas.DataFrame选取、修改数据最好用.loc,.iloc,.ix
- dataframe之df.loc、df.iloc、df.ix
- python pandas.DataFrame选取、修改数据最好用.loc,.iloc,.ix
- python pandas.DataFrame选取、修改数据最好用.loc,.iloc,.ix实现
- Python pandas.DataFrame在用ix, loc, iloc 索引的时候就相当于拷贝copy了一个对象
- python pandas.DataFrame选取、修改数据最好用.loc,.iloc,.ix
- python pandas.DataFrame选取、修改数据最好用.loc,.iloc,.ix
- 怎样解决python dataframe loc,iloc循环处理速度很慢的问题
- pandas中Dataframe的查询方法([], loc, iloc, at, iat, ix)
- Oracle Data Gurad Physical Standby 相关说明
- Oracle Data Gurad Physical Standby 相关说明
- Oracle Data Gurad Physical Standby 相关说明
- Pandas中ix,loc,iloc有什么区别?
- python pandas中的ix,loc和iloc
- Oracle Data Gurad Physical Standby 相关说明
- python的pandas包数据框单层索引操作核心方法loc,iloc,ix,query
- Pandas——ix vs loc vs iloc区别
- Oracle Data Gurad Physical Standby 相关说明
- Pandas中ix,loc,iloc有什么区别?