您的位置：首页 > 数据库 > Oracle

2017.06.15-2016.06.18回顾 loc/iloc/ix dataframe相关 oracle无自增去重 correl

2017-06-20 10:37 696 查看

上周最后阶段比较忙，主要是忙jd的数据测试的事情还有就是各种新产品的事情，下面回顾一下这段时间的工作。

1、上周四快下班的时候开了一个新产品的会，初步确定了风控策略，但是接近下班的时候又告诉我另外一个新产品需要紧急上线，同时jd的数据到了，草草看了下就下班了

2、pandas中loc/iloc/ix区别，loc按行名列名索引，iloc按下标索引（可以切片），ix可以混合前面两种索引方式，df不能通过df[:,3:5]类似于这种直接hash，必须用loc/iloc/ix，numpy可以直接hash

3、df.append是添加dataframe或者行，return是添加好的dataframe，其实行就是一个只包含一行的dataframe

4、两个series组成dataframe，a、b是两个Series，pd.DataFrame({a.name:a,b.name:b})

5、dataframe增加列也比较简单，df[:,'column_name'] = a，a可以是一个series/list

6、还遇到一个oracle无自增键去重的问题

row_number() over (partition by column1 order by column2)

这个语法的意思是按照column1进行分组，分组内部按照column的顺序进行编号，从1开始。

我发现oracle没有distinct on(column)的语法，在这种条件去重方面，最方便的还是pgsql，oracle有distinct，mysql有distinct。

在我的问题中有一点特殊，因为整行重复的，所以找不到一个column2来排序，但是依然可以正常编号，不影响去重

7、excel按身份证计算年龄，百度一搜很多例子，不用去记忆

8、excel也可以计算pearson相关系数，用到的是correl
9、周五一天主要都是搞京东数据的事情，一来上班的时候搞了一下r3c的审批逻辑，还未完成

10、一天之内写好了京东的逻辑，输出了结果，除了income给同事做，其他的框架全部搭好，用python写的规则引擎，并没什么新东西，注意的就是df.append需要赋值一道

11、mysql的power，对应到python是pow

12、pandas.read_csv()有个缺点就是，csv不能存储字符串，比如身份证，这个时候可以用read_excel函数

周末在家，运动没能坚持，只需要1个小时啊，执行力！还是没有请爽哥吃饭，该死，执行力啊（从台湾回来那个周一定要请了，第一优先级的事情）！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航