Pandas 合并多个Dataframe(merge,concat)
2017-03-29 10:08
806 查看
在数据处理的时候,尤其在搞大数据竞赛的时候经常会遇到一个问题就是,多个表单的合并问题,比如一个表单有user_id和age这两个字段,另一个表单有user_id和sex这两个字段,要把这两个表合并成只有user_id、age、sex三个字段的表怎么办的,普通的拼接是做不到的,因为user_id每一行之间不是对应的,像拼积木似的横向拼接肯定是不行的。pandas中有个merge函数可以做到这个实用的功能,merge这个词会点SQL语言的应该都不陌生。
下面说说merge函数怎么用:
用法很简单,说一下后两个参数就可以了,how=""参数表示以哪个表的key为准,上面的how="left"表示以表df1为准,而key也就是on=""的参数
how="left"就是说,保留user_id字段的全部信息,不增加也不减少,但是拼接的时候只把df2表中的与df1中user_id字段交集的部分合并上就可以了,如果df2中出现了某个user_id在df1中没有出现,就抛弃掉这个样本不作处理。
如果要进行多key合并:
但是如果想仅进行简单的“拼接”而不是合并呢,要使用concat函数:
这样可以保留这些表单的全部信息,参数axis=1表示列拼接,axis=0表示行拼接。
要保证背个表单的行数是相同的,并且每一行对应的key也是相同的,列拼接才变得有意义
下面说说merge函数怎么用:
df = pd.merge(df1, df2, how='left', on='user_id')
用法很简单,说一下后两个参数就可以了,how=""参数表示以哪个表的key为准,上面的how="left"表示以表df1为准,而key也就是on=""的参数
how="left"就是说,保留user_id字段的全部信息,不增加也不减少,但是拼接的时候只把df2表中的与df1中user_id字段交集的部分合并上就可以了,如果df2中出现了某个user_id在df1中没有出现,就抛弃掉这个样本不作处理。
如果要进行多key合并:
df = pd.merge(df1, df2, how='left', on=['user_id','sku_id'])
但是如果想仅进行简单的“拼接”而不是合并呢,要使用concat函数:
df = pd.concat( [df_user, dummies_sex, dummies_age, dummies_level], axis=1 )
这样可以保留这些表单的全部信息,参数axis=1表示列拼接,axis=0表示行拼接。
要保证背个表单的行数是相同的,并且每一行对应的key也是相同的,列拼接才变得有意义
相关文章推荐
- Pandas 合并多个Dataframe(merge,concat)的方法
- python - pandas dataFrame merge 数据合并
- DataFrame 数据合并,连接(merge,join,concat)
- pandas DataFrame(5)-合并DataFrame与Series
- python科学计算笔记(十三)pandas的merge、concat合并数据集
- pandas之dataframe去掉冗余行以及左连接合并dataframe
- pandas.Dataframe 的合并
- 【pandas】[3] DataFrame 数据合并,连接(merge,join,concat)
- 【pandas】[3] DataFrame 数据合并,连接(merge,join,concat)
- python 把几个DataFrame合并成一个DataFrame——merge,append,join,conca
- PANDAS 数据合并与重塑(concat join/merge)
- pandas将多个excel合并至一个DataFrame
- python pandas dataframe 按列或者按行合并的方法
- pandas DataFrame实现几列数据合并成为新的一列方法
- 【pandas】[3] DataFrame 数据合并,连接(merge,join,concat)
- pandas - merge, concat合并两张表
- 关于使用merge合并两个data_frame出现大量的空值的情况
- Pandas —— merge( )合并
- machine learning in coding(python):pandas数据包DataFrame数据结构简介
- python:merge、concat合并数据集