将多索引DF的行转置为列

人气:54 发布:2023-01-03 标签: python pandas pivot dataframe multi-index

问题描述

我有一个如下所示的df:

                       pid    time    
id           vid      

id1         vis_id1    pid1    t_0      
            vis_id1    pid2    t_1       

id2         vis_id2    pid1    t_3      
            vis_id2    pid2    t_4      
            vis_id2    pid3    t_5      
            vis_id2    pid4    t_6 

我希望为pidtime调换nn的df行,每个i

之前:

                       pid    time    
id           vid      

id1         vis_id1    pid1    t_0      
            vis_id1    pid2    t_1       

id2         vis_id2    pid2    t_3      
            vis_id2    pid2    t_4      
            vis_id2    pid3    t_5      
            vis_id2    pid4    t_6 

之后:

                     step1   step2     step3  step4      
id           vid      

id1         vis_id1    pid1     pid2     NA     NA         
                     
id2         vis_id2    pid1     pid2    pid3   pid4 
因此,原来的pid变为步骤1(我只能在转置之前重命名该列),然后将前面的pids转置,以便它们保持它们的顺序(向上->向下)到(左->右)。删除带有时间的列也会很有帮助。

推荐答案

我们可以根据Level=0使用groupby cumcount枚举组,作为索引的附加级别添加(set_index使用append=True添加到现有的多索引中),然后unstack添加到列中:

new_df = df.set_index(
    df.groupby(level=0).cumcount() + 1, append=True
).unstack()

new_df

              pid                   time               
                1     2     3     4    1    2    3    4
id  vid                                                
id1 vis_id1  pid1  pid2   NaN   NaN  t_0  t_1  NaN  NaN
id2 vis_id2  pid1  pid2  pid3  pid4  t_3  t_4  t_5  t_6

要匹配显示的输出,请仅选择所需的列,然后展平多索引:

new_df = df[['pid']].set_index(
    df.groupby(level=0).cumcount() + 1, append=True
).unstack()
new_df.columns = [f'step{i}' for i in new_df.columns.get_level_values(1)]

new_df

            step1 step2 step3 step4
id  vid                            
id1 vis_id1  pid1  pid2   NaN   NaN
id2 vis_id2  pid1  pid2  pid3  pid4

安装程序使用:

import pandas as pd

df = pd.DataFrame({
    'id': ['id1', 'id1', 'id2', 'id2', 'id2', 'id2'],
    'vid': ['vis_id1', 'vis_id1', 'vis_id2', 'vis_id2', 'vis_id2', 'vis_id2'],
    'pid': ['pid1', 'pid2', 'pid1', 'pid2', 'pid3', 'pid4'],
    'time': ['t_0', 't_1', 't_3', 't_4', 't_5', 't_6']
}).set_index(['id', 'vid'])

相关阅读Pandas Groupby / List to Multiple Rows

15