Pandas如何实现一列数据分隔为两列

2024-12-09 技术教程

小编这次要给大家分享的是Pandas如何实现一列数据分隔为两列，文章内容丰富，感兴趣的小伙伴可以来了解一下，希望大家阅读完这篇文章之后能够有所收获。

分割成一个包含两个元素列表的列

对于一个已知分隔符的简单分割（例如，用破折号分割或用空格分割）.str.split() 方法就足够了。它在字符串的列（系列）上运行，并返回列表（系列）。

>>> import pandas as pd>>> df = pd.DataFrame({'AB': ['A1-B1', 'A2-B2']})>>> df AB0 A1-B11 A2-B2>>> df['AB_split'] = df['AB'].str.split('-')>>> df AB AB_split0 A1-B1 [A1, B1]1 A2-B2 [A2, B2]

分割成两列，每列包含列表的相应元素

下面来看下如何从：分割成一个包含两个元素列表的列至分割成两列，每列包含列表的相应元素。

>>> df['AB'].str[0]0 A1 AName: AB, dtype: object>>> df['AB'].str[1]0 11 2Name: AB, dtype: object

因此可以得到

>>> df['AB'].str.split('-', 1).str[0]0 A11 A2Name: AB, dtype: object>>> df['AB'].str.split('-', 1).str[1]0 B11 B2Name: AB, dtype: object

可以通过如下代码将pandas的一列分成两列：

>>> df['A'], df['B'] = df['AB'].str.split('-', 1).str>>> df AB AB_split A B0 A1-B1 [A1, B1] A1 B11 A2-B2 [A2, B2] A2 B2

补充知识：pandas某一列中每一行拆分成多行的方法

在处理数据过程中，常会遇到将一条数据拆分成多条，比如一个人的地址信息中，可能有多条地址，既有家庭地址也有工作地址，还有电话信息等等类似的情况，实际使用数据的时候又需要分开处理，这个时候就需要将这一条数据进行拆分成多条，以方便使用。

在pandas中如何对DataFrame进行相关操作呢，经查阅相关资料，发现了一个简单的办法，

info.drop(['city'], axis=1).join(info['city'].str.split(' ', expand=True).stack().reset_index(level=1, drop=True).rename('city'))

看起来非常之长，分开来看，流程如下：

将需要拆分的数据使用split拆分工具拆分，并使用expand功能拆分成多列

将拆分后的多列数据进行列转行操作(stack)，合并成一列

将生成的复合索引重新进行reset保留原始的索引,并命名

将上面处理后的DataFrame和原始DataFrame进行join操作，默认使用的是索引进行连接

具体操作如下：

预操作：生成需要使用的DataFrame

# 用来生成DataFrame的工具from pydbgen import pydbgenmyDB=pydbgen.pydb()# 生成一个DataFrameinfo = myDB.gen_dataframe(10,['name','phone','city','state'])

结果如下：

namephone-numbercitystate0Hannah Richard810-859-7815IrwinvilleLouisiana1Ronald Berry591-564-0585Glen EllenMinnesota2Caitlin Barron969-840-8580DuboisOklahoma3Felicia Stephens154-858-1233VeedersburgAlaska4Shelly Dennis343-104-9365MattapexVirginia5Nicholas Hill992-239-1954MonetaMinnesota6Steve Bradshaw164-081-7811Ten BroeckColorado7Gail Johnston155-259-9514WayanVirginia8John Gray409-892-4716DarlingtonPennsylvania9Katherine Bautista185-861-1677McNabTexas

假如现在我们要对city列进行进行拆分，按照空格拆分，转换成多行的数据，
第一步：拆分，生成多列

info_city = info['city'].str.split(' ', expand=True)

结果如下：

010IrwinvilleNone1GlenEllen2DuboisNone3VeedersburgNone4MattapexNone5MonetaNone6TenBroeck7WayanNone8DarlingtonNone9McNabNone

可以看到已经将原始数据拆分成了2列，对于无法拆分的数据为None

第二步：行转列

info_city = info_city.stack()

结果如下：

00Irwinville10Glen1Ellen20Dubois30Veedersburg40Mattapex50Moneta60Ten1Broeck70Wayan80Darlington90McNab

其中前面两列是索引，返回的是一个series，没有名字的series

第三步：重置索引，并命名（并删除多于的索引）

info_city = info_city.reset_index(level=1, drop=True)

结果如下：

0Irwinville1Glen1Ellen2Dubois3Veedersburg4Mattapex5Moneta6Ten6Broeck7Wayan8Darlington9McNab

第四步：和原始数据合并

info_new = info.drop(['city'], axis=1).join(info_city)

结果如下：

namephone-numberstatecity0Hannah Richard810-859-7815LouisianaIrwinville1Ronald Berry591-564-0585MinnesotaGlen1Ronald Berry591-564-0585MinnesotaEllen2Caitlin Barron969-840-8580OklahomaDubois3Felicia Stephens154-858-1233AlaskaVeedersburg4Shelly Dennis343-104-9365VirginiaMattapex5Nicholas Hill992-239-1954MinnesotaMoneta6Steve Bradshaw164-081-7811ColoradoTen6Steve Bradshaw164-081-7811ColoradoBroeck7Gail Johnston155-259-9514VirginiaWayan8John Gray409-892-4716PennsylvaniaDarlington9Katherine Bautista185-861-1677TexasMcNab

需要特别注意的是，需要使用原始的连接新生成的，因为新生成的是一个series没有join方法，也可以通过将生成的series通过to_frame方法转换成DataFrame，这样就没有什么差异了

写了这么多，记住下面的就行了：