我需要基于基于以下结构的文本文件创建Pandas数据帧:
Alabama[edit]
Auburn (Auburn University)[1]
Florence (University of North Alabama)
Jacksonville (Jacksonville State University)[2]
Livingston (University of West Alabama)[2]
Montevallo (University of Montevallo)[2]
Troy (Troy University)[2]
Tuscaloosa (University of Alabama, Stillman College, Shelton State)[3][4]
Tuskegee (Tuskegee University)[5]
Alaska[edit]
Fairbanks (University of Alaska Fairbanks)[2]
Arizona[edit]
Flagstaff (Northern Arizona University)[6]
Tempe (Arizona State University)
Tucson (University of Arizona)
Arkansas[edit]
带“[编辑]”的行是状态,[编号]的行是区域。我需要拆分以下内容,然后为每个区域名重复状态名。
Index State Region Name
0 Alabama Aurburn...
1 Alabama Florence...
2 Alabama Jacksonville...
...
9 Alaska Fairbanks...
10 Alaska Arizona...
11 Alaska Flagstaff...
熊猫数据框
我不知道如何将基于“[编辑]”和“[数字]”或“(字符)”的文本文件拆分到相应的列中,并为每个区域名称重复状态名称。请大家给我一个起点来完成以下工作。
您可以首先使用参数
name
来DataFrame
创建DataFrame
列Region Name
,分隔符是不在值中的值(如;
):然后^{} 新列} 行,其中文本} 所有值从
State
带有^{[edit]
和^{(
到列Region Name
。最后删除由^{} 创建文本} 创建:
[edit]
的行,掩码由^{如果需要,所有价值观解决方案更容易:
可以先将文件解析为元组:
输出:
假设您有以下DF:
您可以使用Series.str.extract()方法:
相关问题 更多 >
编程相关推荐