在dataframe的一列上进行复杂的模式分离，同时在Python中保留原始列问题的回答

在dataframe的一列上进行复杂的模式分离，同时在Python中保留原始列

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个数据框df，我希望在我的列中用特定的值分隔来显示第一个单词和数字以及它的'T'值。我想要第一个用“-”分隔的单词及其T值。这是棘手的，因为有些T值用“-”分隔，而其他值则用“#”分隔。 例如，其中一个值中的-12T，以及另一个值中的\u 14T 数据： <pre><code>type free use total Hello-HEL-HE-A6123-123A-12T_TYPE-v.A 10 10 20 Hello-HEL-HE-A6123-123A-12T_TYPE-v.E 5 1 6 Hello-HEL-HE-A6123-123A-50T_TYPE-v.C 1 4 5 Hello-HEL-HE-A6123-123A-50T_TYPE-v.A 2 1 1 Happy-HAP-HA-R650-570A-90T_version-v.A 10 0 10 Kind-KIN-KI-T490-NET_14T-A.0 7 4 3 Kind-KIN-KI-T490-NET_14T-A.0 6 3 2 AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A 3 0 3 AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A 0 20 20 </code></pre> 所需： <pre><code> type free use total Hello 12T 10 10 20 Hello 12T 5 1 6 Hello 50T 1 4 5 Hello 50T 2 1 1 Happy 90T 10 0 10 Kind 14T 7 4 3 Kind 14T 6 3 2 AY14.5 6.4T 3 0 3 AY14.5 6.4T 0 20 20 </code></pre> 正在做： <pre><code>df['type']=df['type'].str.extract('(\w+(?=[-AYY]))')+ " "+ df['type'].str.extract('(?<=0G-)(.*?)(?=\-|_)') </code></pre> 这在下面起作用，但是，只有被转换的列仍然存在。其他列不存在： <pre><code>import pandas as pd def extract_value(s): regex = re.search(r'(^.+?)-.+?(\d+(?:\.\d+)?T)', s) if regex: first_word = regex.group(1) code = regex.group(2) return f'{first_word} {code}' return s df.columns = ['type'] df['type'] = df[type'].apply(lambda x: extract_value(x)) </code></pre> 但是，这仅提取具有特定模式的值。我如何将此应用于完整的样本集 感谢您的建议，我仍在排除故障

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

在dataframe的一列上进行复杂的模式分离，同时在Python中保留原始列

1 个回答

相关Python问题