我试图从df['Text']系列中提取一个药物名称,如果df['Stem']中的后缀与药物名称的后缀匹配。在
print (df['Text'])
Text
1/1/11 (USA) neoadjuvant arimidex
1/2/11 radafaxine + cisplatin.
1/3/11 abc letrozole
print (df['Stem'])
Stem
dex
zole
platin
axine
amivir
arit
期望输出为:
^{pr2}$以下是我所做的提取和创造一个新的系列'毒品':
^{3}$但是,它是重复的,我想创建一个函数,可以迭代'文本',匹配包含后缀的药物名称,并提取它。我想知道有没有熊猫的方式来做这件事。提前谢谢你。在
更新: 根据MaxU的建议,我创建了一个与原始数据相似的新数据帧。在
print (df['Text_Long'])
Text_Long
2/1/14 (JK) DOCETAXEL, PYPHAMIDE
2/10/14 (JK) NITROZOLE
2/12/14-4/15/14 30MV PHOTONS TO LT arm, JC/WE 500JC IN 25OP
2/22/12 (Kansas/HEM)- NEOADJUVANT KITOTERE, DRYMYCIN, KITOXAN
4/11/11-11/24/11 (JK) CYCLOPHOSPHAMIDE, FLUOROURACIL
4/14/14 (CONN) GEMZAR + OPR. 11/25/14 (CONN) OPR.
4/12/12-10/2/12-KT-RIGHT ARM-5020 NYG, 24 PRESSURE
JK DRUG therapy: aritrozole
NITROZOLE STARTED ON 1/11/12 PER ADVICE
KFC X 2
maritinib & fosclitaxel.
Urioxifen
10/2/12 NEOADJUVANT FLOMIDEX
10/29/12 YUMYCIN, KITOXAN, TACXOL
11/11/14 (JK) GOODZOLE
2/12/12 (CONN) petbine + pastlatin.
4/2014 (CONN) Continue PSCORE for 2 cycles.
2/2015 to 5/2015 OSF (Stinson) XRT
5/19/10-2/21/10 HEMYCIN AND BASKIXAN
5/2/12-5/12/12 1000NY/20FL/30MT/OT A2-A9
2/2015 OPC (JK) DRUG THERAPY`print(stem)
以下是Github上包含后缀列表的excel文件: Link
再次感谢您的帮助和建议!在
假设您有以下DF:
以及:
^{pr2}$您可以执行以下操作:
更新:
注意:此解决方案已使用Pandas 0.19.2进行了测试-您可能对Pandas版本<;0.19.0(a few bugs were fixed in ^{} function in Pandas 0.19.0 )有问题
相关问题 更多 >
编程相关推荐