用不同的姓氏数刮取姓名列表

import urllib.request import bs4 as bs import csv source = urllib.request.urlopen("https://www.riksdagen.se/sv/ledamoter-partier/").read() soup = bs.BeautifulSoup(source, "lxml") data = [] for span in soup.find_all("span", {"class": "fellow-name"}): cleanednames = span.text.strip() data.append(cleanednames) #fields are appended to list rather printing with open("riksdagsledamoter.csv", "w") as stream: fieldnames = ["Last_Name","First_Name","Party"] var = csv.DictWriter(stream, fieldnames=fieldnames) var.writeheader() for item in data: last_name, First_name, party = item.split() #splitting data in 3 fields last_name = last_name.replace(",","") #removing ',' from last name party = party.replace("(","").replace(")","") #removing "()" from party var.writerow({"Last_Name": last_name,"First_Name": First_name, "Party": party}) #writing to csv row

3条回答

网友

1楼 · 编辑于 2024-09-27 21:27:23

下面是一个简单的正则表达式，应该可以做到这一点

 import re
 print(re.match("(.*), (.*) \((.*)\)", 'Alm Ericson, Janine (MP)').groups())

灵感来自科伦丁的回答

网友

2楼 · 编辑于 2024-09-27 21:27:23

显然，分裂不是一个好的解决办法。（或者用逗号和圆括号而不是空格分隔）

使用regexp:

import re
re.match('([^,]*), ([^(]*) \((.*)\)', 'Alm Ericson, Janine (MP)').groups()

退货

('Alm Ericson', 'Janine', 'MP')

网友

3楼 · 编辑于 2024-09-27 21:27:23

我猜你也可以使用函数返回列表中的部分（不像已经给出的答案那么干净）

def getParts(inputString):
    list1 = inputString.split(",")
    list2 = list1[1].split("(")
    finalList = [list1[0], list2[0].strip(),list2[1].replace(")","")]
    return finalList

inputString = 'Alm Ericson, Janine (MP)'

print(getParts(s))

相关问题更多 >

编程相关推荐

热门问题

热门文章