将数据写入cs

import csv import requests from bs4 import BeautifulSoup def spider(): url = 'https://de.wikipedia.org/wiki/Liste_der_Gro%C3%9F-_und_Mittelst%C3%A4dte_in_Deutschland' code = requests.get(url).text # Read source code and make unicode soup = BeautifulSoup(code, "lxml") # create BS object table = soup.find(text="Rang").find_parent("table") for row in table.find_all("tr")[1:]: partial_url = row.find_all('a')[0].attrs['href'] full_url = "https://de.wikipedia.org" + partial_url get_single_item_data(full_url) # goes into the individual sites def get_single_item_data(item_url): page = requests.get(item_url).text # Read source code & format with .text to unicode soup = BeautifulSoup(page, "lxml") # create BS object def getInfoBoxBasisDaten(s): return str(s) == 'Basisdaten' and s.parent.name == 'th' basisdaten = soup.find_all(string=getInfoBoxBasisDaten)[0] basisdaten_list = ['Bundesland', 'Regierungsbezirk:', 'Höhe:', 'Fläche:', 'Einwohner:', 'Bevölkerungsdichte:', 'Postleitzahl', 'Vorwahl:', 'Kfz-Kennzeichen:', 'Gemeindeschlüssel:', 'Stadtgliederung:', 'Adresse', 'Anschrift', 'Webpräsenz:', 'Website:', 'Bürgermeister', 'Bürgermeisterin', 'Oberbürgermeister', 'Oberbürgermeisterin'] with open('staedte.csv', 'w', newline='', encoding='utf-8') as csvfile: fieldnames = ['Bundesland', 'Regierungsbezirk:', 'Höhe:', 'Fläche:', 'Einwohner:', 'Bevölkerungsdichte:', 'Postleitzahl', 'Vorwahl:', 'Kfz-Kennzeichen:', 'Gemeindeschlüssel:', 'Stadtgliederung:', 'Adresse', 'Anschrift', 'Webpräsenz:', 'Website:', 'Bürgermeister', 'Bürgermeisterin', 'Oberbürgermeister', 'Oberbürgermeisterin'] writer = csv.DictWriter(csvfile, fieldnames=fieldnames, delimiter=';', quotechar='|', quoting=csv.QUOTE_MINIMAL, extrasaction='ignore') writer.writeheader() for i in basisdaten_list: wanted = i current = basisdaten.parent.parent.nextSibling while True: if not current.name: current = current.nextSibling continue if wanted in current.text: items = current.findAll('td') print(BeautifulSoup.get_text(items[0])) print(BeautifulSoup.get_text(items[1])) writer.writerow({i: BeautifulSoup.get_text(items[1])}) if '<th ' in str(current): break current = current.nextSibling print(spider())

1条回答

网友

1楼 · 发布于 2024-10-03 00:19:53

'。。。只写一个城市…'：为每个城市调用get_single_item_data。然后在这个函数中，在语句with open('staedte.csv', 'w', newline='', encoding='utf-8') as csvfile:中打开同名的输出文件，该语句将在每次调用函数时覆盖输出文件。在

将每个变量写入新行：在writer.writerow({i: BeautifulSoup.get_text(items[1])})语句中，将一个变量的值写入一行。相反，您需要做的是在开始查找页值之前为值创建一个字典。当您从页面中累积值时，您可以按字段名将它们放入字典中。然后在找到所有可用的值之后，调用writer.writerow。在

相关问题更多 >

编程相关推荐

热门问题

热门文章