使用beautifulsoup和python抓取和解析数据表

import csv import requests from bs4 import BeautifulSoup course_list = [] url = "https://www.cia.gov/library/publications/the-world-factbook/fields/print_2085.html" r = requests.get(url) soup=BeautifulSoup(r.content) for tr in soup.find_all('tr')[1:]: tds=tr.find_all('td') print (tds[1].text)

1条回答

网友

1楼 · 发布于 2024-09-29 22:32:32

根据您希望实现提取的方式，可以执行以下操作：

roadways = tds[1].text.strip().split('\n')

这将从第二列内容的开始和结束处删除一些空格，并用换行符将其拆分。结果将是这样一个列表：

^{pr2}$

从这里可以从内容中删除total或{}等标签：

roadways = [x[x.index(':')+1:].strip() for x in tds[1].text.strip().split('\n')]

这将导致以下列表：

['97,267 km', '18,481 km', '78,786 km (2002)']

您可以将其存储在CSV文件中：

export_file = open(..., 'w')
wr = csv.writer(export_file, quoting=csv.QUOTE_ALL)
wr.writerow(['total','paved','unpaved'])

对于提取的每一行：

wr.writerow(roadways)

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用beautifulsoup和python抓取和解析数据表

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >