如何从特定网站中获取数据

2024-10-03 15:30:38 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图从一个网站上搜集数据,为练习做一个分析。我在一个特定的网站上遇到了一些问题。该网站是关于西雅图地区警方的报告。我读了很多文章,但没有得到答案。URL是:https://data.seattle.gov/Public-Safety/real-time-911/nvqc-w7eg

我知道我应该使用BeautifulSoup并尝试找到一个关键字来进行搜索,然后将类型转换为文本。然而,我总是一无所获

import requests

URL = 'https://data.seattle.gov/Public-Safety/real-time-911/nvqc-w7eg'
page = requests.get(URL) 
from bs4 import BeautifulSoup
soup = BeautifulSoup(page.content)

我的目标是将表转换为.csv文件。有人能帮我吗


Tags: httpsimporturldatatime网站publicrequests
3条回答

使用lxmlhtml.parser解析HTML。有些比另一些有优势,包括lxml非常快

URL = 'https://data.seattle.gov/Public-Safety/real-time-911/nvqc-w7eg'
page = requests.get(URL) 
from bs4 import BeautifulSoup
soup = BeautifulSoup(page.text, "html.parser") #or lxml, htmlparser is just example

与其不使用字符串直接将其放入,不如将其与字符串一起放入,以便Python知道您正在处理解析器

试一试

soup = BeautifulSoup(page.text, "html.parser")

要创建BeautifulSoup对象,请执行以下操作:

soup = BeautifulSoup(page.text, "lxml")

或者

soup = BeautifulSoup(page.text, "html.parser")

或者

soup = BeautifulSoup(page.content, 'html.parser')

我认为,您应该使用lxml,因为它具有良好的性能

相关问题 更多 >