Python错误：“NoneType”对象没有使用Beautiful Soup的属性“find_all”

from bs4 import BeautifulSoup import requests import pandas as pd import csv import time url = 'http://www2.congreso.gob.pe/Sicr/TraDocEstProc/CLProLey2006.nsf/ec97fee42a2412d5052578bb001539ee/89045fe8ae896e2e0525751c005544cd?OpenDocument' page = requests.get(url) soup = BeautifulSoup(page.text, 'html.parser') table = soup.find('table', {'bordercolor' : '#6583A0'}) print(table)

3条回答

网友

1楼 · 编辑于 2024-10-06 15:27:37


import pandas as pd

df = pd.read_html(
    "http://www2.congreso.gob.pe/Sicr/TraDocEstProc/CLProLey2006.nsf/ec97fee42a2412d5052578bb001539ee/89045fe8ae896e2e0525751c005544cd?OpenDocument")[0]

print(df)
df.to_csv("Data.csv", index=False, header=None)

输出：view online

网友

2楼 · 编辑于 2024-10-06 15:27:37

我认为html包含一些使html解析器无法正确解析html的缺陷，您可以通过打印page.text然后打印soup来验证，您将发现该文档的某些部分已被解析器删除

但是，lxml解析器成功地解析了它，但存在缺陷，因为lxml在格式错误的html文档上更好：

rom bs4 import BeautifulSoup
import requests
import pandas as pd
import csv
import time

url = 'http://www2.congreso.gob.pe/Sicr/TraDocEstProc/CLProLey2006.nsf/ec97fee42a2412d5052578bb001539ee/89045fe8ae896e2e0525751c005544cd?OpenDocument'

page = requests.get(url)
soup = BeautifulSoup(page.text, 'lxml')


table = soup.find('table', {'bordercolor' : '#6583A0'})
print(table)

应该正确捕捉表标记

网友

3楼 · 编辑于 2024-10-06 15:27:37

因此，soup无法正确解析网站内容，因为一个标记不正确，并破坏了结构。您必须在解析它之前修复它：

url = 'http://www2.congreso.gob.pe/Sicr/TraDocEstProc/CLProLey2006.nsf/ec97fee42a2412d5052578bb001539ee/89045fe8ae896e2e0525751c005544cd?OpenDocument'

page = requests.get(url)
soup = BeautifulSoup(page.text.replace("</script\n", "</script>"), 'html.parser')

table = soup.find('table', {'bordercolor' : '#6583A0'})
print(table)

相关问题更多 >

编程相关推荐

热门问题

热门文章