re.search（）始终返回None，并且找不到错误

link = "/detalleAviso/primera/243131/20210419" url = f"https://www.boletinoficial.gob.ar{link}" req = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) soup = BeautifulSoup(req.content, 'html.parser') a =soup.find(id="tituloDetalleAviso") b = a.find('h6').text b = str(b)

2条回答

网友

1楼 · 编辑于 2024-10-03 15:31:36

已经提供的公认答案直接回答了问题。但你真正想问的是“当这种情况发生时，我如何调试它？”

首先，注意详细说明您的需求。如果有人在6个月内给出了这个答案，你的导入是否有效

我在虚拟电视上做了pip install bs4 requests，然后pip freeze，我得到了这个：

$ python -V
Python 3.8.7
$ pip freeze
beautifulsoup4==4.9.3
bs4==0.0.1
certifi==2020.12.5
chardet==4.0.0
idna==2.10
requests==2.25.1
soupsieve==2.2.1
urllib3==1.26.4

其次，包括一个完全可运行的示例。包括import行，以显示导入BeautifulSoup、requests等的位置。这为回答者节省了大量时间

第三，您需要保留正在处理的字符串。显然，在您的计算机上，复制/粘贴是在进行某种形式的空白规范化。我不知道为什么，在macOS Big Sur和Emacs上，我可以清楚地看到复制/粘贴的字符串中有时髦的空格：

考虑到这一点，您需要执行以下操作：

import base64

print(base64.b64encode(b.encode("utf-8")))
print(b)

这种ASCII保护字符串值，使其可以逐位精确地重建，而无需依赖操作系统剪贴板使其保持完好无损。您将得到如下值：

b'REVDQUQtMjAyMS0zNjgtQVBOLUpHTSAtIERhc2UgcG9ywqBkZXNpZ25hZGEgRGlyZWN0b3JhIGRlwqBTZWd1aW1pZW50byB5wqBFdmFsdWFjacOzbiBkZcKgbGHCoEdlc3Rpw7NuLg=='

然后，您可以使用base64.b64decode(...).decode("utf-8")将其加载回，以确保人们可以看到完全相同的内容，即使被刮取的网页发生了更改

最后，您可能希望自己调查字符串，以准确了解这些不可见字符是什么。下面是一个快速程序，它可以让您使用内置的unicodedata模块很好地了解字符串中不可见项、控制字符、空白等的情况：

import unicodedata

for character in text:
    print(repr(character), "-", unicodedata.name(character))

字符串的输出片段显示：

'p' - LATIN SMALL LETTER P
'o' - LATIN SMALL LETTER O
'r' - LATIN SMALL LETTER R
'\xa0' - NO-BREAK SPACE
'd' - LATIN SMALL LETTER D
'e' - LATIN SMALL LETTER E
's' - LATIN SMALL LETTER S

所以你可以看到所有的时髦空间都不是间断空间

网友

2楼 · 编辑于 2024-10-03 15:31:36

使用difflib比较键入的原始字符串和刮取的原始字符串，突出显示了空格之间的某种差异

将正则表达式更改为识别任何空格字符而不是仅识别“”似乎已经修复了它。新的正则表达式是：

r"(\s*Dase\s*por\s*designad[o]?[a]?)"

由于某些原因，保留单个\s无法修复此问题，必须将其设置为多个，才能进行可能的匹配。作为快速修复，我使用的是0到无限，你可能想考虑改变它。

相关问题更多 >

编程相关推荐

热门问题

热门文章