强化链接神秘缩短？

2024-05-19 02:08:50 发布

您现在位置：Python中文网/ 问答频道 /正文

556

网友

男 | 程序猿一只，喜欢编程写python代码。

我一直在调羹，并随后要求从谷歌链接一堆，我刚刚遇到了一些非常奇怪的行为第一次

google源页面有以下结构的链接：<cite class="iUh30">www.kraso.sk/wp- content/uploads/sutaze/2015_2016/20151001_ont/</cite>

上面的网址是一个引起我的问题。我运行以下简单片段：

r = request_url(url=search, on_failure=None) # just applies .get() & handles errors
html = BeautifulSoup(r.text, "html.parser")
all_links = html.find_all("cite")


for link in all_links:
    logger.info(f"Examining link {link.text} for {db_event_name} {search_year}")
    logger.info(f"Is 2016 in {link.text}? {'2016' in link.text}")

并获取以下日志，以及当我尝试请求链接时出现的404错误（通过浏览器访问时，该错误工作正常）：

2018-08-24 15:38:23 - __main__ - INFO  - Examining link www.kraso.sk/wp-content/uploads/sutaze/2015.../20151001_ont/ for Nepela 2015
2018-08-24 15:38:23 - __main__ - INFO  - Is 2016 in www.kraso.sk/wp-content/uploads/sutaze/2015.../20151001_ont/? False

测试（链接中是2016）应该返回阳性，因为完整链接包含它。这似乎意味着日志中的“2015…/”部分实际上并不是用于格式化目的的缩写，但“\u 2016”实际上已被替换为“…”—通过比较打印与日志、登录到文件而不是控制台等来确认这一点

有没有人见过这种情况，或者知道如何处理？谢谢

Tags： text in 链接 html www link content all

0条回答

目前没有回答

强化链接神秘缩短？

相关问题更多 >

编程相关推荐

热门问题

热门文章

强化链接神秘缩短？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >