使用BeautifulSoup从页面源中提取数据值

2024-09-27 21:32:26 发布

您现在位置:Python中文网/ 问答频道 /正文

当我查看一个网页源我试图提取以下数据从网站使用BeautifulSoup,但我无法找到它使用汤,所以我寻找一些指导。你知道吗

当我查看源代码时,页面显示以下文本。你知道吗

var = 'SynchronizerToken';
var = 'dd3a0c31e365c458d2d3e68e3c98f772bd2103eccf381';

我现在使用的代码是

同步器停止=汤。全部找到(“VAR同步器\u令牌\u值”)

谢谢您的建议,再次感谢!你知道吗


Tags: 数据代码文本网页源代码网站var页面
2条回答

您可以使用以下regex模式来查找所需的值:

SYNCHRONIZER_TOKEN_VALUE = \'(.*?)\'

Regex101

使用正则表达式捕获组:

var SYNCHRONIZER_TOKEN_VALUE = '(.+?)'

,您可以使用^{}获取捕获的组


import re

html = '''
var SYNCHRONIZER_TOKEN_NAME = 'SynchronizerToken';
var SYNCHRONIZER_TOKEN_VALUE = 'dd3a0c31e365c458d2d3e68e3c98f772bd2103eccf38163e10ce039c2b70a61a';
'''

token = None
matched = re.search(r"var SYNCHRONIZER_TOKEN_VALUE = '(.+?)'", html)
if matched:
    token = matched.group(1)

# token => 'dd3a0c31e365c458d2d3e68e3c98f772bd2103eccf38163e10ce039c2b70a61a'

相关问题 更多 >

    热门问题