刮掉一个标签怎么剪断我的绳子?

2024-09-28 05:36:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我用beautifulsoup从一个网站上搜集数据。与时间和更新日期相同的标记。这就是为什么我要将它们分开并删除“Update:”字符串。我无法想象怎么做。你知道吗

我想要的字符串应该是这样的: a="4 July 2019 Friday 07:52" b="04.07.2019 07:52"

publishTime=source.find("div", attrs={"class":"textInfo"}).text
print(publishTime.strip())
4 July 2019 Friday 07:52
                                Update: 04.07.2019 07:52

Tags: 数据字符串标记divsource网站时间update
2条回答

如果我理解正确的话,这可能就是你想要的-没有正则表达式:

publishTime = '''
4 July 2019 Friday 07:52
                                Update: 04.07.2019 07:52
'''

vars = ['a','b']
vals = publishTime.split(' Update: ')
for var,val in zip(vars,vals):
    sval = val.strip()
    print(f'{var} = "{sval}"')

输出:

a = "4 July 2019 Friday 07:52"
b = "04.07.2019 07:52"

可以使用正则表达式删除Update表达式。你知道吗

以下是一个建议,建议如何做到这一点:

import re

str = '''
4 July 2019 Friday 07:52
                                Update: 04.07.2019 07:52
'''

str_changed = re.sub(r'Update:.+', '', str).strip()

print(f'"{str_changed}"')

如果运行此代码,将打印出:

"4 July 2019 Friday 07:52"

相关问题 更多 >

    热门问题