在python中使用regex从HTML提取内容

网友

1楼 · 编辑于 2024-09-28 17:29:52

您正在为此使用the wrong tool。您应该使用类似BeautifulSoup的Html解析器。你知道吗

>>> from bs4 import BeautifulSoup
>>> doc = """<a class="button block left icon-phone" data-reveal="\u06f0\u06f9\u06f3\u06f6\u06f5\u06f6\u06f8\u06f1\u06f6\u06f2\u06f1"  href="#">"""
>>> soup = BeautifulSoup(doc, 'html.parser')
>>> print(soup.find('a').get('data-reveal'))
۰۹۳۶۵۶۸۱۶۲۱

网友

2楼 · 编辑于 2024-09-28 17:29:52

你不应该使用正则表达式，但我假设你想这样做，因为这是你在操作中所做的。我不完全确定你想要什么，所以这里是如何做我认为你可以问的任何一个

match everything in data-reveal:
data-reveal="(.+?)"
matches: \u06f0\u06f9\u06f3\u06f6\u06f5\u06f6\u06f8\u06f1\u06f6\u06f2\u06f1

match EVERYTHING in front of data-reveal
data-reveal="(.+)
matches: \u06f0\u06f9\u06f3\u06f6\u06f5\u06f6\u06f8\u06f1\u06f6\u06f2\u06f1"  href="#">

第一个正则表达式：https://regex101.com/r/jW9fT4/1

第二正则表达式：https://regex101.com/r/uZ7vX2/1

网友

3楼 · 编辑于 2024-09-28 17:29:52

试试这个：

import re

html = """<a class="button block left icon-phone" data-reveal="\u06f0\u06f9\u06f3\u06f6\u06f5\u06f6\u06f8\u06f1\u06f6\u06f2\u06f1"  href="#">"""

regexObj = re.compile('data-reveal="(.*)" ')
result = regexObj.search(html);
print(result.group(1))

输出：

۰۹۳۶۵۶۸۱۶۲۱

相关问题更多 >

编程相关推荐

热门问题

热门文章

在python中使用regex从HTML提取内容

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >