擅长:python、mysql、java
<p>下面是一个使用正则表达式提取引号内文本的简单完整示例:</p>
<pre><code>import urllib
import re
from bs4 import BeautifulSoup
link = "https://twitter.com/ImaanZHazir/status/778560899061780481"
r = urllib.request.urlopen(link)
soup = BeautifulSoup(r, "html.parser")
title = soup.title.string
quote = re.match(r'^.*\"(.*)\"', title)
print(quote.group(1))
</code></pre>
<p>这里的情况是,在获取页面的源代码并找到<code>title</code>之后,我们对标题使用正则表达式来提取引号中的文本。在</p>
<p>我们告诉正则表达式在开始引号(<code>\"</code>)之前的字符串开头(<code>^.*</code>)查找任意数量的符号,然后捕获它和右引号(第二个<code>\"</code>)之间的文本。在</p>
<p>然后,我们通过告诉Python打印第一个捕获的组(regex中括号之间的部分)来打印捕获的文本。在</p>
<p>下面是关于在python中匹配regex的更多信息-<a href="https://docs.python.org/3/library/re.html#match-objects" rel="nofollow">https://docs.python.org/3/library/re.html#match-objects</a></p>