擅长:python、mysql、java
<p>1.)要获取所有<code><a></code>标记,其中<code>href=</code>以<code>"/title/"</code>开头,可以使用CSS选择器<code>a[href^="/title/"]</code></p>
<p>2.)要去除标记内的所有文本,可以使用<code>.get_text()</code>和参数<code>strip=True</code></p>
<pre><code>soup = BeautifulSoup(html_text, 'html.parser')
out = [a.get_text(strip=True) for a in soup.select('a[href^="/title/"]')]
print(out)
</code></pre>
<p>印刷品:</p>
<pre><code>['Pulp Fiction', 'Fight Club']
</code></pre>