使用python计算网页上特定单词的出现频率

2024-10-02 20:34:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我试着用这个:

c=requests.get('https://www.uniberg.com/referenzen.html').text
c.count('Programmierung')

但是输出显示有2次出现,而实际上没有。在

我也试过了:

^{pr2}$

但是它还返回我不想要的单词的计数,比如Mitarbeiterphilosophie。 有人能找到一个改进的方法或建议另一个方法吗?在


Tags: 方法texthttpscomgethtmlwwwcount
2条回答

在请求.get(URL)返回整个Web页面(在googlechrome上使用ctrl+U查看,或者使用wget下载网页),而不仅仅是Web呈现的内容浏览器。那个所以count显示为2。在

今天https://www.uniberg.com/referenzen.html连续发生2次Programmierung

我认为,你需要签入HTML源代码,而不是在使用浏览器的呈现中。在

单词Programmierung在HTML部分中有这个CSS

section .detail {
    display: none;
}

关于第二点:

试试这个(使用regex):

^{pr2}$

使用正则表达式:

  • \w代表“单词字符”,通常为[A-Za-z0-9]。在
  • \W[^\w]的缩写,\w的否定版本。在

相关问题 更多 >