如何用python检测网页内容的语言

3条回答

网友

1楼 · 编辑于 2024-09-22 22:32:16

您可以提取内容块，然后使用一些python语言检测，如langdetect或{a2}。在

网友

2楼 · 编辑于 2024-09-22 22:32:16

下面是一个简单的示例，演示如何使用BeautifulSoup提取HTML正文文本，langdetect用于语言检测：

from bs4 import BeautifulSoup
from langdetect import detect

with open("foo.html", "rb") as f:
    soup = BeautifulSoup(f, "lxml")
    [s.decompose() for s in soup("script")]  # remove <script> elements
    body_text = soup.body.get_text()
    print(detect(body_text))

网友

3楼 · 编辑于 2024-09-22 22:32:16

也许你有这样一个标题：

<HTML xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr" lang="fr">

如果是这种情况，您可以用lang=“fr”看到这是一个法语网页。如果不是这样的话，猜测一篇文章的语言并不是件小事。在

编程相关推荐

创建一个bash别名来编译任何文件。当前目录中的java程序
java JSoup逐个标记解析HTML
java Jdk更新121 URLClassloader更改
为什么使用Instant将1582之前的Java日期转换为LocalDate会给出不同的日期？
java JPA有没有一种方法可以从<table>groupby<field>
批处理文件Java关于运行时的混淆。memory（）与Windows的物理内存使用历史记录图
Neo4j 2.1.7，用于使用Neo4j的Java API进行社交网络分析
java文件。太慢了！
java解析Joptionpane中的多个int
导入我可以删除任何隐式导入的Java库吗？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何用python检测网页内容的语言

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >