有没有办法通过Chrome扩展从任何网站文章中获取主要文本？

2024-09-28 22:16:59 发布

您现在位置：Python中文网/ 问答频道 /正文

7131

网友

男 | 程序猿一只，喜欢编程写python代码。

我正在对新闻文章进行一些自然语言处理，并且希望能够使用chrome扩展来从给定的站点中只获取主要的文章文本。你知道吗

我尝试过使用一些javascript库，但发现最好的库是一个名为JusText的Python库。我可以在Chrome扩展的客户端运行python吗？如果不是绝对必要的话，我不想维护服务器。你知道吗

我尝试实现的javascript库是unfluff和extract-main-text。提取的主要文本是不一致/不准确的，我不能得到unfluff工作（见下面的代码）。你知道吗

平展：

      $.ajax({
          url: currentUrl,
          success: function(data) {
              html_data = data;
          }
      });

      var json = extractor(html_data, 'en');
      console.log("Unfluff Text:");
      console.dir(json);

输出格式正确但为空的json对象。它应该填写大部分字段（标题、日期、作者、文本等），但没有

那么，我是不是在用unfluff做错事？有没有办法在浏览器中使用JusText和Python（Python->；JavaScript转换）？有没有其他主要的网页文本提取工具，我应该考虑？你知道吗

Tags：文本服务器 json 客户端 data 站点 html 文章

0条回答

目前没有回答

有没有办法通过Chrome扩展从任何网站文章中获取主要文本？

相关问题更多 >

编程相关推荐

热门问题

热门文章

有没有办法通过Chrome扩展从任何网站文章中获取主要文本？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >