有没有办法通过Chrome扩展从任何网站文章中获取主要文本?

2024-09-28 22:16:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在对新闻文章进行一些自然语言处理,并且希望能够使用chrome扩展来从给定的站点中只获取主要的文章文本。你知道吗

我尝试过使用一些javascript库,但发现最好的库是一个名为JusText的Python库。我可以在Chrome扩展的客户端运行python吗?如果不是绝对必要的话,我不想维护服务器。你知道吗

我尝试实现的javascript库是unfluffextract-main-text。提取的主要文本是不一致/不准确的,我不能得到unfluff工作(见下面的代码)。你知道吗

平展:

      $.ajax({
          url: currentUrl,
          success: function(data) {
              html_data = data;
          }
      });

      var json = extractor(html_data, 'en');
      console.log("Unfluff Text:");
      console.dir(json);

输出格式正确但为空的json对象。它应该填写大部分字段(标题、日期、作者、文本等),但没有

那么,我是不是在用unfluff做错事?有没有办法在浏览器中使用JusText和Python(Python->;JavaScript转换)?有没有其他主要的网页文本提取工具,我应该考虑?你知道吗


Tags: 文本服务器json客户端data站点html文章