我正在对新闻文章进行一些自然语言处理,并且希望能够使用chrome扩展来从给定的站点中只获取主要的文章文本。你知道吗
我尝试过使用一些javascript库,但发现最好的库是一个名为JusText的Python库。我可以在Chrome扩展的客户端运行python吗?如果不是绝对必要的话,我不想维护服务器。你知道吗
我尝试实现的javascript库是unfluff和extract-main-text。提取的主要文本是不一致/不准确的,我不能得到unfluff工作(见下面的代码)。你知道吗
平展:
$.ajax({
url: currentUrl,
success: function(data) {
html_data = data;
}
});
var json = extractor(html_data, 'en');
console.log("Unfluff Text:");
console.dir(json);
输出格式正确但为空的json对象。它应该填写大部分字段(标题、日期、作者、文本等),但没有
那么,我是不是在用unfluff做错事?有没有办法在浏览器中使用JusText和Python(Python->;JavaScript转换)?有没有其他主要的网页文本提取工具,我应该考虑?你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐