我有一个数据集。这是一个非常混乱的数据,它包含ASCII代码、HTML和URL
我试着用“langdetect”来检查一下,这样我就可以按语言划分了。但是,它总是抛出错误,我认为这是由数据集中的HTML和特殊字符等引起的。在
在执行NLP时,我需要保留/恢复文本的标点符号。在
我有两个问题正在努力解决:
第一个问题,我做过研究,但还没有找到解决办法,真的不知道从哪里开始。在
对于第二个问题,我尝试过这个解决方案,但似乎行不通
def removeurl(raw_html):
cleanr = re.compile('?P<url>https?://[^\s]+')
cleantext = re.sub(cleanr, '', raw_html)
return removeurl
我已经创建了一个示例JSON文件here
目前没有回答
相关问题 更多 >
编程相关推荐