删除URL并转换文本Pandas系列中的特殊字符

2024-09-30 03:25:56 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个数据集。这是一个非常混乱的数据，它包含ASCII代码、HTML和URL

我试着用“langdetect”来检查一下，这样我就可以按语言划分了。但是，它总是抛出错误，我认为这是由数据集中的HTML和特殊字符等引起的。在

在执行NLP时，我需要保留/恢复文本的标点符号。在

我有两个问题正在努力解决：

第一个问题，我做过研究，但还没有找到解决办法，真的不知道从哪里开始。在

对于第二个问题，我尝试过这个解决方案，但似乎行不通

def removeurl(raw_html):
    cleanr = re.compile('?P<url>https?://[^\s]+')
    cleantext = re.sub(cleanr, '', raw_html)
    return removeurl

我已经创建了一个示例JSON文件here

Tags：数据代码文本 re 语言 url raw html

0条回答

目前没有回答