删除URL并转换文本Pandas系列中的特殊字符

2024-09-30 03:25:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个数据集。这是一个非常混乱的数据,它包含ASCII代码、HTML和URL

我试着用“langdetect”来检查一下,这样我就可以按语言划分了。但是,它总是抛出错误,我认为这是由数据集中的HTML和特殊字符等引起的。在

在执行NLP时,我需要保留/恢复文本的标点符号。在

我有两个问题正在努力解决:

  1. 如何转换ASCII码,在熊猫系列,其中有 在抓取相关字符时出现,考虑到我 不知道内容中出现的ASCII的确切列表
  2. 如何删除pandas系列中嵌入在文本中的URL?

第一个问题,我做过研究,但还没有找到解决办法,真的不知道从哪里开始。在

对于第二个问题,我尝试过这个解决方案,但似乎行不通

def removeurl(raw_html):
    cleanr = re.compile('?P<url>https?://[^\s]+')
    cleantext = re.sub(cleanr, '', raw_html)
    return removeurl

我已经创建了一个示例JSON文件here


Tags: 数据代码文本re语言urlrawhtml

热门问题