读取带有转义字符的csv

网友

1楼 · 编辑于 2024-06-23 20:03:41

你可以试试这个

import pandas as pd

df = pd.read_csv("test.csv", header=None)
df = df.apply(lambda x: x.str.replace('\\', " "))
print(df.iloc[1, 0])

# output: one line other line

网友

2楼 · 编辑于 2024-06-23 20:03:41

在您的情况下，只需使用：

data = pd.read_csv('test.csv', sep='\\,', names=['c1', 'c2', 'c3', 'c4'], engine='python')

网友

3楼 · 编辑于 2024-06-23 20:03:41

这个问题措辞有点拙劣。我猜pandas转义字符串中的\会使nltk.word_tokenize混淆。pandas.read_csv只能使用一个分隔符（或regex，但我怀疑您是否希望这样做），因此它将始终以"one line\nother line"的形式读取文本列，并转义反斜杠以保留它。如果您想进一步解析和格式化它，可以使用转换器。下面是一个例子：

import pandas as pd
import re

df = pd.read_csv(
         "file.csv", converters={"text":lambda s: re.split("\\\\n| ", s)}
)

以上结果：

^{pr2}$

编辑：如果需要使用nltk进行拆分（假设拆分取决于语言模型），则需要在传递到word_tokenize之前取消字符串的转义；请尝试如下操作：

lambda s: word_tokenize(s.encode('utf-8').decode('unicode_escape')

注意：查询中的匹配列表非常复杂，因此您可能希望通过如下方式更改lambda将其转换为元组：

lambda s: tuple(re.split("\\\\n| ", s))

相关问题更多 >

编程相关推荐

热门问题

热门文章

读取带有转义字符的csv

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >