我希望能够拆分包含多次引用分隔符的字符串。是否有一个参数用于在csv模块中处理这种类型的字符串?还是有其他的处理方法
text = '"a,b"-"c,d","a,b"-"c,d"'
next(csv.reader(StringIO(text), delimiter=",", quotechar='"', quoting=csv.QUOTE_NONE))
预期输出:['"a,b"-"c,d"', '"a,b"-"c,d"']
实际输出:['"a', 'b"-"c', 'd"', '"a', 'b"-"c', 'd"']
编辑: 上面的示例被简化了,但显然过于简化了,因为一些注释提供了简化版本的解决方案,但没有提供完整版本的解决方案。下面是我想要处理的实际数据
import csv
text = '"3-Amino-1,2,4-triazole"-text-0-"3-Amino-1,2,4-triazole"-CD-0,"3-Amino-1,2,4-triazole"-text-0-"3-Amino-1,2,4-triazole"-LS-0'
next(csv.reader(StringIO(text), delimiter=",", quotechar='"', quoting=csv.QUOTE_NONE))
预期产量
[
'"3-Amino-1,2,4-triazole"-text-0-"3-Amino-1,2,4-triazole"-CD-0',
'"3-Amino-1,2,4-triazole"-text-0-"3-Amino-1,2,4-triazole"-LS-0'
]
实际产量
[
'"3-Amino-1',
'2',
'4-triazole"-text-0-"3-Amino-1',
'2',
'4-triazole"-CD-0','"3-Amino-1',
'2', '4-triazole"-text-0-"3-Amino-1',
'2',
'4-triazole"-LS-0'
]
如果结构始终相同,且逗号夹在整数和
'"'
之间,则可以使用正则表达式:数据采用非标准格式,因此任何解决方案都需要在完整数据集上进行测试。一种可能的解决方法是首先用
;"
替换,"
字符,然后简单地在;
上拆分它。这可以在不使用CSV或RE的情况下完成:给予:
我只回答你问题的第一部分:内置的
csv
模块无法做到这一点查看CPython源代码,
quotechar
选项在字段开头是only processed:在字段中,there is no such check:
当解析器处于
IN_QUOTED_FIELD
状态时,检查quotechar
;然而,当遇到引号时,它会返回到IN_FIELD
状态,表明我们在一个未引用的字段中。所以这是可能的:但一旦解析器到达初始引用部分的末尾,它将考虑任何后续引用作为数据的一部分。我不知道这种行为是否符合任何(书面或非书面)CSV规范,或者它是否只是一个bug
相关问题 更多 >
编程相关推荐