我正在尝试读取制表符分隔的文件,以便可以逐行处理它。一行中的一些分隔字段可能是非常长的字符串,包含带有HTML p标记的文本和其他特殊字符,例如:
"String1" "String2" "<p>This should</p>
<p>be read as one</p>
<p>string.</p>"
"String4" "String5" "String6"
我得到的是:
^{pr2}$也就是说,第三根弦被分开了。在
我试图用Python csv reader读取tsv文件,并尝试了方言的多种设置,但没有发现:
with open(fileName, 'rb') as tsvHandle:
tsvHandle = csv.reader(tsvHandle, delimiter='\t', quotechar='"', escapechar='\\', skipinitialspace)
有人能给我个建议吗?在
试着用: tsvHandle=csv.reader(tsvHandle,分隔符='\t',引号=csv.QUOTE_全部,quotechar='“')
相关问题 更多 >
编程相关推荐