在.csv Python中处理不需要的（独立的）双引号

网友

1楼 · 编辑于 2024-10-05 13:57:52

在将数据传递到csv读取器之前，您可以首先检查行是否以"结尾，如果不存在，则追加"：

import csv
import os

with open('/Desktop/test csv/quote_test.csv', "r") as f:
    data = f.read().splitlines()
for i, line in enumerate(data):
    if not line.endswith('"'):
        data[i] = line + '"'      
data = "\n".join(data)
       
temp = csv.reader(data, delimiter=',')
for row in temp:
    print(row)

网友

2楼 · 编辑于 2024-10-05 13:57:52

问题是csv规范明确允许引用的字段包含新行。换句话说，您的文件不是CSV文件，无论配置如何，Python CSV模块都无法处理它

这意味着需要进行预处理。如果您确定除第一行之外的所有行的末尾都缺少双引号，那么您可以在读取标题后始终添加双引号。如果你想更宽容（也许以后的文件会有那个该死的引号），你可以只在行有偶数个引号的情况下添加它（如果一个字段包含引号，它应该加倍）。我将使用一个简单的生成器来修复该文件：

def quote_adder(t):
    for line in t:
        line = line.strip()
        if (len([c for c in line if c == '"']) % 2) != 0:
            line += '"'
        yield line

with open('/Desktop/test csv/quote_test.csv', "r") as fd:
    for row in csv.reader(quote_adder(fd)):
        //process row

如果进程行为print(row)，它将按预期给出：

['name', 'age', 'place', 'date']
['Jack', '23', 'perth, australia', '12aug']
['Jackie', '44', 'delhi, india', '9dec']
['Neel', '12', 'austin, texas', '1aug']
['David', '77', 'fresno, ca', '21june']

网友

3楼 · 编辑于 2024-10-05 13:57:52

由于数据格式不好，csv模块很难按照您想要的方式对其进行解析

最好的做法是对文件进行预处理以清理数据。在这种情况下，只需添加缺少的尾随双引号

import csv
import os

with open('/Desktop/test csv/quote_test.csv', 'r') as f:
    data = [f'{line.strip()}"' if not line.strip().endswith('"') else line.strip() for line in f.readlines()]
    temp = csv.reader(data, delimiter=',')
    for row in temp:
        print(row)

注意：这段代码去掉了换行符，以便将双引号附加到行的末尾。新行不是添加回来的（因为它们不是必需的），但是如果需要，您可以轻松地将它们添加回来

相关问题更多 >

编程相关推荐

热门问题

热门文章