如何在不使用CSV导入的情况下用python编写自定义CSV读取器？

def csvReader(filename): records = [] for line in open(filename): line = line.rstrip() # strip '\n' if line=='","': continue # ignore empty line records.append([line.replace('"','')]) return records

2条回答

网友

1楼 · 编辑于 2024-05-19 15:40:32

和往常一样，python中包括电池。下面是使用标准的lib csv模块：

import csv
with open(path, "r") as f:
    csv_reader = csv.reader(f, delimiter=",")
    for row_number, row in enumerate(csv_reader):
        print(f"{row_number} => {row}")

如果由于某种奇怪的原因无法使用stdlib。。您需要使用“分隔符”、“分隔符”和“单元格值”标记每一行。同样，这对于stdlib（import re）来说是微不足道的。让我们假装你根本没有电池，只是plain python

您需要认识到，如何处理每行中的每个字符取决于“上下文”，而该上下文是由前面的所有字符建立的。这里建议使用堆栈。您可以从堆栈中推送和弹出状态（也称为上下文）取决于当前上下文（堆栈的顶部）和当前处理的角色。现在，给定一个上下文，您可以根据该上下文对每个字符进行不同的处理：

class State: 
    IN_NON_DELIMITED_CELL = 1 
    IN_DELIMITED_CELL = 2 

def get_cell_values(line, quotechar='"', separator=','): 
    stack = [] 
    stack.append(State.IN_NON_DELIMITED_CELL) 
    cell_values = [""] 
    for character in line: 
        current_state = stack[-1] 
        if current_state == State.IN_NON_DELIMITED_CELL: 
            if character == quotechar: 
                stack.append(State.IN_DELIMITED_CELL) 
            elif character == separator: 
                cell_values.append("") 
            else: 
                cell_values[-1] += character 

        if current_state == State.IN_DELIMITED_CELL: 
            if character == quotechar: 
                stack.pop() 
            else: 
                cell_values[-1] += character 
    return cell_values 

with open(path, "r") as f:
    for line in f:
        cell_values = tokenize(line, quotechar='"', delimiter=',')
        print(cell_values)

这是一个很好的起点：

print(get_cell_values('"this","is",an,example,of,"doing things, the hard way?"'))
# prints:
['this', 'is', 'an', 'example', 'of', 'doing things, the hard way?']

为了更进一步，请研究以下主题：标记化字符串、LL+LR解析器、递归下降、shift-reduce解析器

网友

2楼 · 编辑于 2024-05-19 15:40:32

我在找你要读的CSV文件。听起来好像您需要分隔字段，同时忽略引号之间的任何分隔符

在这种情况下，我建议使用CSV库并设置引号字符

import csv
record = '"Pete,Zelle","Intro to HTML, CSS",2011'
newStr = [ '"{}"'.format(x) for x in list(csv.reader([record], delimiter=',', quotechar='"'))[0] ]
print(newStr)

将返回[''Pete，Zelle'，'HTML简介，CSS'，'2011']

在您的功能中，您可以将其合并如下

import csv
def csvReader(filename):
    records = []
    for line in open(filename):
        line = line.rstrip()  # strip '\n'
        if line=='","':
           continue           # ignore empty line
        newLine = [ '"{}"'.format(x) for x in list(csv.reader([line], delimiter=',', quotechar='"'))[0] ]
        records.append(newLine)

    return records

相关问题更多 >

编程相关推荐

热门问题

热门文章