使用Python将纯文本文件解析为CSV文件

import os import glob import codecs import csv from bs4 import BeautifulSoup path = "c:\\users\\me\\downloads\\" for infile in glob.glob(os.path.join(path, "*.html")): markup = (infile) soup = BeautifulSoup(codecs.open(markup, "r", "utf-8").read()) with open("extracted.txt", "a") as myfile: myfile.write(soup.get_text())

2条回答

网友

1楼 · 编辑于 2024-06-28 20:32:45

也许我没有正确理解你，但你可以：

file = open("extracted.txt")

# if you don't want to do .strip() again, just create a list of the stripped 
# lines first.
lines = [line.strip() for line in file if line.strip()]

for i, line in enumerate(lines):
    csv.SetCell(i % 3, line)

网友

2楼 · 编辑于 2024-06-28 20:32:45

我不完全确定您使用的是什么CSV库，但它看起来不像Python's built-in one。不管怎样，我会这样做：

import csv
import itertools

with open('extracted.txt', 'r') as in_file:
    stripped = (line.strip() for line in in_file)
    lines = (line for line in stripped if line)
    grouped = itertools.izip(*[lines] * 3)
    with open('extracted.csv', 'w') as out_file:
        writer = csv.writer(out_file)
        writer.writerow(('title', 'intro', 'tagline'))
        writer.writerows(grouped)

这样就形成了一条管道。它首先从文件中获取数据，然后删除行中的所有空白，然后删除任何空行，然后将它们分组为三个组，然后（在写入CSV头之后）将这些组写入CSV文件。

要合并注释中提到的最后两列，可以用明显的方式将writerow调用和writerows更改为：

writer.writerows((title, intro + tagline) for title, intro, tagline in grouped)

相关问题更多 >

编程相关推荐

热门问题

热门文章