查找单词并从大文本中提取表格

2024-10-05 10:14:21 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图解决以下问题,但我不能使它工作。我的问题如下:

我有一个900多页的长文本文件,我想从中提取一个特定的表。缺点是文件的格式不尽相同。例如,我想提取“ProductSales”表(参见文件)。表格上下是完全不同的文本文件布局。有人能帮忙吗,提前谢谢!我可以做到这一点,但无法创建一个适当的表(即熊猫df)。你知道吗

f = open("test.txt", "r")      
searchlines = f.readlines()
searchlines = [x.strip() for x in searchlines] 

f.close()
index = []
for i, line in enumerate(searchlines):
    if "Product Sales" in line:
        index.append(i)

df = searchlines[index[0]:index[1]]

http://www.filedropper.com/stackfile


Tags: 文件indfforindex格式line布局
1条回答
网友
1楼 · 发布于 2024-10-05 10:14:21

awk能够帮助您确定何时在表中。你知道吗

试试awk '$1=="Product"&&$2=="Sales"{print "table start"}{print NF, $0}' myfile.txt > output.txt,你会发现你能够检测到表的开头,然后表行-单元格在$1中。。10美元-然后是桌子的末尾-两行空行。你知道吗

如果你需要的话,再来问这个问题。你知道吗

相关问题 更多 >

    热门问题