我正试图解决以下问题,但我不能使它工作。我的问题如下:
我有一个900多页的长文本文件,我想从中提取一个特定的表。缺点是文件的格式不尽相同。例如,我想提取“ProductSales”表(参见文件)。表格上下是完全不同的文本文件布局。有人能帮忙吗,提前谢谢!我可以做到这一点,但无法创建一个适当的表(即熊猫df)。你知道吗
f = open("test.txt", "r")
searchlines = f.readlines()
searchlines = [x.strip() for x in searchlines]
f.close()
index = []
for i, line in enumerate(searchlines):
if "Product Sales" in line:
index.append(i)
df = searchlines[index[0]:index[1]]
awk能够帮助您确定何时在表中。你知道吗
试试
awk '$1=="Product"&&$2=="Sales"{print "table start"}{print NF, $0}' myfile.txt > output.txt
,你会发现你能够检测到表的开头,然后表行-单元格在$1中。。10美元-然后是桌子的末尾-两行空行。你知道吗如果你需要的话,再来问这个问题。你知道吗
相关问题 更多 >
编程相关推荐