我正在尝试分析以下文件(从本地银行导出的事务):
Clnr Kontonr Konto Valuta Bokföringsdatum Transaktionsdatum Referens Kontohändelse Belopp
12345 1234567890 vardagskonto SEK 13-09-30 13-09-30 Hyresgästför Autogiro -15,00
12345 1234567890 vardagskonto SEK 13-09-30 13-09-30 SPOTIFY SPOTIFY Kortköp/uttag -19,00
12345 1234567890 vardagskonto SEK 13-09-30 13-09-30 +46123456789 Swish mottagen 80,00
12345 1234567890 vardagskonto SEK 13-09-30 13-09-30 PRIS NYCKELKUND Debiteringsavgift -49,00
12345 1234567890 vardagskonto SEK 13-09-27 13-09-27 12345678 direktbetalning -301,00
12345 1234567890 vardagskonto SEK 13-09-27 13-09-27 Unionen Bg-bet. via internet -125,00
12345 1234567890 vardagskonto SEK 13-09-26 13-09-26 123456789012345 Överföring -1 000,00
但我似乎不能为它创建一个合适的正则表达式。我们的目标是提取第5、6、7和9列(当然,如果所有列都能提取出来的话,这将是一个额外的好处),但是第7列是非常棘手的,因为文件不是CSV,第7列可以包含多个单词。第8列是不可预测的,但我认为我在上面的例子中找到了大多数相关的可能性。在
关于如何成功解析这个文件有什么提示吗?显然我的正则表达式是不够的。:-(
如果有什么不同,我更希望它能用Python或者甚至POSIX(grep/sed/etc)来解决。在
为了方便起见,下面是如何“自动”解析此格式的方法:
对于您的数据:
^{pr2}$打印:
可以使用
re.split
分隔这些值。示例:为什么不使用此正则表达式:
似乎所有的柱子都被两个空格隔开了
相关问题 更多 >
编程相关推荐