在做了一些网页抓取之后,我终于能够从字体体中得到一个字符串,结果如下
string = Date: 02/13/2020 Court Time: 1030 Court Room: 0206 Microfilm: SD000000000
关于我的代码,我想我需要弄清楚的最后一件事是,将该字符串拆分为字典对,其中的配对看起来像:
Date: 02/13/2020,
Court Time: 1030,
Court Room: 0206,
Microfilm: SD000000000
我想做一些事情,比如:
keywords = ['Date:','Court Time:','Court Room:', 'Microfilm:']
for k in keywords:
print(string.split())
使用这些关键字作为分隔符。 但它多次将此吐出
['Date:', '02/13/2020', 'Court', 'Time:', '1030', 'Court', 'Room:', '0206', 'Microfilm:', 'SD000000000']
['Date:', '02/13/2020', 'Court', 'Time:', '1030', 'Court', 'Room:', '0206', 'Microfilm:', 'SD000000000']
['Date:', '02/13/2020', 'Court', 'Time:', '1030', 'Court', 'Room:', '0206', 'Microfilm:', 'SD000000000']
['Date:', '02/13/2020', 'Court', 'Time:', '1030', 'Court', 'Room:', '0206', 'Microfilm:', 'SD000000000']
根据你的例子:
假设双空格是分隔符:
输出为:
我将使用正则表达式并为关键字列表构建模式:
这就产生了
'(Date:)|(Court Time:)|(Court Room:)|(Microfilm:)'
现在,我们可以使用该模式拆分字符串:
哪一个到达这里:
['', 'Date:', None, None, None, ' 02/13/2020 ', None, 'Court Time:', None, None, ' 1030 ', None, None, 'Court Room:', None, ' 0206 ', None, None, None, 'Microfilm:', ' SD000000000']
让我们对列表进行后期处理,以提取最终dict的键和值:
这将产生预期的结果:
下面的一段代码就可以了
输出:
相关问题 更多 >
编程相关推荐