我有1000000个PDF文件,我想从中搜集数据并建立一个数据库。对它们进行刮削产生了如下数据:
Mobile: 98-912-7990154Home: 98-21-44157129ppouriya@yahoo.comUnit 12 - No. 15 - West 19th Alley - South Varzi St. -West Ferdows Blvd. - Sadeghiyeh Sq.1483676479,Tehran
如何拆分它们并获得如下数据:
Mobile: 98-912-7990154 Home: 98-21-44157129 Email: ppouriya@yahoo.com Address : Unit 12 - No. 15 - West 19th Alley - South Varzi St. -West Ferdows Blvd. - Sadeghiyeh Sq.1483676479,Tehran
所以你有一个分割线的“标记”,比如
Home
,Email
,Address
如果您使用的是regex,您可以找到word的位置
[(m.start(0), m.end(0)) for m in re.finditer(pattern, string)]
示例:
然后返回单词
Home
的位置。起始位置是p[0]
,因此您也可以使用此信息拆分data
相关问题 更多 >
编程相关推荐