用python正则表达式拆分句子中的不同部分

2024-09-27 02:27:41 发布

您现在位置:Python中文网/ 问答频道 /正文

我有1000000个PDF文件,我想从中搜集数据并建立一个数据库。对它们进行刮削产生了如下数据:

 Mobile: 98-912-7990154Home: 98-21-44157129ppouriya@yahoo.comUnit 12 - No. 15 - West 19th Alley - South Varzi St. -West Ferdows Blvd. - Sadeghiyeh Sq.1483676479,Tehran

如何拆分它们并获得如下数据:

Mobile: 98-912-7990154
Home: 98-21-44157129
Email: ppouriya@yahoo.com
Address : Unit 12 - No. 15 - West 19th Alley - South Varzi St. -West Ferdows Blvd. - Sadeghiyeh Sq.1483676479,Tehran

Tags: 文件数据nopdfmobileyahoostwest
1条回答
网友
1楼 · 发布于 2024-09-27 02:27:41

所以你有一个分割线的“标记”,比如HomeEmailAddress

如果您使用的是regex,您可以找到word的位置

[(m.start(0), m.end(0)) for m in re.finditer(pattern, string)]

示例:

import re

data = 'Mobile: 98-912-7990154Home: 98-21-44157129ppouriya@yahoo.comUnit 12 - No. 15 - West 19th Alley - South Varzi St. -West Ferdows Blvd. - Sadeghiyeh Sq.1483676479,Tehran'
p = re.search("Home", data)

然后返回单词Home的位置。起始位置是p[0],因此您也可以使用此信息拆分data

相关问题 更多 >

    热门问题