用python正则表达式拆分句子中的不同部分 - 问答 - Python中文网

用python正则表达式拆分句子中的不同部分

2024-09-27 02:27:41 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有1000000个PDF文件，我想从中搜集数据并建立一个数据库。对它们进行刮削产生了如下数据：

 Mobile: 98-912-7990154Home: 98-21-44157129ppouriya@yahoo.comUnit 12 - No. 15 - West 19th Alley - South Varzi St. -West Ferdows Blvd. - Sadeghiyeh Sq.1483676479,Tehran

如何拆分它们并获得如下数据：

Mobile: 98-912-7990154
Home: 98-21-44157129
Email: ppouriya@yahoo.com
Address : Unit 12 - No. 15 - West 19th Alley - South Varzi St. -West Ferdows Blvd. - Sadeghiyeh Sq.1483676479,Tehran

Tags：文件数据 no pdf mobile yahoo st west

1条回答

网友

1楼 · 发布于 2024-09-27 02:27:41

所以你有一个分割线的“标记”，比如Home，Email，Address

如果您使用的是regex，您可以找到word的位置

[(m.start(0), m.end(0)) for m in re.finditer(pattern, string)]

示例：

import re

data = 'Mobile: 98-912-7990154Home: 98-21-44157129ppouriya@yahoo.comUnit 12 - No. 15 - West 19th Alley - South Varzi St. -West Ferdows Blvd. - Sadeghiyeh Sq.1483676479,Tehran'
p = re.search("Home", data)

然后返回单词Home的位置。起始位置是p[0]，因此您也可以使用此信息拆分data

相关问题更多 >

编程相关推荐

热门问题

热门文章