Python中文
首页
教程
问答
标签
搜索
登录
注册
使用regex从段落中获取地址
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>有点疼。我正在使用Python进行一些抓取,试图从几行标记错误的HTML中获取地址。以下是格式示例:</p> <pre><code>256-555-5555<br/> 1234 Fake Ave S<br/> Gotham (Lower Ward)<br/> </code></pre> <p>我只想检索<code>1234 Fake Ave S, Gotham</code>。有什么想法吗?我整晚都在做regex,现在我的脑子乱七八糟。。。在</p> <p>编辑: 更详细地说明数据将如何到达的可能场景。有时第一条线会在那里,有时不会。我看到的所有地址都有Ave,Way,St,尽管我不想把它作为选择的一个因素,因为我不确定它们会一直这样。第二行和第三行是alPhone(或可能的电子邮件或网站):</p> <p>我的想法是</p> <ol> <li>选择第二行到最后一行的所有内容(因此,如果有三行,则选择第二行;如果没有电话号码,则选择第一行(如果只有两行)。在</li> <li>选择最后一行中不在括号中的所有内容。在</li> <li>合并第二行到最后一行和最后一行,在这两行之间加一个“,”。在</li> </ol> <p>我用Scrapy来获取HTML代码。地址都在同一个div中,我想使用regex将数据进一步分解成适当的部分。我不知道该怎么做。在</p> <p>编辑2:</p> <p>根据Ofir的评论,我应该提到我已经用表达式来隔离电话号码和括号部分。在</p> <p>电话(或可能的电子邮件或网站):</p> ^{pr2}$ <p>括号:</p> <pre><code>\((.*?)\) </code></pre> <p>我不知道如何使用这些来构造除了这些语句之外的所有内容。在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>在这种情况下,你不想集中精力做什么</p> <ul> <li>html标记(<code><br></code>)</li> <li>电话号码</li> <li>括号内的所有内容</li> </ul> <p>其中的每一个都可以用简单的正则表达式轻松匹配,从而很容易构造一个匹配其余的表达式(大概是地址)</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
为什么我的神经网络模型的准确性不能在这个训练集上得到提高?
8 回答
为什么我的神经网络模型的权重变化不大?
1 回答
为什么我的神经网络的成本不断增加?
9 回答
为什么我的神经网络的输入pickle文件是19GB?
9 回答
为什么我的神经网络给属性错误?“非类型”对象没有属性“形状”
5 回答
为什么我的神经网络训练这么慢?
6 回答
为什么我的神经网络输出错误?
4 回答
为什么我的神经网络预测适用于MNIST手绘图像时是正确的,而适用于我自己的手绘图像时是不正确的?
4 回答
为什么我的神经网络验证精度比我的训练精度高,而且它们都是常数?
1 回答
为什么我的私人用户间聊天会显示在其他用户的聊天档案中?
4 回答
为什么我的积分的绝对误差估计值大于积分(使用scipy.integrate.nqad)?
5 回答
为什么我的积层回归器得分比它的组件差?
8 回答
为什么我的移动方法不起作用?
6 回答
为什么我的稀疏张量不能转换成张量
5 回答
为什么我的稀疏张量不能转换成张量?
6 回答
为什么我的程序“停止”了?
7 回答
为什么我的程序一直试图占用所有可用的CPU
1 回答
为什么我的程序不使用指定的代理
4 回答
为什么我的程序不工作(python帮助中的反向函数)?
9 回答
为什么我的程序不工作时,我使用多处理模块
2 回答