Python中文
首页
教程
问答
标签
搜索
登录
注册
从源代码中提取带有regex的链接;Python
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我有一个数据集的链接到报纸文章,我想做一些研究。但是,数据集中的链接以.ece扩展名结尾(这对我来说是个问题,因为有些api限制)</p> <pre><code>http://www.telegraaf.nl/telesport/voetbal/buitenlands/article22178882.ece </code></pre> <p>以及</p> <pre><code>http://www.telegraaf.nl/telesport/voetbal/buitenlands/22178882/__Wenger_vreest_het_ergste__.html </code></pre> <p>是指向同一页的链接。 现在我需要将所有<strong>.ece</strong>链接转换为<strong>.html</strong>链接。我没有找到一个更简单的方法来做这件事,而是解析页面并找到原始的.html链接。问题是链接隐藏在html元元素中,我无法使用树.xpath. 你知道吗</p> <pre><code><meta content="http://www.telegraaf.nl/telesport/voetbal/buitenlands/22178882/__Wenger_vreest_het_ergste__.html" </code></pre> <p>不幸的是,我不太熟悉regex,也不知道如何使用它提取链接。 基本上,我需要的每一个链接都将从以下内容开始:</p> <pre><code><meta content="http://www.telegraaf.nl/ </code></pre> <p>我需要完整的链接(即<a href="http://www.telegraaf.nl/THE_REST_OF_THE_LINK" rel="nofollow">http://www.telegraaf.nl/THE_REST_OF_THE_LINK</a>)。 另外,我使用BeautifulSoup进行解析。谢谢。你知道吗</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<pre><code>(.*?)(http:\/\/.*\/.*?\.)(ece) </code></pre> <p>试试看这个。换掉通过<code>$2html</code>。你知道吗</p> <p>请参见演示。你知道吗</p> <p><a href="http://regex101.com/r/nA6hN9/24" rel="nofollow">http://regex101.com/r/nA6hN9/24</a></p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
无法使用Django/mongoengine连接到MongoDB(身份验证失败)
6 回答
无法使用Django\u mssql\u后端迁移到外部hos
2 回答
无法使用Django&Python3.4连接到MySql
3 回答
无法使用Django+nginx上载媒体文件
5 回答
无法使用Django1.6导入名称模式
3 回答
无法使用Django1.7和mongodb登录管理站点
1 回答
无法使用Djangoadmin创建项目,进程使用了错误的路径,因为我事先安装了错误的Python
8 回答
无法使用Djangockedi验证CBV中的字段
3 回答
无法使用Djangocketditor上载图像(错误400)
4 回答
无法使用Djangocron进行函数调用
4 回答
无法使用Djangofiler djang上载文件
9 回答
无法使用Djangokronos
3 回答
无法使用Djangomssql provid
4 回答
无法使用Djangomssql连接到带有Django 1.11的MS SQL Server 2016
10 回答
无法使用Djangomssq迁移Django数据库
10 回答
无法使用Djangonox创建用户
6 回答
无法使用Djangopyodb从Django查询SQL Server
10 回答
无法使用Djangopython3ldap连接到ldap
7 回答
无法使用Djangoredis连接到redis
7 回答
无法使用Django中的FK创建新表
4 回答