Python中文
首页
教程
问答
标签
搜索
登录
注册
提高regex对不一致url过滤的准确性/简洁性
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>因此,对于一些lulz来说,我和一个朋友在玩过滤一个URL列表(100k+)的想法,只检索父域(例如“domain.com | org | etc”)。唯一需要注意的是,它们在格式上并不都是好的和匹配的</p> <p>所以,为了解释,有些可能是“<a href="http://www.domain.com/urlstuff" rel="nofollow noreferrer">http://www.domain.com/urlstuff</a>”,有些有国家代码,如www.domain.co.uk/urlstuff,而另一些则可能有点奇怪,更类似于“hello.in.con.consistent.url.com/urlstuff”</p> <p>所以,撇开故事不谈,我有一个正则表达式:</p> <pre><code>import re firsturl = 'www.foobar.com/fizz/buzz' m = re.search('\w+(?=(\..{3}/|\..{2}\..{2}/))\.(.{3}|.{2}\..{2})', firsturl) m.group(0) </code></pre> <p>返回:</p> <pre><code>foobar.com </code></pre> <p>它查找url末尾的第一个“/”,然后返回前面两个“.”分隔的字段</p> <p>那么,我的问题是,堆栈配置单元中的任何人是否有任何智慧来阐述如何使用更好/更短的正则表达式,或者不依赖于字符串中“/”的正向查找的正则表达式来实现这一点</p> <p>感谢所有在这方面的帮助</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>您可以改用此正则表达式:</p> <pre><code>import re firsturl = 'www.foobar.com/fizz/buzz' domain = re.match("(.+?)\/", firsturl).group() </code></pre> <p>不过,请注意,这只适用于没有<code>'http://'</code>的情况</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
当用户用PYTHON设置一个或一个不带值的URL时,他们怎么能输入一个/a的代码呢?
6 回答
当用户登录到站点时,如何显示不同的导航栏
8 回答
当用户登录时,在Flask中向用户显示处理结果
6 回答
当用户的Flask会话结束时,我如何从Redis后端中移除所有Celery结果?
6 回答
当用户的Okta配置文件字段当前为blan时,更新该字段
8 回答
当用户的付款逾期2天时,从Django模型检索数据
4 回答
当用户的消息以问号结尾时,如何让机器人说些什么?
1 回答
当用户的系统上可能也安装了Python 2.7时,如何在用户的系统上运行Python 3脚本?
4 回答
当用户确定打印数量时,使用Matplotlib打印动画
5 回答
当用户离开时是否可以删除整个网页?
2 回答
当用户给出一个单词时如何打印?
3 回答
当用户继续更改TKin中的值(使用trace方法)时,使用Entry并更新输入的条目
7 回答
当用户编辑表单字段时,从Django时间字段中删除秒数
8 回答
当用户被更改时,消息不会来自web套接字
2 回答
当用户访问表单时,如何使表单为只读,而不具有更改权限
9 回答
当用户试图更改对象的值时,使用描述符类引发RuntimeError
10 回答
当用户调整GUI的大小时,是否有方法更改GUI内容的大小?
6 回答
当用户调整风的大小时,pythontkinter小部件的大小会不均匀
6 回答
当用户购买某个类别时,是否查找其他类别的销售?
4 回答
当用户转到上一页时,Django和芹菜插入操作
7 回答