Python中文
首页
教程
问答
标签
搜索
登录
注册
python中的webscraping、regex和迭代
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我有以下url'<a href="http://www.alriyadh.com/file/278?&page=1" rel="nofollow">http://www.alriyadh.com/file/278?&page=1</a>' 我想写一个regex来访问从page=2到page=12的url</p> <p>例如,这个url需要“<a href="http://www.alriyadh.com/file/278?&page=4" rel="nofollow">http://www.alriyadh.com/file/278?&page=4</a>”,而不是page=14</p> <p>我想可以用一个函数来迭代指定的10个页面来访问其中的所有url。我试过这个正则表达式,但不起作用 '.*?=[2-9]'</p> <p>我的目标是使用报纸包从这些网址获取内容。我只想为我的研究提供这些数据</p> <p>提前谢谢</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>这里有一个正则表达式来访问适当的范围(即2-12):</p> <p>([2-9]| 1[012])</p> <p>从你现在的情况来看,我不确定你的正则表达式是否会如你所愿。也许我完全误解了您的regex,但是'?='打算做一个展望? 或者你真的在找一个'?'紧接着是“=”,紧接着是任何数字2-9? 您对regex的熟悉程度如何?这一个似乎是危险的模糊找到一个有意义的匹配。在</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
文本导入时标题行中的特殊字符
9 回答
文本小部件:在没有输入时更新并在循环后保持空闲
9 回答
文本小部件tkin
6 回答
文本小部件tkinter中的标签更改或文本外观更改是否有撤消功能?
5 回答
文本小部件tkinter复制图像选项
2 回答
文本小部件上的Python Tkinter ttk滚动条未缩放
4 回答
文本小部件上的滚动条可能需要根据制表符ord显示前进行滚动
4 回答
文本小部件不显示lis中的内容
9 回答
文本小部件不显示Unicode字符
2 回答
文本小部件中写入的行间距
8 回答
文本小部件中的文本作为变量
1 回答
文本小部件中的滚动条仅显示在底部
3 回答
文本小部件中的选项卡键空间计数
7 回答
文本小部件作为Lis
3 回答
文本小部件在主框架中扩展列宽
2 回答
文本小部件未使用删除功能清除
2 回答
文本小部件滚动动画(Tkinter、Python)
8 回答
文本居中。格式正确吗?
2 回答
文本差分算法
7 回答
文本已知时音频文件中的单词索引
3 回答