Python:从字符串中提取文本

2024-09-28 21:50:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图从url请求中提取文本,但并不是所有dict都包含文本键,当我试图使用{k: v[0] for k, v in parse_qs(str).items()}到url时,我丢失了很多请求,所以我尝试str = urllib.unquote(u[0])。 在那之后我得到了

смотреть лучше не бывает&clid=1955453&win=176
Jade+Jantzen&ie=utf-8&oe=utf-8&gws_rd=cr&ei=FQB0V9WbIoahsAH5zZGACg
как+скрыть+лопоухость&newwindow=1&biw=1366&bih=657&source=lnms&sa=X&sqi=2&pjf=1&ved=0ahUKEwju5cPJy83NAhUPKywKHVHXBesQ_AUICygA&dpr=1
смотреть лучше не бывает&clid=1955453&win=176
2&clid=1976874&win=85&msid=1467228292.64946.22901.24595&text=как выбрать смартфон
маскаи гейла&lr=10750&clid=1985551-210&win=213

我想

^{pr2}$

有什么办法提取吗?在


Tags: in文本urlforparseitemsurllibwin
1条回答
网友
1楼 · 发布于 2024-09-28 21:50:01

只需按&分割,然后取第一部分:

txt = urllib.unquote(u[0]).split("&")[0]

而且不要使用str作为变量名——这是Python中的内置类型名。在

编辑: 不幸的是,这条2&clid=1976874&win=85&msid=1467228292.64946.22901.24595&text=как выбрать смартфон线的模式与其他的不同。没有共同的方法来处理这个和其他的。我很想用regex来匹配西里尔字符,但是Jade Jantzen不匹配。所以对于这一行,期望的文本在末尾,类似于

^{pr2}$

会有用的。但您并没有为所需的文本提供任何实际的标准。作为人类,我们可以说如何从这个特定的样本中把你得到的转化成你想要的。但如果没有明确的匹配规则,我们就无法提供完整的解决方案。在

我知道有些(又是一些)行用"+"代替了" "。这可以用.replace("+", " ")来解决。

相关问题 更多 >