使用htmlParser和soup的Python HTML数据检索

2024-09-30 16:30:23 发布

男 | 程序猿一只，喜欢编程写python代码。

我遇到了很多需要从html页面检索信息的情况。所以我在一个基本url上做了一个httpget，然后在HTTP响应数据上，也就是html页面上，我必须检索一些信息，以便在下一个httpget中提供这些信息。例如

对于这种情况，数据-->

<td class="truncate js-name"><a href="someurl/14?path=Toni&amp;name=abc">abc3</a></td>

我们使用

    soup = BeautifulSoup(data, "html.parser")
    for i in soup.select("td.truncate.js-name > a"):

现在我有了这个

<link href="/somePortal/bundles/styles/global?v=xIkoK3DrFy9JG85ulHMbV28CBHIlGEOtWvcFUlIffaY1" rel="stylesheet"/>

。。。。。 .....

   <script src="/somePortal/embedded/scripts/abc?v=7ve7EMIoF-bjIXkqkzhox3OwiYU-m2HsXttE0ATi9-81"></script>

    <script src="/somePortal/embedded/scripts/abc/views?v=2XCWYZkhZOuqO7OBFf8ux7uJDKRAVVCjiMmHzf09OdI1"></script>

我需要在？v=之后检索编码信息，并在？v=

也许是一本字典。我可以使用正则表达式，但我确信使用html解析器会更好

有些开始于：你知道吗

Tags：数据 name 信息 html js script 情况页面

1条回答

网友

1楼 · 发布于 2024-09-30 16:30:23

原来是JSON格式，所以我使用JSON.loads来检索数据