使用Python和Beautiful Soup提取不是直接网页上的文本

1条回答

网友

1楼 · 发布于 2024-10-02 22:28:36

你可以试着为页面创建一些机器人。BeautifulSoap是一个易于解析html文本的库，仅此而已。如果你想一页一页地去，你必须用urllib来写。这是一个简单的例子：

import urllib
from BeautifulSoup import *

url = "http://www.domain.com/page/path?page="
count_of_pages = 10

for page in xrange(1, count_of_pages):
    response = urllib.urlopen("%s%d" % (url, page))
    webPage = BeautifulSoup(webFile.read())

    # Parse page with great module BeaurifulSoap

但是这个代码可以帮助你正常加载页面。此页从AJAX获取数据。请看本页：

http://www.fenex.nl/CMS/asynchronousrendering/CrmSearchResultFenexMemberCompanies/CrmSearchResultFenexMemberCompaniesByMemberCriteriaRenderControl.aspx?_=1384960662265&cid=9&pageNr=1&fenexSearchId=-214748364

如果使用chorme，可以按Ctrl + Shift + J，打开tab Network，然后重新加载页面。你可以看到所有的需求，并在此列表中，你可以找到正确的数据网址。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用Python和Beautiful Soup提取不是直接网页上的文本

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >