从靓汤图表中提取文本

<ul class="listbox"> <li class="li1"> <p style="cursor:help" class="listtop" title="WIA Adult completers are those individuals who have exited a WIA Adult program from which the individual received a core staff-assisted service (such as job search or placement assistance) or an intensive service (such as counseling, career planning, or job training). Those individuals who participated in WIA through self-service, like OhioMeansJobs.com, or other less intensive programs are not included in the dashboard.">Program Completers</p> <p id="programcompleters1">18</p></li>

2条回答

网友

1楼 · 编辑于 2024-09-28 22:20:06

如前所述，您要查找的数据位于iframe中，请按照@choosed_codex的说明访问它：

http://reports.workforce.test.ohio.gov/WIAReports/WIA_COUNTY.ASPX?level=county&DataType=hIp9ibmBIwbKor1WvT5Bkg==&name=GTL8gAmmdulY5GSlycy7WQ==&programDate=Kf/2jvCFFRgQJjODWV7l08ATxxM/adw9p1FWfZ9J7O8=

然后，您可以通过以下方式访问感兴趣的字段：

data = {}
for tag in soup.find_all('p'):
    if tag.get('id'):
        data[tag.get('id')] = tag.text

print(data)

>> print(data.get('programcompleters1'))
18

网友

2楼 · 编辑于 2024-09-28 22:20:06

你想要的元素在iframe中。尝试从http://reports.workforce.test.ohio.gov/WIAReports/WIA_COUNTY.ASPX?level=county&DataType=hIp9ibmBIwbKor1WvT5Bkg==&name=GTL8gAmmdulY5GSlycy7WQ==&programDate=Kf/2jvCFFRgQJjODWV7l08ATxxM/adw9p1FWfZ9J7O8=处的页面本身提取

所以，这应该行得通

url="http://reports.workforce.test.ohio.gov/WIAReports/WIA_COUNTY.ASPX?level=county&DataType=hIp9ibmBIwbKor1WvT5Bkg==&name=GTL8gAmmdulY5GSlycy7WQ==&programDate=Kf/2jvCFFRgQJjODWV7l08ATxxM/adw9p1FWfZ9J7O8="
page = urllib2.urlopen(url)
soup = BeautifulSoup(page)

chartcontainers = soup.findAll('div', {"class": "chartcontain"})
for container in chartcontainers:
    print(container)
    #then do whatever

相关问题更多 >

编程相关推荐

热门问题

热门文章