靓汤不挑你某个标签

2024-06-01 07:43:02 发布

您现在位置:Python中文网/ 问答频道 /正文

好吧,我已经读了很多关于如何处理靓汤的答案。但我还是不走运,我需要的是我的工作

soup = BeautifulSoup(open("/home/brendan/PycharmProjects/untitled2/newDeficency.html"),"html5lib")

for element in soup.find_all('input'):
    print(element['name'], element['value'])

因为这是一个更大的程序的一部分,现在我只是缓存了一个我想抓取的页面类型的副本,这个当前不返回任何内容,但是下面的代码返回文档中的所有超链接

for element in soup.find_all('a'):
    print(element['href'])

我不确定为什么这是不能正常工作,因为我也尝试使用

'li' , 'select' 'option' and 'form' 

没有成功,尽管他们显然是在源代码这里是一个here is a link to source page

非常感谢,因为我已经在这6行代码混乱了几个小时,现在完全失去了


Tags: 答案代码inhomeforelementopenall
1条回答
网友
1楼 · 发布于 2024-06-01 07:43:02

这可能是你需要的。你知道吗

HTML = '''\
<html>
<body>
<form>
    <input type='text' name='name' value='jones'></input>
    <input type='text' name='rank' value='private'></input>
    <input type='text' name='serial_number' value='B18567'></input>
</form>
</body>
</html>'''

from bs4 import BeautifulSoup

soup = BeautifulSoup(HTML, 'lxml')
for element in soup.find_all('input'):
    print (element.attrs['name'], element.attrs['value'], element.attrs['type']) 

输出:

name jones text
rank private text
serial_number B18567 text

编辑:当您在浏览器中打开下载的文件时,您应该在浏览器窗口中看到类似的内容。你知道吗

upper left corner of browser window

现在,在Windows中Ctrl-A、Ctrl-C并将剪贴板内容放入名为temp.htm的文件中。你知道吗

相关问题 更多 >