Beautifulsoup提取

2条回答

网友

1楼 · 编辑于 2024-09-29 18:54:17

Beautiful soup是关于如何处理提取数据的，但首先要做的是：

这里test.html是您发布的内容。它有一个try, catch block的原因是，如果find操作失败，那么它不会打印错误而不会打印任何内容。在

from bs4 import BeautifulSoup

soup = BeautifulSoup (open(r'd:\test.html','r'))
#print soup.prettify()

items = soup.findAll("meta")

try:
    print "#How can I find all of the instances of property?"
    for all_prop in items:
        if all_prop['property']:
            print all_prop
except:
    print ""

try:
    print "#How can I then extract tall and wide?"
    for properties in items:
        print(properties['property'])
except:
    print ""


try:
    print "#all of the instances of tall"
    print soup.findAll('meta', attrs = {'property':'tall'})
    print soup.findAll('meta', attrs = {'name':'tall'})
    print ""
except:
    print ""

try:
    print "#How can I then extract tall?"
    for just_tall in items:
        if just_tall.get('property') == 'tall': 
            print just_tall.get('property')
        if just_tall.get('name') == 'tall':
            print just_tall.get('name')
except:
    print ""

输出：

^{pr2}$

休息就是玩玩，但以上这些将帮助你开始。有些问题仍然模棱两可，所以我在上面举了一些例子来帮助你。在

教程和更多示例：Link to docs

网友

2楼 · 编辑于 2024-09-29 18:54:17

我不是使用beauthoulsoup的专家，但我尝试了一下，下面是我的想法，希望这足以让你开始。只是要知道我可能有更优雅的解决方案。在

样板：

from bs4 import BeautifulSoup
import re

a = """<meta property="tall"/>
<meta property="wide" content="spiral"/>
<meta name="red"/>
<meta name="tall"/>"""

soup = BeautifulSoup(a)

问题：

一

^{pr2}$

二。在

ex = [p[i]['property'] for i in range(len(p))]
>> ['tall', 'wide']

我不太明白你的意思，也许已经被保险了？在

四

alltall = soup.findAll('meta', attrs = {'name':'tall'})
alltall += (soup.findAll('meta', attrs = {'property':'tall'}))
>> [<meta name="tall"/>, <meta property="tall"/>]

我花了一些时间寻找，但没有找到一个优雅的方法来这样做。也许我忽略了什么。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

Beautifulsoup提取

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >