用漂亮的Soup解析python中的web页面

[[Tytuł, "La mer à boire"] [Ocena, "IMDB - 6.3/10 (24)"] [Produkcja, Francja] [Gatunek, Dramat] [Czas trwania, 98 min.] [Premiera, "22.02.2012 - Świat"] [Reżyseria, "Jacques Maillot"] [Scenariusz, "Pierre Chosson, Jacques Maillot"] [Aktorzy, "Daniel Auteuil, Maud Wyler, Yann Trégouët, Alain Beigel"]]

# -*- coding: utf-8 -*- #!/usr/bin/env python import urllib2 from bs4 import BeautifulSoup try : web_page = urllib2.urlopen("http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO").read() soup = BeautifulSoup(web_page) c = soup.find('span', {'class':'vi'}).contents print(c) except urllib2.HTTPError : print("HTTPERROR!") except urllib2.URLError : print("URLERROR!")

2条回答

网友

1楼 · 编辑于 2024-06-28 19:56:17

使用BeautifulSoup的秘诀是找到HTML文档的隐藏模式。例如，你的循环

for ul in soup.findAll('p') :
    print(ul)

是在正确的方向上，但它将返回所有段落，而不仅仅是您正在寻找的段落。但是，您要查找的段落具有类i的有用属性。在这些段落中，可以找到两个跨度，一个是类i，另一个是类vi。我们很幸运，因为这些跨度包含您要查找的数据：

<p class="i">
    <span class="i">Tytuł............................................</span>
    <span class="vi">: La mer à boire</span>
</p>

所以，首先获取给定类的所有段落：

>>> ps = soup.findAll('p', {'class': 'i'})
>>> ps
[<p class="i"><span class="i">Tytuł... <LOTS OF STUFF> ...pan></p>]

现在，使用list comprehensions，我们可以生成一个成对列表，其中每个成对包含段落中的第一个和第二个跨度：

>>> spans = [(p.find('span', {'class': 'i'}), p.find('span', {'class': 'vi'})) for p in ps]
>>> spans
[(<span class="i">Tyt... ...</span>, <span class="vi">: La mer à boire</span>), 
 (<span class="i">Ocena... ...</span>, <span class="vi">: IMDB - 6.3/10 (24)</span>),
 (<span class="i">Produkcja.. ...</span>, <span class="vi">: Francja</span>),
 # and so on
]

现在我们有了跨度，我们可以从中获取文本：

>>> texts = [(span_i.text, span_vi.text) for span_i, span_vi in spans]
>>> texts
[(u'Tytu\u0142............................................', u': La mer \xe0 boire'),
 (u'Ocena.............................................', u': IMDB - 6.3/10 (24)'),
 (u'Produkcja.........................................', u': Francja'), 
  # and so on
]

那些课文还不好，但很容易改正。要删除第一个点，可以使用^{}：

>>> u'Produkcja.........................................'.rstrip('.')
u'Produkcja'

可以使用^{}删除:字符串：

>>> u': Francja'.lstrip(': ')
u'Francja'

要将其应用于所有内容，我们只需要另一个列表理解：

>>> result = [(text_i.rstrip('.'), text_vi.replace(': ', '')) for text_i, text_vi in texts]
>>> result
[(u'Tytu\u0142', u'La mer \xe0 boire'),
 (u'Ocena', u'IMDB - 6.3/10 (24)'),
 (u'Produkcja', u'Francja'),
 (u'Gatunek', u'Dramat'),
 (u'Czas trwania', u'98 min.'),
 (u'Premiera', u'22.02.2012 - \u015awiat'),
 (u'Re\u017cyseria', u'Jacques Maillot'),
 (u'Scenariusz', u'Pierre Chosson, Jacques Maillot'),
 (u'Aktorzy', u'Daniel Auteuil, Maud Wyler, Yann Tr&eacute;gou&euml;t, Alain Beigel'),
 (u'Wi\u0119cej na', u':'),
 (u'Trailer', u':Obejrzyj zwiastun')]

就这样。我希望这个循序渐进的例子能让你更清楚地使用美偶。

网友

2楼 · 编辑于 2024-06-28 19:56:17

这将得到您想要的列表，您必须编写一些代码来去掉后面的“…”，并转换字符串。

    import urllib2
    from bs4 import BeautifulSoup

     try :
 web_page = urllib2.urlopen("http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO").read()
soup = BeautifulSoup(web_page)
LIST = []
for p in soup.findAll('p'):
    s = p.find('span',{ "class" : 'i' })
    t = p.find('span',{ "class" : 'vi' })
    if s and t:
        p_list = [s.string,t.string]
        LIST.append(p_list)

除了urllib2.HTTPError：打印（“HTTPERROR！”）除了urllib2.URLError： print（“URLERROR！”）

INFORMACJE O FILMIE

相关问题更多 >

编程相关推荐

热门问题

热门文章