擅长:python、mysql、java
<p>不需要<code>scrapy</code>只需使用一个更简单的工具(甚至是最简单的<code>urllib.urlopen(theurl).read()</code>)获取单个页面的HTML然后用BeautifulSoup分析HTML。从一个简单的“视图源”来看,您似乎在寻找:</p>
<pre><code><title>Best Babies Laughing Video Compilation 2012 [HD] - Guardalo</title>
</code></pre>
<p>(标题),三者之一:</p>
^{pr2}$
<p>(视频链接,复数形式,我不能选择一个,因为你不告诉我们你喜欢哪种格式!-),和</p>
<pre><code><meta name="description" content="Ciao a tutti amici di guardalo,quello che propongo oggi è un video sui neonati buffi con risate" />
</code></pre>
<p>(描述)。beauthulsoup使得每一个都变得非常简单,例如在需要的进口之后</p>
<pre><code>html = urllib.urlopen('http://www.guardalo.org/99407/').read()
soup = BeautifulSoup(html)
title = soup.find('title').text
</code></pre>
<p>等等(但是你必须选择一个视频链接,我在他们的来源中看到他们被称为“预录”,所以可能是实际的非广告视频的链接实际上是<strong>不是</strong>在页面上,而是只有在登录之后才可以访问。在</p>