擅长:python、mysql、java
<p>最简单的方法是首先从网站获取页面。这可以通过以下方式实现:</p>
<pre class="lang-py prettyprint-override"><code>url = 'https://gogo.mn/'
response = requests.get(url)
</code></pre>
<p>然后,页面包含在响应变量中,您可以通过查看response.text来检查该变量</p>
<p>现在使用BeautifulSoup查找页面上包含的所有链接:</p>
<pre class="lang-py prettyprint-override"><code>a_links = html.find_all('a')
</code></pre>
<p>这将返回一个bs4.element.ResultSet类型,该类型可以使用for循环进行迭代。查看您的特定站点,我发现它们的许多链接中都不包含baseURL,因此必须对URL进行一些规范化</p>
<pre class="lang-py prettyprint-override"><code>for link in a_links:
if ('https' in link['href']) or ('http' in link['href']):
print (link['href'])
else:
xLink = link['href'][1:]
print (f'{url}{xLink}')
</code></pre>
<p>一旦你做到了这一点,你就拥有了给定页面的所有链接。然后,您需要消除重复项,并为每个页面运行新页面上的链接。这将涉及递归地遍历您找到的所有链接</p>
<p>问候</p>