擅长:python、mysql、java
<p>只是路过。。。
与其用靓汤,不如用正则表达式?
是这样的:</p>
<pre class="lang-py prettyprint-override"><code>import re
import requests
data = []
s = requests.Session()
page_html = s.get('https://en.boss.az/vacancies',
headers={'User-Agent': 'Mozilla/5.0'}).text
regex_logic = re.compile(
r'<h3 class="results-i-title">.*?<\/h3><a target=.*?class="results-i-company" href=.*?>((\w|\s)+)')
myiter = re.finditer(regex_logic, page_html)
while True:
try:
data.append(next(myiter).group(1))
except StopIteration:
break
</code></pre>
<p>下面是更详细的代码,其中包含相当长的regex。在</p>
<p>其思想是获取GET请求的文本,并使用正则表达式创建一个迭代器。我用你的例子得到了我相信的公司名称。然后要循环遍历迭代器。在</p>
<p>如果您想要所有页面的数据,只需查找页面数量,并按照此特定网站的逻辑编辑geturl。在</p>