擅长:python、mysql、java
<p>我认为你不需要硒来做这个。首先,建立一个URL列表。模式是:</p>
<pre><code>https://rcc.isbe.net/api/reportcardservice/(en)/Domain(school)/Id(340491250130001)/(Profile)/(2019)/Table/(Xml)
</code></pre>
<p>其中<code>Id(340491250130001)</code>是每所学校的id。<code>(2019)</code>是感兴趣的年份。如果需要,可以指定年数范围<code>(2016-2019)</code></p>
<p>对于列表中的每个url,您需要获取包含数据的ressource url。XPath:</p>
<pre><code>//resourceUrl
</code></pre>
<p>您将得到如下结果:</p>
<pre><code>https://sec.isbe.net/iircapi/tempData/XML/File1992993354.xml
</code></pre>
<p>对于每个xml文件,您将通过以下方式获得长期缺勤率:</p>
<pre><code>//ChronicAbsenteeism
</code></pre>
<p>例如:</p>
<pre><code>from lxml import html
import requests
data = requests.get('https://rcc.isbe.net/api/reportcardservice/(en)/Domain(school)/Id(340491250130001)/(Profile)/(2019)/Table/(Xml)')
root = html.fromstring(data.content)
xml=root.xpath('//resourceurl/text()')[0]
source = requests.get(xml)
tree = html.fromstring(source.content)
print(tree.xpath('//chronicabsenteeism/text()')[0])
</code></pre>
<p>输出:<code>10</code></p>