擅长:python、mysql、java
<p>如果您查看链接到的网页的源文件<a href="http://www.goldsheet.com/nflog.php" rel="nofollow noreferrer">http://www.goldsheet.com/nflog.php</a>,您将看到每行数据都包含在一个<code><p></code>元素中,并且在每个字段之间有一个包含空格的<code><span></code>。源代码如下(为了清晰起见,我添加了换行符):</p>
<pre><code><p>
S.11*
<span>&#160;&#160;</span>
N. ENGLAND
<span>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;</span>
L
<span>&#160;&#160;&#160;&#160;&#160;&#160;</span>
-8'
<span>&#160;&#160;&#160;&#160;</span>
21-23
<span>&#160;&#160;</span>
u44'
</p>
</code></pre>
<p>这意味着在HTML源代码中,您可以区分分隔字段的空格和城市名称中的空格之间的区别,这解决了导入这些数据的最大问题。因此,最好的策略可能是使用Python中的lxml之类的东西来解析页面源代码中的数据。在获得每个字段之后,需要进行一些后处理,以便将第一个字段中的“*”等内容拆分为指定的单独列。然后您可以轻松地从Python导出到csv。在</p>
<p>然而,更大的问题是,这些数据几乎肯定是通过手动输入生成的,这意味着随着时间的推移,数据很可能会出现细微的不一致。随着您修复越来越多的这些问题,您的解析代码将成为特殊情况的负担。因此,您应该考虑您想要做的事情是否值得维护如此混乱的代码。在</p>