<p>
S.11*
<span>  </span>
N. ENGLAND
<span>           </span>
L
<span>      </span>
-8'
<span>    </span>
21-23
<span>  </span>
u44'
</p>
我使用了前8行数据进行测试。第9行是再见,我想你应该用不同的方式来处理这些问题。如果没有,则发布问题构造代码,这在说明边缘情况时更为彻底。这与(字母.句点.2nums)(空格|星号)(空格)(字母.句点,在读取前插入逗号。在
这将创建
^{pr2}$dat
项:最后一个解析尾随材料的步骤可能是通过另一个调用读表,这次只使用默认的空格分隔符。如果需要逐行分析,也可以使用
scan
-函数:如果您查看链接到的网页的源文件http://www.goldsheet.com/nflog.php,您将看到每行数据都包含在一个
<p>
元素中,并且在每个字段之间有一个包含空格的<span>
。源代码如下(为了清晰起见,我添加了换行符):这意味着在HTML源代码中,您可以区分分隔字段的空格和城市名称中的空格之间的区别,这解决了导入这些数据的最大问题。因此,最好的策略可能是使用Python中的lxml之类的东西来解析页面源代码中的数据。在获得每个字段之后,需要进行一些后处理,以便将第一个字段中的“*”等内容拆分为指定的单独列。然后您可以轻松地从Python导出到csv。在
然而,更大的问题是,这些数据几乎肯定是通过手动输入生成的,这意味着随着时间的推移,数据很可能会出现细微的不一致。随着您修复越来越多的这些问题,您的解析代码将成为特殊情况的负担。因此,您应该考虑您想要做的事情是否值得维护如此混乱的代码。在
您可以使用
csv
模块来完成其中的一部分,并在开始时手动处理非常混乱的字段。在所以,假设您使用的是Python 3.x,我的意思是:
生成的csv输出文件的内容:
^{pr2}$相关问题 更多 >
编程相关推荐