我用python编写了一个脚本,从一些html元素中提取一些文本。脚本现在可以解析它了。然而,问题是结果之间有一堆空格看起来很奇怪。我怎样才能修好它?任何帮助将不胜感激。在
这是应该从中删除文本的html元素:
html="""
<div class="postal-address">
<p>11525 23 AVE</p>
<p>EDMONTON,
AB
,
T6J 4T3
</p>
<p><a rel="nofollow" href="mailto:info@something.com">info@something.com</a></p>
<p><a rel="nofollow" href="http://www.something.org" target="_blank">Visit our Web Site</a></p>
</div>
"""
这是我正在尝试的脚本:
^{pr2}$结果我得到了:
11525 23 AVE, EDMONTON,\n AB\n ,\n T6J 4T3\n
预期结果:
11525 23 AVE EDMONTON, AB, T6J 4T3
我试图在这行[item.text for item in root.cssselect(".postal-address p")]
中应用.strip()
和.replace("\n","")
,但它抛出了一个显示none type object
的错误。在
顺便说一句,我不想有任何与regex
相关的解决方案。提前谢谢。在
', '
作为分隔符连接字符串。在像这样:
输出
^{pr2}$如果已经有字符串列表,则更容易:
^{3}$当你这样做的时候。replace(“\n”,“”)我想你必须避开斜杠。这有时会令人困惑,如果不尝试的话,我无法告诉你需要多少个斜杠来逃避它,但请尝试其中一个。。。。在
使用单引号时会发生什么?在
请尝试以下解决方案,如有任何问题,请通知我:
输出:
^{pr2}$相关问题 更多 >
编程相关推荐