python3.2使用urllib从HTML代码中删除换行符

2024-09-30 06:16:13 发布

您现在位置:Python中文网/ 问答频道 /正文

我用urllib把HTML转换成一个字符串,我想对字符串执行serach,但由于HTML格式的原因无法执行,所以有没有办法“取消格式化”字符串,不需要取出HTML代码,我只需要删除所有新行。 这是我的代码:

import urllib.request

url = "http://www.internetworldstats.com/emarketing.htm"
request = urllib.request.Request(url)
response = urllib.request.urlopen(request)
Whole=(response.read().decode('ISO-8859-1'))

Whole.strip('/n')
print(Whole[11631:12631])
YearPos=Whole.find('December, 1996')
print(YearPos)

剥皮钻头不起作用。。。。我得到的结果是这样的

^{pr2}$

Tags: 字符串代码importurlresponserequesthtml格式
2条回答

这里有几个问题。。。在

  1. 正如Vasili提到的,换行符应该是\n,而不是/n

  2. ^{}不直接修改字符串。它返回修改后的字符串的副本。所以它应该是Whole = Whole.strip('\n')

  3. ^{}删除前导尾随字符。在您的例子中,您希望删除位于字符串中间的换行字符。所以您应该使用str.replace(),例如Whole = Whole.replace('\n', '')

换行符写错了,它是\n,而不是{}。在

相关问题 更多 >

    热门问题