解析：如何去掉Unicode字符？

r=requests.get('http://www.virginiaequestrian.com/main.cfm?action=greenpages&sub=view&ID=10478') soup=BeautifulSoup(r.content,'lxml') tbl=soup.findAll('table')[2] Contact=tbl.findAll('p')[0] list=[] for br in Contact.findAll('br'): next = br.nextSibling text=next.strip() list.append(text) print list

2条回答

网友

1楼 · 编辑于 2024-09-28 20:55:46

可以使用str类型具有的replace内置函数。你知道吗

text = next.strip().replace("\n", "").replace("\t", "").replace("\r", "")

这样您就可以替换\n\t\r，而不使用任何内容来替换它们

网友

2楼 · 编辑于 2024-09-28 20:55:46

from bs4 import BeautifulSoup, NavigableString, Tag
import requests
import re

r=requests.get('http://www.virginiaequestrian.com/main.cfm?action=greenpages&sub=view&ID=10478')
soup=BeautifulSoup(r.content,'lxml')
tbl=soup.findAll('table')[2]

Contact=tbl.findAll('p')[0]

list=[]
for br in Contact.findAll('br'):
    next = br.nextSibling
    regex = re.compile(r'[\n\r\t\xa0]')
    text=next.strip()
    text=regex.sub(' ', next)
    list.append(text)
print list

我仔细研究了一下，发现我可以用正则表达式来计算这些值，但我仍然有一个关于间距的问题 [u'2133 Craigs Store Road'，u'Afton，VA 22920'，u'联系人：'，u'电子邮件地址：'，u'网站：'，u'电话：434-882-3150'，u''] 但至少那些角色已经消失了

相关问题更多 >

编程相关推荐

热门问题

热门文章