Unicode Web抓取

2024-09-24 22:21:46 发布

您现在位置:Python中文网/ 问答频道 /正文

我从barney网站抓取项目id,在从输出中删除unicode时出现问题。例如,我想得到项目id为503777359,但是为item id得到的输出是[u'503777359']。我希望输出是电话:503777359。我该怎么办?在

d3包含:“费尔法克斯海军蓝和白色格伦格子棉府绸连衣裙衬衫。摊开衣领、单纽扣筒形袖口、肩轭和背部垂直飞镖、衬衫下摆、珍珠母色纽扣可选海军蓝/白色棉机洗,日本制造。型号为6'1“/185cm,穿着尺寸为15.5。 样式#503777359“

    d2=item.find("div",{"class":"panel-body standard-p"})
    d3=d2.text
    print d3
    p_id = re.findall(r'[0-9]{9}',d3)
    print p_id

Tags: 项目id网站unicodeitemd2d3电话
2条回答

只需将[list]结果转储到如下变量中:

d2=item.find("div",{"class":"panel-body standard-p"})
d3=d2.text
print d3
p_id = re.findall(r'[0-9]{9}',d3)
idICareAbout = p_id[0]

当然,你可以得到相同的来源并寻找

^{pr2}$

只得到一个结果的ID。在

希望这有帮助!在

如果字符串不包含奇怪的字符,也就是128码位或更大的字符,则可以使用str()轻松地将其转换为ascii。这不是unicode抓取。您正在打印列表的内容。例如

p_id=[u'503777359']

print p_id

[u'503777359']

p_id=[str(u'503777359')]

print p_id

['503777359']

如你所见,“u”神奇地消失了。在

相关问题 更多 >