如何在某个div中搜索标记,不包括其他同名div?

2024-09-30 06:26:26 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在努力清理这个网站:http://800notes.com/Phone.aspx/1-717-746-7214

获取此信息:“2017年5月23日”

但是页面一侧的新闻文章的名称是相似的,所以我无法挑出我要查找的标签,这会扭曲我的结果。我是不是做错什么了

我正在努力确保我不会在页面的右侧看到“datetime”标签,这些标签链接到文章和讨论板

这是我试图使用的代码

datePre = soup.find('div', id='oos_px')
soup = BeautifulSoup(unicode(datePre), 'lxml')
dateList = soup.find_all('time')
endingString = str(dateList[-1])
timeStart = endingString.index('\"') + 1
timeEnd = timeStart + 10
dateString = endingString[timeStart:timeEnd]

有人告诉我名单超出范围了?它应该产生一个结果集,我可以通过正确的搜索?我一整天都在想这个,快把我逼疯了哈哈。感谢所有在这里冒险的人

global dateString
soup.select(".oos_contletList time")
dateList = soup.find_all('time')
endingString = str(dateList[-1])

更新的代码应该可以工作,但仍然是抓取新闻网站上的最新职位的侧边栏


Tags: 代码time网站文章页面标签allfind
1条回答
网友
1楼 · 发布于 2024-09-30 06:26:26

我还没有用漂亮的汤尝试过这个,但是下面的css选择器应该是正确的。
用铬合金测试选择器

for elm in soup.select(".oos_contletList time"):
    print(elm.text)

我试图使用:not()css选择器来排除您提到的那些。如果我能成功的话,我会发回的

相关问题 更多 >

    热门问题