我正在努力清理这个网站:http://800notes.com/Phone.aspx/1-717-746-7214
获取此信息:“2017年5月23日”
但是页面一侧的新闻文章的名称是相似的,所以我无法挑出我要查找的标签,这会扭曲我的结果。我是不是做错什么了
我正在努力确保我不会在页面的右侧看到“datetime”标签,这些标签链接到文章和讨论板
这是我试图使用的代码
datePre = soup.find('div', id='oos_px')
soup = BeautifulSoup(unicode(datePre), 'lxml')
dateList = soup.find_all('time')
endingString = str(dateList[-1])
timeStart = endingString.index('\"') + 1
timeEnd = timeStart + 10
dateString = endingString[timeStart:timeEnd]
有人告诉我名单超出范围了?它应该产生一个结果集,我可以通过正确的搜索?我一整天都在想这个,快把我逼疯了哈哈。感谢所有在这里冒险的人
global dateString
soup.select(".oos_contletList time")
dateList = soup.find_all('time')
endingString = str(dateList[-1])
更新的代码应该可以工作,但仍然是抓取新闻网站上的最新职位的侧边栏
我还没有用漂亮的汤尝试过这个,但是下面的css选择器应该是正确的。
用铬合金测试选择器
我试图使用:not()css选择器来排除您提到的那些。如果我能成功的话,我会发回的
相关问题 更多 >
编程相关推荐