Python HTML scraping找不到我知道存在的属性？

from lxml import html import requests page = requests.get('https://www.thehindu.com/news/national/karnataka/kumaraswamy-congress-leaders-meet-to-discuss-cabinet-reshuffle/article27283040.ece') tree = html.fromstring(page.content) article = tree.xpath('//div[@class="article"]/text()')

1条回答

网友

1楼 · 发布于 2024-09-25 16:28:11

我将在cssselect_one中使用bs4和类名

import requests
from bs4 import BeautifulSoup as bs
page = requests.get('https://www.thehindu.com/news/national/karnataka/kumaraswamy-congress-leaders-meet-to-discuss-cabinet-reshuffle/article27283040.ece')
soup = bs(page.content, 'lxml')
print(soup.select_one('.article').text)

如果你使用

article = tree.xpath('//div[@class="article"]//text()')

您得到了一个列表，但仍然得到了所有的\n文本，我认为您可以使用re.sub或条件逻辑处理这些文本

编程相关推荐

java优先级队列排序在Ubuntu上给出了奇怪的行为？
Android 4.4.2上的java Change SMS应用程序默认设置
网络化基于Java的Telnet代理服务器，支持TLS。但为什么是java。网SocketException:连接被拒绝
java在循环中显示JFrame弹出窗口上的输出
ECLIPSEJAVASSR1WIN 32未启动
Java/OpenCV如何在OpenCV中进行无损h264视频写入？
导入组织时出现java问题。springframework。web:无法解析符号“web”
java如何在没有Shade插件的情况下编译DropWizard？
java如何集成Tomcat和ApacheApollo？
java错误：由于Twitter卡验证程序上的：HttpConnectionTimeout，“错误：无法获取页面”

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python HTML scraping找不到我知道存在的属性？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >