我在和Python搏斗。我知道某个标题的类别。我需要通用<a href。。。在这个h1

2条回答

网友

1楼 · 编辑于 2024-09-30 20:19:09

好吧，只要使用字符串，你就可以

>>> s = '''<h1 class='entry-title'>
...     <a href='http://theurlthatvariesinlengthbasedonwhenirequesthehtml'>theTitleIneedthatvariesinlength</a>
... </h1>'''
>>> s.split('>')[1].strip().split('=')[1].strip("'")
'http://theurlthatvariesinlengthbasedonwhenirequesthehtml'
>>> s.split('>')[2][:-3]
'theTitleIneedthatvariesinlength'

不过，还有其他（更好的）解析HTML的选项

网友

2楼 · 编辑于 2024-09-30 20:19:09

使用HTML解析器分析它，例如使用^{}它将是：

from bs4 import BeautifulSoup

data = "your HTML here"  # data can be the result of urllib2.urlopen(url)

soup = BeautifulSoup(data)
link = soup.select("h1.entry-title > a")[0]

print link.get("href")
print link.get_text()

其中h1.entry-title > a是一个CSS selector匹配直接位于h1元素下的a元素和class="entry-title"的

编程相关推荐

java在intellij idea中，如何将资源/文件夹编译器下的文件配置为classes/config/folder，而不是直接在classes/folder下
jdbc Java PreparedStatement保留表名大小写
java Android使用来自另一个活动的变量
如果SpringBoot中出现NoHandlerFoundException，java无法返回自定义响应
sql shell脚本未完全从java执行
java试图让视图反映编辑器的状态
数学方程中的Java操作
返回int值的java布尔方法；
java使用ANT根据包名动态生成JAR文件
带约束的java传递面板

相关问题更多 >

编程相关推荐

热门问题

热门文章

我在和Python搏斗。我知道某个标题的类别。我需要通用<a href。。。在这个h1

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >