如何提取特定段落标记

3条回答

网友

1楼 · 编辑于 2024-10-01 04:54:11

使用BeautifulGroup模块从<p>标记提取所有文本。在

内容脚本.py：

from bs4 import BeautifulSoup
import sys 

soup = BeautifulSoup(open(sys.argv[1], 'r'), 'html')

    print(' '.join(map(lambda e: e.string, soup.find_all('p'))))

运行方式如下：

^{pr2}$

网友

2楼 · 编辑于 2024-10-01 04:54:11

试试这个

from BeautifulSoup import BeautifulSoup as bs
soup = bs(<Your html>)
soup.p.text

网友

3楼 · 编辑于 2024-10-01 04:54:11

您应该对desc使用.get_text()方法。使用Python 2.7和BS 4.3.2：

from bs4 import BeautifulSoup as bsoup

ofile = open("test.html")
soup = bsoup(ofile)

desc = soup.find("p", class_="bio profile")
# or desc = soup.find("p", {"class":"bio profile"})
print desc.get_text().strip()

结果：

^{pr2}$

希望这有帮助。在

编程相关推荐

swing Java：使用带有箭头键的按键
JavaApache意外暂停以发出请求
Java通用方法。为什么T被推断为地图？
java SpringBootMavenPlugin命令将资源复制到WAR主目录
在创建对象之前使用的oop Java括号
java如何让GELFJ appender在log4j中工作？
按钮大小改变时java字体大小改变
JavaSpock：类强制转换异常，但可用于实际调用
未能编译生成的JSP java文件
java如何从命令行运行osgi模块？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何提取特定段落标记

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >