在python中只取出纯格式的段落值

import urllib2 import re response = urllib2.urlopen('http:') print "Response:", response regex = '<div class=\"entry-content\">(.*?)</div>' pattern =re.compile(regex) # Get all data html = response.read() splitsource = re.findall(pattern,html) print "this is the",splitsource

1条回答

网友

1楼 · 发布于 2024-09-28 17:03:35

这将从html中的段落中获取文本：

import requests
from bs4 import BeautifulSoup
url="http://stackoverflow.com/questions/23715844/taking-out-only-paragraph-value-in-plain-form-in-python"
r = requests.get(url)
soup = BeautifulSoup(r.text)
for t in soup.find_all("p"):
    print t.getText()

看看beautifulsoup docs

编程相关推荐

尝试连接到Red5服务器时出现java问题
java实现Runnable的类被认为是ExecutorServices的“Runnable任务”？
java struts2类中的多个@validation
java未能应用插件[class'org.gradle.api.plugins.scala.ScalaBasePlugin']：gradle v2。13
如何使用Java流仅收集长度最大的元素？
从spring引导应用程序连接到firestore的java引发空指针异常
java从SQLite插入和获取真实数据类型会为连续插入获取空值吗？
当存在未知数量的空格时，使用java替代正向查找
部署如何为当今的浏览器部署java小程序（小程序、嵌入、对象）？
@OneToMany和@ManyToOne@Formula之间的java双向关系返回null

相关问题更多 >

编程相关推荐

热门问题

热门文章

在python中只取出纯格式的段落值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >