Python中文
首页
教程
问答
标签
搜索
登录
注册
Python,从字符串中删除所有html标记
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我正在尝试从网站访问文章内容,使用带有以下代码的BeautifulGroup:</p> <pre><code>site= 'www.example.com' page = urllib2.urlopen(req) soup = BeautifulSoup(page) content = soup.find_all('p') content=str(content) </code></pre> <p>content对象包含“p”标记中页面的所有主文本,但是在输出中仍然存在其他标记,如下图所示。我要删除包含在匹配的标记对中的所有字符以及标记本身。只剩下文字了。</p> <p>我试过以下方法,但似乎不起作用。</p> <pre><code>' '.join(item for item in content.split() if not (item.startswith('<') and item.endswith('>'))) </code></pre> <p>什么是移除一个sting中的子字符串的最佳方法?以某种模式开始和结束的,如<;></p> <p><a href="https://i.stack.imgur.com/ozJoB.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/ozJoB.png" alt="enter image description here"/></a></p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>您需要使用<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/#strings-and-stripped-strings" rel="nofollow">strings generator</a>:</p> <pre><code>for text in content.strings: print(text) </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
文本导入时标题行中的特殊字符
5 回答
文本小部件:在没有输入时更新并在循环后保持空闲
5 回答
文本小部件tkin
9 回答
文本小部件tkinter中的标签更改或文本外观更改是否有撤消功能?
9 回答
文本小部件tkinter复制图像选项
6 回答
文本小部件上的Python Tkinter ttk滚动条未缩放
2 回答
文本小部件上的滚动条可能需要根据制表符ord显示前进行滚动
2 回答
文本小部件不显示lis中的内容
6 回答
文本小部件不显示Unicode字符
3 回答
文本小部件中写入的行间距
3 回答
文本小部件中的文本作为变量
8 回答
文本小部件中的滚动条仅显示在底部
4 回答
文本小部件中的选项卡键空间计数
10 回答
文本小部件作为Lis
1 回答
文本小部件在主框架中扩展列宽
1 回答
文本小部件未使用删除功能清除
10 回答
文本小部件滚动动画(Tkinter、Python)
3 回答
文本居中。格式正确吗?
5 回答
文本差分算法
5 回答
文本已知时音频文件中的单词索引
5 回答