Python中文
首页
教程
问答
标签
搜索
登录
注册
使用BeautifulSoup拾取以“:”分隔的文本
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>网页源代码包含如下片段:</p> <pre><code><TR> <TD width="40%">Company No. <I>(CO.)</I> : <B>056</B></TD> <TD width="40%">Country Code. <I>(CC.)</I> : <B>3532 </B></TD></TR> <TR> <TD>Register <I>(Reg.)</I> : <B>FD522</B></TD> <TD>Credit<I>(CD.) </I>: <B>YES</B></TD></TR> <TR> <TD>Type <I>(TP.)</I> : <B>PRIVATE</B></TD></TR> </code></pre> <p>简称,如公司,抄送。规则。CD。和TP。是斜体字体。056、3532、FD522等内容均为粗体。它们之间用“:”隔开。在</p> <p>我想用beauthulsoup分别提取它们的标题和内容,但是没有成功。在</p> <p>我正在使用:</p> ^{pr2}$ <p>但效果不好。它在一行中返回“Company No.<i>(CO.)</i>:<b>056</b>”,但我希望它们分开,比如“Company No.”、“CO.”和“056”。在</p> <p>我也试过:</p> <pre><code>all_texts = soup.find_all(":") </code></pre> <p>或者:</p> <pre><code>all_texts = soup.find_all("/b") </code></pre> <p>等等,但它们不起作用。在</p> <h2>结果</h2> <p>下面的帮助有两种方法。放在那里作为参考:</p> <p>这样可以获得粗体字母的内容,但是在某些句子中,最后一个字母会丢失:</p> <pre><code>for bb in aa: cc = bb.get_text() dd = cc[cc.find("<b>")+1 : cc.find("</b>")] print dd </code></pre> <p>这样,ee和ff提供了“标题”和内容,即“:”前后的文本。在</p> <pre><code>for bb in aa: cc = bb.get_text() dd = cc.split(' :') ee = dd[0] #title ff = dd[len(dd)-1] # content </code></pre>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>使用findAll获取完整HTML文档的正确部分,然后使用:</p> <pre><code>text = soup.get_text() print text </code></pre> <p>然后用“.split()”将其拆分为数组</p> ^{pr2}$
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何添加虚拟方法
4 回答
如何添加表示整数的擦边字符串?
3 回答
如何添加要在Bokeh中使用的新font.ttf文件?
7 回答
如何添加要显示的矩阵XY轴编号和XY轴
5 回答
如何添加计数?
1 回答
如何添加计数器函数?
4 回答
如何添加计数器列来计算数据帧中另一列中的特定值?
2 回答
如何添加计数器来跟踪while循环中的月份和年份?
8 回答
如何添加计数并删除countplot的顶部和右侧脊椎?
10 回答
如何添加计时器wx.应用程序更新窗口对象的主循环?
6 回答
如何添加评论到帖子?PostDetailVew,Django 2.1.5
6 回答
如何添加评论拉梅尔亚姆
1 回答
如何添加诸如矩阵Python/Pandas之类的数据帧?
10 回答
如何添加谷歌地点自动完成到Flask?
9 回答
如何添加超时、python discord bot
9 回答
如何添加超过1dp的检查
1 回答
如何添加距离方法
7 回答
如何添加跟随游戏的敌人精灵
10 回答
如何添加路径以便python可以找到程序?
10 回答
如何添加身份验证/安全性以使用happybase访问HBase?
2 回答