Python中文
首页
教程
问答
标签
搜索
登录
注册
Python用不正确的html结构废弃数据
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我有以下代码:</p> <pre><code>*** REST OF CODE OMITTED *** try: fullURL = blitzurl + movie opener.open(blitzurl) urllib2.install_opener(opener) request = urllib2.Request(fullURL) requestData = urllib2.urlopen(request) htmlText = BeautifulSoup(requestData.read()) #panel = htmlText.find(match_class(["panelbox"])) #table = htmlText.find("table", {"id" : "scheduletbl"}) print htmlText blah.... except Exception, e: print str(e) print "ERROR: ERROR OCCURED IN MAIN" </code></pre> <p>我试图获取id为“scheduletbl”的表的内容(该表位于div中一个名为“panelbox”的类</p> <p>html代码如下所示:</p> ^{pr2}$ <p>我遇到的问题是,当我试图根据div id提取内容时,它会在中间被切断(我猜是因为不正确的结束标记)。在</p> <p>当我试图基于(使用其id)提取内容时,也会发生这种情况。它也会在中间被切断,因为有一个,它不应该在那里。在</p> <p>解决这个问题最好的办法是什么?我无法控制这些数据,因为它是从某个网站上删除的。在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<pre><code>re.search(r'id="scheduletbl".+?</table>', page, re.DOTALL) </code></pre> <p>如果涉及换行符,则执行dotall。这是丑陋而非美丽的方式</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何添加虚拟方法
3 回答
如何添加表示整数的擦边字符串?
5 回答
如何添加要在Bokeh中使用的新font.ttf文件?
6 回答
如何添加要显示的矩阵XY轴编号和XY轴
9 回答
如何添加计数?
5 回答
如何添加计数器函数?
2 回答
如何添加计数器列来计算数据帧中另一列中的特定值?
1 回答
如何添加计数器来跟踪while循环中的月份和年份?
6 回答
如何添加计数并删除countplot的顶部和右侧脊椎?
7 回答
如何添加计时器wx.应用程序更新窗口对象的主循环?
10 回答
如何添加评论到帖子?PostDetailVew,Django 2.1.5
1 回答
如何添加评论拉梅尔亚姆
2 回答
如何添加诸如矩阵Python/Pandas之类的数据帧?
3 回答
如何添加谷歌地点自动完成到Flask?
4 回答
如何添加超时、python discord bot
2 回答
如何添加超过1dp的检查
7 回答
如何添加距离方法
3 回答
如何添加跟随游戏的敌人精灵
6 回答
如何添加路径以便python可以找到程序?
8 回答
如何添加身份验证/安全性以使用happybase访问HBase?
9 回答