Python中文
首页
教程
问答
标签
搜索
登录
注册
BeautifulSoup:从jatsxml中提取数字和字幕
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我想从jatsxml获取图像和它的描述。在我的示例中,我使用<a href="http://journal.frontiersin.org/article/10.3389/fpls.2011.00008/xml/nlm" rel="nofollow noreferrer">http://journal.frontiersin.org/article/10.3389/fpls.2011.00008/xml/nlm</a></p> <p>这些数字的格式如下:</p> <pre><code><fig id="F1" position="float"> <label>Figure 1</label> <caption><p><bold>Pathways of DSB misrepair...</p></caption> <graphic xlink:href="fpls-02-00008-g001.tif"/> </fig> </code></pre> <p>我想得到每个图形的<code><caption>...</caption></code>和<code><graphic xlink:href="..."/></code>的内容。你知道吗</p> <p>所以我的想法是使用BeautifulSoup的css选择器,在打印时去掉html标记:</p> <pre><code>#!/usr/bin/python from bs4 import BeautifulSoup import urllib.request content = urllib.request.urlopen('file:///tmp/fpls-02-00008.xml').read() soup = BeautifulSoup(content, 'xml') ##<fig><caption>XXX</caption></fig> caption = soup.select("fig caption") ##<fig><graphic xlink:href="YYY"/></fig> graphic = soup.select("fig graphic") for a in caption: print(a.get_text().strip()) #print(b.get_text()) doesn't work for b in graphic: print(b) #separator = "|" #print(separator.join([caption, graphic])) </code></pre> <p>只得到标题或只是图形工程,但由于不一致的来源,我需要得到这两个在同一时间。结果不应该是</p> <ul> <li>标题A</li> <li>标题B</li> <li>图形A</li> <li>图形B</li> </ul> <p>而是</p> <ul> <li>标题A,图形A</li> <li>标题B,图形B</li> </ul> <p>我如何做到这一点?提前谢谢!你知道吗</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>您可以使用zip同时循环浏览两个列表:</p> <pre><code>>>> A = [1,2,3,4,5] >>> B = ['A','B','C','D','E'] >>> for number,letter in zip(A,B): ... print number,letter ... 1 A 2 B 3 C 4 D 5 E >>> </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何将Python中的列表复制到给定的目标中?
5 回答
如何将python中的列表插入SQL表
9 回答
如何将python中的列表转换为numpy数组以放入十位
2 回答
如何将python中的列表输入javascript?
1 回答
如何将python中的列表返回给dag?
2 回答
如何将Python中的列表项重新排列成成对的元组/列表?
1 回答
如何将Python中的初始化对象序列化为XML?
10 回答
如何将python中的十进制字符串转换为数字?
10 回答
如何将Python中的原始输入文本转换为Tkinter中的标签?
9 回答
如何将python中的反斜杠命令转换为在Linux上运行
9 回答
如何将python中的命令行参数转换为字典?
1 回答
如何将python中的图像值传递到kivy中的kv文件?
1 回答
如何将Python中的图像数组(枕头对象)上传到Google云
1 回答
如何将Python中的图像编码为Base64?
2 回答
如何将python中的图像调整为灰度低分辨率,如MNIST时尚数据?
4 回答
如何将python中的多个html输出保存到单个文件(或多个)中?
10 回答
如何将Python中的多个ifelse语句重构为一个函数?
8 回答
如何将Python中的多处理与Django结合使用,从xml文件创建数千个模型实例?
4 回答
如何将python中的多级API响应转换为dataframe
10 回答
如何将python中的多线程编程模型转换为异步/等待模型?
5 回答