如何使用Python从文本文件中剥离SGML标记？

2条回答

网友

1楼 · 编辑于 2024-09-28 10:14:15

尝试以下操作：

from bs4 import BeautifulSoup
import requests

# Assuming this is the url where the file is
html = requests.get('http://www.lancaster.ac.uk/fass/projects/corpus/emille/MANUAL.htm').content

bsObj = BeautifulSoup(html)

textData = bsObj.findAll('p')

for item in textData:
    print item.get_text()

网友

2楼 · 编辑于 2024-09-28 10:14:15

或者您可以使用简单的正则表达式；如果data是包含以<；开头、以gt；结尾的标记的字符串，则这些标记之间的所有内容都将被丢弃—您可以将多个空白限制为一个，并删除数据。在

data = re.sub(r'<.*?>', '', data)
data = re.sub(r'\s+', ' ', data)
data = data.strip()

编程相关推荐

java testNG优先级和依赖性
java JPQL：以下WHERE子句使用继承时出现问题
java是否可以在JTable渲染器中进行查询？
java如何在javascript中向url添加变量并使用@PathVariable获取
在外部jframe中显示java控制台
java I无法连接到IBM MQ的QM错误2035 MQRC\u未授权
apache zookeeper如何解决Storm应用程序在本地集群中运行时出现的错误“java.net.ConnectException:连接被拒绝：connect”？
读取第一行的java文本文件具有键和第二行前进值
java在哪个线程池中affinityRun提交任务？如何配置线程数？
Java拆分字符串正则表达式：前导空格

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用Python从文本文件中剥离SGML标记？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >