使用python逐行解析pre-tag

2024-09-27 22:23:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个HTML文件,其中包含pre标记中的数据。我想逐行解析pre-tags中的数据,并根据每个标签中的时间戳进行排序行。怎么了我能用python做到吗。在

<pre>**Date Time DataFeed**
10/01/1994 10:00:00 Go_to_sleep
.......
.......</pre>

Tags: 文件to数据标记godatetime排序
1条回答
网友
1楼 · 发布于 2024-09-27 22:23:39
In [1]: import bs4

In [2]: text = '''<pre>**Date Time DataFeed**
   ...: 10/01/1994 10:00:00 Go_to_sleep
   ...: 10/01/1994 10:00:00 Go_to_sleep
   ...: 10/01/1994 10:00:00 Go_to_sleep
   ...: 10/01/1994 10:00:00 Go_to_sleep</pre>'''

In [3]: soup = bs4.BeautifulSoup(text, 'lxml')

In [4]: soup.pre.get_text()
Out[4]: '**Date Time DataFeed**\n10/01/1994 10:00:00 Go_to_sleep\n10/01/1994 10:00:00 Go_to_sleep\n10/01/1994 10:00:00 Go_to_sleep\n10/01/1994 10:00:00 Go_to_sleep'
In [6]: soup.pre.get_text().splitlines()
Out[6]: 
['**Date Time DataFeed**',
 '10/01/1994 10:00:00 Go_to_sleep',
 '10/01/1994 10:00:00 Go_to_sleep',
 '10/01/1994 10:00:00 Go_to_sleep',
 '10/01/1994 10:00:00 Go_to_sleep']

在bs4中,带有换行符的html代码被转换为\n,可以使用splitlines()将其拆分为list。在

相关问题 更多 >

    热门问题