我使用PythonBS4从这些HTML代码中提取日期和时间
[<;时间 class="published-date relative-date" data-published-date="2020-07-21T18:49:14Z" datetime="2020-07-21T18:49:14Z" > < /time >, < time class="published-date relative-date" data-published-date="2020-07-21T18:48:26Z" datetime="2020-07-21T18:48:26Z" >< / time>, < time class="published-date relative-date" data-published-date="2020-07-21T18:47:00Z" datetime="2020-07-21T18:47:00Z"></ time>, < time class="published-date relative-date" data-published-date="2020-07-21T18:43:21Z" datetime="2020-07-21T18:43:21Z"> </ time>]
***
我想知道除了日期和时间之外,我怎样才能去掉其他文本?例如,'2020-07-21T18:49:14Z',并将其显示为'2020-07-21',18:49:14Z'
以下是我目前的代码:
日期和时间=汤。查找所有('time',attrs={'class':'published-date-relative-date'})
此脚本将创建包含
time
和date
列的数据帧:印刷品:
您可以使用
dateutil
来解析原始日期时间字符串。使用命令pip install python-dateutil
使用pip安装dateutil输出:
你可以用
那你就只有时间了。如果您使用的是find_all,您将获得与属性匹配的所有文本
您还可以拆分当前的文本:
相关问题 更多 >
编程相关推荐