将非结构化数据从BeautifulGroup解析为结构化数据集

1条回答

网友

1楼 · 发布于 2024-10-02 08:22:13

它的工作原理如下：首先使用这些regex和replection使输入文本更易于管理：

",[ ]*\n[ ]*" replace this with a single comma ","
"\.{2,}" replace this with a single whilte space " "
", " (comma and space) replace it with a single comma ","
"\. " (point a space) replace it with a single point "."
"^[ ]*" any space at the start replace with nothign ""

那么你可以使用这个正则表达式

^{pr2}$

如果我们走现在转变的第一条线

jln.sidomulyo i-vi cepu 58312

您可以看到（注意arg1前面实际上有一个新的折线图，因此您最好检查它是否存在并将其删除）

arg1:   jln.sidomulyo
arg2:   i-vi
arg3:   cepu
arg4:   58312

如果我们用这样的格式

lr.sitimulyo i-vi,ia-iiia,ib-iiib,ic,iic cepu 58312

您可以看到（arg1在arg1[0]上有新行，您需要删除它）

arg1:   lr.sitimulyo
arg2:   i-vi,ia-iiia,ib-iiib,ic,iic
arg3:   cepu
arg4:   58312

在这里，当您通过“，”字符将arg2拆分时，需要对其进行itterate，并使入口像这样。在

唯一的问题是这些线路

lr.taman siswa i-vii,ia,ib,v/17 cepu 58311

你有一个基本的5个空格（或者更多的我想）和基本的arg1需要所有的东西，直到这一部分我假设“i-vii，ia，ib，v/17”。应该有一个简单的解决办法，但我想不出来

哎哟，忘了加这样的台词

jln.sitimulyo cepu 58312

本质上没有arg4，所以您只需查看arg4是否为空或不存在（不知道它在python中是如何工作的）

我希望有帮助

相关问题更多 >

编程相关推荐

热门问题

热门文章

将非结构化数据从BeautifulGroup解析为结构化数据集

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >