我是StackOverflow的新手,但我在这个网站上找到了很多答案。我也是一个编程新手,所以我想我会加入这个社区,并最终成为这个社区的一部分——从一个困扰我几个小时的问题开始。
我登录到一个网站,在b标记中刮取一大块文本,然后转换成一个合适的表。结果的布局输出.txt看起来像这样:
BIN STATUS
8FHA9D8H 82HG9F RECEIVED SUCCESSFULLY AWAITING STOCKING PROCESS
INVENTORY CODE: FPBC *SOUP CANS LENTILS
BIN STATUS
HA8DHW2H HD0138 RECEIVED SUCCESSFULLY AWAITING STOCKING PROCESS
8SHDNADU 00A123 #2956- INVALID STOCK COUPON CODE (MISSING).
93827548 096DBR RECEIVED SUCCESSFULLY AWAITING STOCKING PROCESS
有一堆页面具有完全相同的块,但我需要将它们组合成一个实际的表,如下所示:
^{pr2}$本质上,本例中所有单独的文本块都将成为该表的一部分,inv代码与其Bin值重复。我会贴出我试图解析这些数据的文章(尝试过Pandas/bs/openpyxl/csv writer),但我承认他们有点尴尬,因为我找不到任何关于这个特定问题的信息。有没有仁慈的灵魂可以帮助我?:)
(另外,我使用的是python2.7)
我有一个代码写的网站报废,可能会帮助你。 基本上,您需要做的是在web页面上单击gotohtml并尝试找到您要查找的表的标记,并使用模块(我正在使用beautifulsoup)提取信息。我正在创建一个json,因为我需要将它存储到mongodb中,您可以创建表。在
一个相当复杂的问题,但这可能会让你开始:
说明
它查找}),以便在
INVENTORY CODE
,并设置组(inv
和{afterwork()
中进行进一步的处理(注意:如果您只有一行bin/msg,则会更容易,因为您需要在此处拆分组)。然后,它分割
bin
和msg
部分,并将所有内容附加到df
对象。在下面这样一个简单的自定义解析器就可以做到这一点。在
相关问题 更多 >
编程相关推荐