不正确的表格从txt文件到panda数据帧

2024-09-30 02:33:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试将一个表从文本文件放到数据帧中。这个文本文件是从一个pdf文件创建的,我对python还比较陌生。我有一个函数可以处理文本表的特定格式。例如,当第二列只有MU../All uses/All/MU而没有其他文本,并且第四列的长度小于第五列时,我的代码可以处理。如果第一列有LM../(LM..)/3333(只有数字),但没有缩进,它也可以处理,但这对我来说似乎有点太难了。因为第二列可能有前面提到的以外的句子和单词,在一行中,第四列比第五列长,而在另一行中,第一列有缩进。我受够了

LM1111      MU1111  Dev      text1 text1 text1 text1   medium
                                   text2 text2 text2 text2   text3 text3 
                                                         Text4 text4 

 (LM2222)   text5 text5   Val,dev   text7 text7 text7         low. Text10 
           Text6 text6             text8 text8 text8         text11 text11 
                                   Text9 text9 text9 

           MU2222       Val      text12 text12 text12       high
 3333      MU3333                   text13 text13 text13

最后的数据帧应该有5列和3行,如下所示

LM1111      MU1111       Dev       text1 text1 text1 text1   medium
                                   text2 text2 text2 text2   text3 text3 
                                                             Text4 text4 

(LM2222)   text5 text5   Val,dev   text7 text7 text7         low. Text10 
           Text6 text6             text8 text8 text8         text11 text11 
                                   Text9 text9 text9 

3333.       MU2222        Val      text12 text12 text12      high
            MU3333                 text13 text13 text13                             

有人能帮我吗?注:“文本..”可以是任何句子/多行句子、单词、数字或特殊字符。我已经尝试了所有的解决方案张贴在stackoverflow,尝试表py,pypdf2,pdfminer。似乎没有什么帮助。任何帮助都将不胜感激


Tags: 数据文本val句子文本文件text1text2text3

热门问题