我正在尝试将一个表从文本文件放到数据帧中。这个文本文件是从一个pdf文件创建的,我对python还比较陌生。我有一个函数可以处理文本表的特定格式。例如,当第二列只有MU../All uses/All/MU而没有其他文本,并且第四列的长度小于第五列时,我的代码可以处理。如果第一列有LM../(LM..)/3333(只有数字),但没有缩进,它也可以处理,但这对我来说似乎有点太难了。因为第二列可能有前面提到的以外的句子和单词,在一行中,第四列比第五列长,而在另一行中,第一列有缩进。我受够了
LM1111 MU1111 Dev text1 text1 text1 text1 medium
text2 text2 text2 text2 text3 text3
Text4 text4
(LM2222) text5 text5 Val,dev text7 text7 text7 low. Text10
Text6 text6 text8 text8 text8 text11 text11
Text9 text9 text9
MU2222 Val text12 text12 text12 high
3333 MU3333 text13 text13 text13
最后的数据帧应该有5列和3行,如下所示
LM1111 MU1111 Dev text1 text1 text1 text1 medium
text2 text2 text2 text2 text3 text3
Text4 text4
(LM2222) text5 text5 Val,dev text7 text7 text7 low. Text10
Text6 text6 text8 text8 text8 text11 text11
Text9 text9 text9
3333. MU2222 Val text12 text12 text12 high
MU3333 text13 text13 text13
有人能帮我吗?注:“文本..”可以是任何句子/多行句子、单词、数字或特殊字符。我已经尝试了所有的解决方案张贴在stackoverflow,尝试表py,pypdf2,pdfminer。似乎没有什么帮助。任何帮助都将不胜感激
目前没有回答
相关问题 更多 >
编程相关推荐