Python中的Excellike文本导入:自动解析固定宽度列

2024-06-01 09:09:10 发布

您现在位置:Python中文网/ 问答频道 /正文

在Excel中,如果导入的是空白的文本,其中的列没有完全对齐,数据可能会丢失,比如

  pH             pKa/Em  n(slope) 1000*chi2      vdw0  
CYS-I0014_        >14.0                          0.00  
LYS+I0013_       11.827     0.781     0.440      0.18

您可以选择将其视为固定宽度的列,Excel可以自动计算出列宽,通常会得到相当好的结果。Python中是否有一个库可以以类似的自动方式分解格式不好的固定宽度文本?在

编辑: 这就是固定宽度文本导入在Excel中的样子。在第一步中,只需选中“固定宽度”单选按钮,然后在第二步中,Excel已经自动添加了分栏符。唯一不能正确执行此操作的情况是,每行的每个分栏符中没有至少一个空格字符重叠。在

fixed width text importing in excel


Tags: 数据文本宽度excelph空白slopeem
1条回答
网友
1楼 · 发布于 2024-06-01 09:09:10

首先,Excel(2003年,在家里)并不那么聪明。如果列1000*chi2包含空格,例如1000*chi2,excel会猜错。在

简单情况:如果您的数据最初是用制表符(而不是空格)分隔的,并且使用多个制表符来表示空列,那么,至少在TCL中,按制表符内容拆分每一行是很容易的,我想在Python中也很简单。在

但我猜你的问题是他们只使用空格字符。 解决这个问题的最大线索就是把你的文字粘贴到记事本上,然后选择一个固定大小的字体。所有的东西都整齐地排成一行,你可以用每行中的字符数来衡量“长度”。在

因此,如果您可以依赖于输入的这一特性,那么您可以使用“筛选”方法来识别自动断列的位置。当你在第一个过程中咀嚼这些行时,注意沿着这条线被非空白占据的“位置”,如果一个位置曾经被非空白占据,就从你的列表中删除它。当你走的时候,你会很快到达一组从未被非空白占据的位置。那么,这些就是分栏器。在你的例子中,你的“筛子”最终会得到10-16、23-24、32、42-47的位置,而这些位置从来没有被非空白占据过(假设我能数数)。 因此,该集合的补充就是数据必须位于的列位置集合。 所以,对于每一行,每一个非空白块都将放在上面确定的位置集(即补码集)的列中。 我从来没有用Python编写过代码,所以附加的是一个TCL脚本,它将使用sieve方法识别文本中的分栏符,并生成一个新的文本文件,其中空格字符正好被一个制表符替换,即10-16被一个制表符替换,23-24被另一个制表符替换,等等。 生成的文件是制表符分隔的,即普通情况。我承认我只试过你的小案件数据,复制到一个叫做附件;输出转到ex_ux.txt。我怀疑如果标题包含空格也可能会有问题。在

希望这有帮助!在

set fh [open ex.txt]
set contents [read $fh];#ok for small-to-medium files.
close $fh

#first pass
set occupied {}
set lines [split $contents \n];#split contents at line breaks.
foreach line $lines {
  set chrs [split $line {}];#split each line into chars.
  set pos 0
  foreach chr $chrs {
    if {$chr ne " "} {
      lappend occupied $pos
    }
    incr pos
  }
}

#drop out with long list of occupied "positions": sort to create
#our sieve.
set datacols [lsort -unique -integer $occupied]
puts "occupied: $datacols"

#identify column boundaries.
set colset {}
set start [lindex $datacols 0];#first occupied pos might be > 0??
foreach index $datacols {
  if {$start < $index} {
    set end $index;incr end -1
    lappend colset [list $start $end]
    puts "col break starts at $start, ends at $end";#some instro!
    set start $index
  }
  incr start
}

#Now convert input file to trivial case output file, replacing
#sieved space chars with tab characters.
set tesloc [lreverse $colset];#reverse the column list!
set fh [open ex_.txt w]
foreach line $lines {
  foreach ele $tesloc {
    set line [string replace $line [lindex $ele 0] [lindex $ele 1] "\t" ]
  }
  puts "newline is $line"
  puts $fh $line
}
close $fh

相关问题 更多 >