比较pandas datafram中的行值问题的回答

比较pandas datafram中的行值

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个pandas数据框中的数据，其中两列包含数字序列（start和stop）。我想确定哪些行的停止值与下一行的开始值重叠。然后我需要将它们连接成一行，这样在每行中只有一个由起始值和终止值表示的无重叠的数字序列。 我已将数据加载到熊猫数据框中： <blockquote> <pre><code> chr start stop geneID 0 chr13 32889584 32889814 BRCA2 1 chr13 32890536 32890737 BRCA2 2 chr13 32893194 32893307 BRCA2 3 chr13 32893282 32893400 BRCA2 4 chr13 32893363 32893466 BRCA2 5 chr13 32899127 32899242 BRCA2 </code></pre> </blockquote> 我想比较数据框中的行。检查每一行的停止值是否小于下一行的开始值，然后在具有正确的开始值和停止值的新数据框中创建一行。理想情况下，当有多个行重叠时，这将一次连接所有行，但是我怀疑我将不得不迭代我的输出，直到不再发生这种情况。 到目前为止，我的代码可以识别是否存在重叠（改编自<a href="https://stackoverflow.com/questions/19409335/comparing-pandas-dataframe-rows-dropping-rows-with-overlapping-dates">this post</a>）： <pre><code>import pandas as pd import numpy as np columns = ['chr','start','stop','geneID'] bed = pd.read_table('bedfile.txt',sep='\s',names=['chr','start','stop','geneID'],engine='python') def bed_prepare(inp_bed): inp_bed['next_start'] = inp_bed['start'].shift(periods=-1) inp_bed['distance_to_next'] = inp_bed['next_start'] - inp_bed['stop'] inp_bed['next_region_overlap'] = inp_bed['next_start'] < inp_bed['stop'] intermediate_bed = inp_bed return intermediate_bed </code></pre> 这给了我这样的输出： <pre><code>print bed_prepare(bed) </code></pre> <blockquote> <pre><code> chr start stop geneID next_start distance_to_next next_region_overlap 0 chr13 32889584 32889814 BRCA2 32890536 722 False 1 chr13 32890536 32890737 BRCA2 32893194 2457 False 2 chr13 32893194 32893307 BRCA2 32893282 -25 True 3 chr13 32893282 32893400 BRCA2 32893363 -37 True 4 chr13 32893363 32893466 BRCA2 32899127 5661 False </code></pre> </blockquote> 我想将这个中间数据帧放入以下函数中，以便获得所需的输出（如下所示）： <pre><code>new_bed = pd.DataFrame(data=np.zeros((0,len(columns))),columns=columns) def bed_collapse(intermediate_bed, new_bed,columns=columns): for row in bed.itertuples(): output = {} if row[7] == False: # If row doesn't overlap next row, insert into new dataframe unchanged. output_row = list(row[1:5]) if row[7] == True: # For overlapping rows take the chromosome and start coordinate output_row = list(row[1:3]) # Iterate to next row bed.itertuples().next() # <a href="https://www.cnpython.com/list/append" class="inner-link">append</a> stop coordinate and geneID output_row.append(row[3]) output_row.append(row[4]) #print output_row for k, v in zip(columns,output_row): otpt[k] = v #print output new_bed = new_bed.append(otpt,ignore_index=True) output_bed = new_bed return output_bed int_bed = bed_prepare(bed) print bed_collapse(int_bed,new_bed) </code></pre> 期望输出： <blockquote> <pre><code> chr start stop geneID 0 chr13 32889584 32889814 BRCA2 1 chr13 32890536 32890737 BRCA2 2 chr13 32893194 32893466 BRCA2 5 chr13 32899127 32899242 BRCA2 </code></pre> </blockquote> 但是，当我运行这个函数时，我得到的原始数据帧没有改变。我知道问题是当我试图调用bed.itertuples（）.next（）时，因为这显然不是调用的正确语法/位置。但我不知道该怎么纠正。 一些指针会很好。 某人：） <h2>更新</h2> 这是一个<a href="http://genome.ucsc.edu/FAQ/FAQformat.html#format1" rel="nofollow noreferrer">BED file</a>，其中每一行都指向一个带有起始和终止坐标的扩增子（基因组区域）。有些放大器重叠（起始坐标在前一行的终止坐标之前）。因此，我需要确定哪些行重叠，并连接正确的开始和结束，以便每一行代表和完全唯一的放大器，不重叠任何其他行。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

我修改了bed_prepare功能，以检查上一个和下一个基因组区域的重叠： <pre><code>def bed_prepare(inp_bed): ''' Takes pandas dataframe bed file and identifies which regions overlap ''' inp_bed['next_start'] = inp_bed['start'].shift(periods=-1) inp_bed['distance_to_next'] = inp_bed['next_start'] - inp_bed['stop'] inp_bed['next_region_overlap'] = inp_bed['next_start'] <= inp_bed['stop'] inp_bed['previous_stop'] = inp_bed['stop'].shift(periods=1) inp_bed['distance_from_previous'] = inp_bed['start'] - inp_bed['previous_stop'] inp_bed['previous_region_overlap'] = inp_bed['previous_stop'] >= inp_bed['start'] intermediate_bed = inp_bed return intermediate_bed </code></pre> 然后，我使用它们的布尔输出来存储用于写入步骤的变量： <pre><code># Create empty dataframe to fill with parsed values new_bed = pd.DataFrame(data=np.zeros((0,len(columns))),columns=columns,dtype=int) def bed_collapse(intermediate_bed, new_bed,columns=columns): ''' Takes a pandas dataframe bed file with overlap information and returns genomic regions without overlaps ''' output_row = [] for row in bed.itertuples(): output = {} if row[7] == False and row[10] == False: # If row doesn't overlap next row, insert into new dataframe unchanged. output_row = list(row[1:5]) elif row[7] == True and row[10] == False: # Only next region overlaps; take the chromosome and start coordinate output_row = list(row[1:3]) elif row[7] == True and row[10] == True: # Next and previous regions overlap. Skip row. pass elif row[7] == False and row[10] == True: # Only previous region overlaps; append stop coordinate and geneID to output_row variable output_row.append(row[3]) output_row.append(row[4]) if row[7] == False: #Zip columns and output_row values together to form a dict for appending for k, v in zip(columns,output_row): output[k] = v #print output new_bed = new_bed.append(output,ignore_index=True) output_bed = new_bed return output_bed </code></pre> 这已经解决了我的问题，并给出了问题中指定的所需输出。：）

比较pandas datafram中的行值

1 个回答

相关Python问题