给定两个有3列的数据集，提取两个数据集中第三列值几乎相等的行问题的回答

给定两个有3列的数据集，提取两个数据集中第三列值几乎相等的行

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

给定这两个数据集： <code>data_set_1.txt</code>：<a href="https://pastebin.com/VQrsv8kU" rel="nofollow noreferrer">https://pastebin.com/VQrsv8kU</a> <code>data_set_2.txt</code>：<a href="https://pastebin.com/jFBa6kZq" rel="nofollow noreferrer">https://pastebin.com/jFBa6kZq</a> （无需注册即可下载） 我试图获得<code>x_1</code>、<code>y_1</code>、<code>x_2</code>和<code>y_2</code>的值，其中： <code>z_1 = z_2</code>（在阈值内）。你知道吗 有办法吗？你知道吗 1）两个数据集的长度不同 2）由于<code>z_1</code>和<code>z_2</code>永远不会完全相等，我尝试了以下方法： <pre><code>import numpy as np y_1, z_1, x_1 = np.loadtxt('./data_set_1.txt').T y_2, z_2, x_2 = np.loadtxt('./data_set_2.txt').T threshold = 0.000005 for i in z_1: for j in z_2: if abs(i - j) < threshold: print "i = ", ('%.13f' % i) print "j = ", ('%.13f' % j) </code></pre> 结果如下： <pre><code>i = -941.4594925722633 j = -941.4594947788443 i = -941.4456535625201 j = -941.4456565008313 i = -941.4291125503427 j = -941.4291149979141 i = -941.4326065311985 j = -941.4326072530644 i = -941.4098552554067 j = -941.4098593315858 i = -941.4138389914422 j = -941.4138343941854 i = -941.3961673813864 j = -941.3961719676133 i = -941.3984112845883 j = -941.3984098947884 i = -941.3838698217477 j = -941.3838733787329 i = -941.4001013025463 j = -941.4001055479807 </code></pre> 可以检查这是否有效，因为<code>i = -941.4594925722633</code>位于<code>./data_set_1.dat</code>的<code>z_1</code>列，而<code>j = -941.4594947788443</code>位于<code>./data_set_2.dat</code>。你知道吗 现在，每个打印的<code>i</code>结果都包含<code>x_1</code>和<code>y_1</code> 类似地，这些<code>j</code>结果中的每一个都包含<code>x_2</code>和<code>y_2</code> 我无法提取<code>x_1</code>、<code>y_1</code>、<code>x_2</code>和<code>y_2</code>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

下面是一个可行方法的概要。你知道吗 按<code>z</code>的值按递增顺序对每个数据集排序：即<code>z_1</code>和<code>z_2</code>。然后为每个数据集设置一个索引。扫描它们，当该数据集中的项太低而无法与另一个数据集中指向的项进行比较时，前进一个索引。当比较的项目足够接近时，对这对项目进行操作。当两个索引都到达其数据集的末尾时，就完成了。这类似于mergesort的实现方式。不同大小的数据集不会影响算法。你知道吗 这个算法看起来并不特别像python，它没有使用numpy的优点，但是它的优点是它可以工作。第二阶段具有时间复杂性<code>O(n)</code>，因此速度很快。排序阶段具有时间复杂性<code>O(n log(n))</code>，因此它是缓慢的部分。你知道吗 <hr/> 关于您添加的代码尝试：<code>i</code>和<code>j</code>对于值<code>z_1</code>和<code>z_2</code>来说是糟糕的变量名。如果<code>ndx1</code>和<code>ndx2</code>是两个数据集的索引，相等的“阈值”是<code>threshold</code>，则可以使用以下方法测试近似相等： <pre><code>if abs(z_1[ndx1] - z_2[ndx2]) < threshold: do_whatever </code></pre> <code>threshold</code>的值类似于<code>1e-5</code>。你知道吗 但这里的代码与您想要的更为密切相关。这假设数据集已经设置好并按它们的<code>z</code>值排序。你知道吗 <pre><code>threshold = 1e-5 length1, length2 = len(z_1), len(z_2) if length1 == 0 or length2 == 0: return ndx1 = ndx2 = 0 z1, z2 = z_1[0], z_2[0] while True: if z1 + threshold <= z2: # z_1 too low ndx1 += 1 if ndx1 == length1: return z1 = z_1[ndx1] elif z2 + threshold <= z1: # z_2 too low ndx2 += 1 if ndx2 == length2: return z2 = z_2[ndx2] else: # z_1 and z_2 almost equal do_whatever # adjust ndx1, ndx2 </code></pre> 这只是一副骷髅。最后如何调整<code>ndx1</code>和<code>ndx2</code>，取决于是否允许<code>z_1</code>的一个值几乎大于<code>z_2</code>的值或相反。你知道吗

给定两个有3列的数据集，提取两个数据集中第三列值几乎相等的行

1 个回答

相关Python问题