回答此问题可获得 20 贡献值,回答如果被采纳可获得 50 分。
<p>我创建了如下2<code>RDD's</code>:</p>
<pre><code>rdd1 = sc.parallelize([(u'176', u'244', -0.03925566875021147), (u'28', u'244', 0.9175106515709205), (u'165', u'244', -0.3837580218245722), (u'181', u'244', 0.29145693160561503), (u'161', u'244', -0.503468718448459), (u'28', u'275', 1.1636548589189926), (u'165', u'275', -1.026158464467282), (u'181', u'275', 0.6685791983070568)])
rdd2 = sc.parallelize([(u'176', u'244'), (u'28', u'244'), (u'165', u'244'), (u'165', u'275'), (u'181', u'275'), (u'141', u'388'), (u'154', u'238')])
</code></pre>
<p>我的预期输出如下:</p>
<pre><code>[(u'176', u'244', -0.03925566875021147,1), (u'28', u'244', 0.9175106515709205,1), (u'165', u'244', -0.3837580218245722,1), (u'181', u'244', 0.29145693160561503,0), (u'161', u'244', -0.503468718448459,0), (u'28', u'275', 1.1636548589189926,0), (u'165', u'275', -1.026158464467282,1), (u'181', u'275', 0.6685791983070568,1)]
</code></pre>
<p>我想加入两个RDD添加加入状态,如1或0。你知道吗</p>
<p>在rdd1中,第一个元组是<code>(u'176', u'244', -0.03925566875021147)</code>,rdd2包含
<code>(u'176', u'244')</code>,rdd1、rdd2的前两个元素相同,然后我的预期输出是<code>(u'176', u'244', -0.03925566875021147,1)</code>。你知道吗</p>
<p>在Rdd1:<code>(u'181', u'275', 0.6685791983070568)</code>和Rdd2:<code>(u'181', u'275')</code>的情况下也是一样的,输出将是<code>(u'181', u'275', 0.6685791983070568,1)</code>。你知道吗</p>
<p>其他情况:
rdd1包含<code>(u'181', u'244', 0.29145693160561503)</code>,但rdd2不包含任何类似<code>(u'181', u'244')</code>的元组,因此预期的输出将是(<code>u'181', u'244', 0.29145693160561503,0)</code></p>
<p>我通过创建数据帧实现了这一点,但我不想使用数据帧连接。请帮助我们如何使用rdds来实现。你知道吗</p>