将参数传递给MRjob中的reducer

def reducer(self, groupId, meterList): """ Print bucket. """ sys.stderr.write("Working on group = " + str(groupId) + "\n") #print "Opening connection..." conn = open_connection(hostname) #print "Getting table..." table = get_table(conn, tableName) compositeDf = DataFrame() for meterId in meterList: sys.stderr.write("Querying: " + str(meterId) + "\n") df = extract_meter_data(table, meterId, startDate, endDate)

if args.hadoop: mrdq_job = MRDataQuality(args=['-r', 'hadoop', '--conf-path', 'mrjob.conf', '--jobconf', 'mapred.reduce.tasks=42', meterFile]) else: mrdq_job = MRDataQuality(args=[meterFile]) with mrdq_job.make_runner() as runner: runner.run()

2条回答

网友

1楼 · 编辑于 2024-10-01 11:37:08

把参数传递给job config，然后用get_jobconf_值读取它们怎么样？在

像这样：

from mrjob.compat import get_jobconf_value

class MRDataQuality(MRJob):

  def reducer(self, groupId, meterList):
    ...
    startDate = get_jobconf_value("my.job.settings.startdate")
    endDate = get_jobconf_value("my.job.settings.enddate")

    for meterId in meterList:
      sys.stderr.write("Querying: " + str(meterId) + "\n")
      df = extract_meter_data(table, meterId, startDate, endDate)

然后像上面那样在代码中设置参数

^{pr2}$

网友

2楼 · 编辑于 2024-10-01 11:37:08

把参数传递给job config，然后用reducer_init中的get_jobconf_value读取它们怎么样？这样，您只需读取一次参数。在

像这样：

from mrjob.compat import get_jobconf_value

class MRDataQuality(MRJob):

  def reducer_init(self):
    ...
    self.startDate = get_jobconf_value("my.job.settings.startdate")
    self.endDate = get_jobconf_value("my.job.settings.enddate")

  def reducer(self, groupId, meterList):
    for meterId in meterList:
      sys.stderr.write("Querying: " + str(meterId) + "\n")
      df = extract_meter_data(table, meterId, self.startDate, self.endDate)

然后像上面那样在代码中设置参数

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章