正在分析传入电子邮件标头:发件人地址不可见。Ascii/Unicode差异?

2024-09-26 22:50:47 发布

您现在位置:Python中文网/ 问答频道 /正文

这里有个奇怪的问题。在

我用Python分析收到的电子邮件99%都没有问题。最近出现了一个新问题,我的脚本无法识别从某些客户端(如iPhone上的内置电子邮件客户端)发送的传入电子邮件地址。我的调试脚本会将[“From”]键列为没有电子邮件地址的名称。在

我期望的是:

Ryan Martin <ryan@grouped.com>

我在日志中看到的内容(以及脚本尝试处理的内容):

^{pr2}$

但是,如果我把日志发到我的手机上,我会看到它被正确地列为

Ryan Martin <ryan@grouped.com>

所以我的第一个想法是,电子邮件地址是用我没有正确检测到的东西编码的。我知道信息在那里,因为我可以在手机上看到。Python脚本认为它是空的,当保存到日志中时,它是空的。在

我正在分析电子邮件并使用以下代码进行测试:

parser = HeaderParser()
msg = parser.parsestr(self.message_as_string)
print msg["From"]

我假设发送者的名字是ascii,括号内的实际电子邮件地址是用其他代码编码的,但我不确定。在

所以我的问题是:

How can I determine how the sender ("From") is encoding and how can I convert it into something I can use?

一如既往,谢谢。在

下面是标题的示例:

['Received: (qmail 16170 invoked by uid 110); 14 Jun 2012 10:49:02 -0700\n', 'Delivered-To: 1-etest@grouped.com\n', 'Received: (qmail 16167 invoked from network); 14 Jun 2012 10:49:02 -0700\n', 'Received: from mail-pz0-f46.google.com (209.85.210.46)\n', '  by grouped.com with (RC4-MD5 encrypted) SMTP; 14 Jun 2012 10:49:02 -0700\n', 'Received: by dady13 with SMTP id y13so2807279dad.5\n', '        for <etest@grouped.com>; Thu, 14 Jun 2012 10:49:01 -0700 (PDT)\n', 'DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;\n', '        d=gmail.com; s=20120113;\n', '        h=subject:references:from:content-type:x-mailer:in-reply-to\n', '         :message-id:date:to:content-transfer-encoding:mime-version;\n', '        bh=8ta00o/UsoBbe+qrLFMT/1rE1AHRZyQSK1Az6Ve7ffE=;\n', '        b=A4aSj5duxG4nWr1+Dn/X614kOMJWq+nYo6jo7ntsXNCZquoxPW/+1FBVXs96Qi73cR\n', '         jW5sIO33mCe1fsRQvDn+9Mp/i9kSNwzGX/+QwseBGy78bNf2ZDxDhbJZ7nKm9qlsvc2x\n', '         j9m/j8mZG7/j3ruz1b9O+j1KwCqzzl9Lgqj
 Lx0af7/MCEHVfE4rIpJsOBOzUJR8EA8MJ\n', '         5LvtdKxS3/8cqKX92plziGOWMiRjI+euBE3apHou7PUM9/BpHD4o2LH1OjSQKo6sVNmt\n', '         8CiB5vw3UvNDU+nMgjWcvirJsE8xzXDqkulbDiyI5Ba5QagfpwAKUb/OQpDlkY4gK+Bv\n', '         fTsg==\n', 'Received: by 10.68.225.6 with SMTP id rg6mr10617173pbc.100.1339696141712;\n', '        Thu, 14 Jun 2012 10:49:01 -0700 (PDT)\n', 'Return-Path: <some_sender@gmail.com>\n', 'Received: from [10.230.186.251] (125.sub-174-254-212.myvzw.com. [174.254.212.125])\n', '        by mx.google.com with ESMTPS id ol1sm10204626pbb.25.2012.06.14.10.48.53\n', '        (version=SSLv3 cipher=OTHER);\n', '        Thu, 14 Jun 2012 10:49:00 -0700 (PDT)\n', 'Subject: Re: Prempus Patterson replied to a post on etest\n', 'References: <20120614173822.12044.qmail@grouped.com>\n', 'From: Ryan Martin <some_sender@gmail.com>\n', 'Content-Type: multipart/alternative;\n', '\tboundary=Apple-Mail-17F5BF62-A532-49C2-BF72-499A1EEB510E\n', 'X-Mailer: iPhone Mail (10A5316k)\n', 'In-Reply-To: <
 20120614173822.12044.qmail@grouped.com>\n', 'Message-Id: <8321D4D0-E41A-4A1C-87DC-D7A2E462AC6A@gmail.com>\n', 'Date: Thu, 14 Jun 2012 10:48:48 -0700\n', 'To: Prempus Patterson <etest@grouped.com>\n', 'Content-Transfer-Encoding: 7bit\n', 'Mime-Version: 1.0 (1.0)\n', '\n', '\n', '--Apple-Mail-17F5BF62-A532-49C2-BF72-499A1EEB510E\n']

Tags: from脚本comidby电子邮件地址with
2条回答

找到一种方法将raw(离线)消息保存到一个文件中,并在十六进制编辑器中打开它。在

或者,更直接地,在wireshark中捕获传入消息并查看From:行中的字节。然后您将看到头中是否有一些奇怪的字符扰乱了解析器。在

不幸的是,我不确定到底是什么导致了我的问题,但我确实找到了一个目前有效的解决方案。振作起来,有点难看:

    # At this point, we know there is a < bracket in the 'From' value
    acceptable_chars = ["a", "b", "c", ... "6", "7", "8", "9", "0", "_", ".", "@"]
    from_str = msg["From"].lower().split("<")[-1]

    stripped_from = ''
    for letter in from_str:
        if letter in acceptable_chars:
            stripped_from += letter

    return stripped_from

我不知道为什么或如何脚本能够以这种方式理解编码信息,但不知道在计算字符串作为一个整体时。我想这是因为名字后面的第一个括号前隐藏了一个unicode字符。在

不管怎样,它是有效的,但我愿意重写或其他建议。在

相关问题 更多 >

    热门问题