Python地址解析器,如何拆分地址

2024-10-06 13:25:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我对Python很陌生,但似乎相处得很好。我正在用Python编写一个web爬虫程序。在

我让crawler使用漂亮的Soup库工作,并希望找到最好的库来解析或将地址拆分为其组成部分。在

下面是要解析的文本示例。在

['\r\n\t                     \t\t                     \t25 Stockwood Road', <br/>, 'Asheville, NC 28803', <br/>, '\t                        (828) 505-1638\t                  \t']

我知道这是一个列表,我可以想出如何删除控制字符。在

因为我是新来的,所以我想要一些关于这个版本的库的建议-Python版本,OS和perquisites。在

我想为自己找出代码,但如果你愿意提供一个示例,我就不争辩了。:)


Tags: 文本br程序版本web示例地址爬虫
2条回答

List Comprehension对于这样的东西来说是相当光滑的。另外看看String Strip.虽然它不会删除HTML空白元素,但是制表符、换行符和空格将被清除。在

out = [x.strip() for x in lst]

您可以尝试python库usaddress(还有一个web interface用于尝试)

它以概率的方式解析地址,在处理混乱的地址时,它比基于regex的解析器更健壮。在

相关问题 更多 >