我对Python很陌生,但似乎相处得很好。我正在用Python编写一个web爬虫程序。在
我让crawler使用漂亮的Soup库工作,并希望找到最好的库来解析或将地址拆分为其组成部分。在
下面是要解析的文本示例。在
['\r\n\t \t\t \t25 Stockwood Road', <br/>, 'Asheville, NC 28803', <br/>, '\t (828) 505-1638\t \t']
我知道这是一个列表,我可以想出如何删除控制字符。在
因为我是新来的,所以我想要一些关于这个版本的库的建议-Python版本,OS和perquisites。在
我想为自己找出代码,但如果你愿意提供一个示例,我就不争辩了。:)
List Comprehension对于这样的东西来说是相当光滑的。另外看看String Strip.虽然它不会删除HTML空白元素,但是制表符、换行符和空格将被清除。在
您可以尝试python库usaddress(还有一个web interface用于尝试)
它以概率的方式解析地址,在处理混乱的地址时,它比基于regex的解析器更健壮。在
相关问题 更多 >
编程相关推荐