作为开发工具的一部分,我只需要提取flipkart.com或flipkarthttp://www.flipkart.com

2024-09-28 21:30:15 发布

您现在位置:Python中文网/ 问答频道 /正文

作为开发工具的一部分,我只需要从URLhttp://www.flipkart.com中提取flipkart.comflipkart。你知道吗

我将代码编写为:

filename = dns.name.from_text(url).split(3)[1].to_text(omit_final_dot=True)

我得到输出flipkart.com\010。如何使用Python提取?你知道吗


Tags: to代码textnamefromcomurldns
2条回答

使用标准库模块^{}

In [72]: from urlparse import urlparse

In [73]: flipkart = urlparse("http://www.flipkart.com/lenovo-a6000/p/itme3763q9phgbpn?q=Lenovo A6000&as=on&as- show=on&otracker=start&as-pos=p_1_lenovo&pid=MOBE3762KWZZYZHZ")

In [74]: flipkart.netloc
Out[74]: 'www.flipkart.com'

In [75]: flipkart
Out[75]: ParseResult(scheme='http', netloc='www.flipkart.com', path='/lenovo-a6000/p/itme3763q9phgbpn', params='', query='q=Lenovo A6000&as=on&as- show=on&otracker=start&as-pos=p_1_lenovo&pid=MOBE3762KWZZYZHZ', fragment='')

这将返回一个由6个组件组成的元组;对应于URL的一般结构:scheme://netloc/path;parameters?query#fragment

tld包将帮助您:

from tld import get_tld
from tld.utils import update_tld_names
update_tld_names()

print get_tld("http://www.flipkart.com") 

输出

flipkart.com

相关问题 更多 >