2024-09-28 21:30:15 发布
网友
作为开发工具的一部分,我只需要从URLhttp://www.flipkart.com中提取flipkart.com或flipkart。你知道吗
http://www.flipkart.com
flipkart.com
flipkart
我将代码编写为:
filename = dns.name.from_text(url).split(3)[1].to_text(omit_final_dot=True)
我得到输出flipkart.com\010。如何使用Python提取?你知道吗
flipkart.com\010
使用标准库模块^{}:
In [72]: from urlparse import urlparse In [73]: flipkart = urlparse("http://www.flipkart.com/lenovo-a6000/p/itme3763q9phgbpn?q=Lenovo A6000&as=on&as- show=on&otracker=start&as-pos=p_1_lenovo&pid=MOBE3762KWZZYZHZ") In [74]: flipkart.netloc Out[74]: 'www.flipkart.com' In [75]: flipkart Out[75]: ParseResult(scheme='http', netloc='www.flipkart.com', path='/lenovo-a6000/p/itme3763q9phgbpn', params='', query='q=Lenovo A6000&as=on&as- show=on&otracker=start&as-pos=p_1_lenovo&pid=MOBE3762KWZZYZHZ', fragment='')
这将返回一个由6个组件组成的元组;对应于URL的一般结构:scheme://netloc/path;parameters?query#fragment
scheme://netloc/path;parameters?query#fragment
tld包将帮助您:
from tld import get_tld from tld.utils import update_tld_names update_tld_names() print get_tld("http://www.flipkart.com")
输出
使用标准库模块^{} :
这将返回一个由6个组件组成的元组;对应于URL的一般结构:
scheme://netloc/path;parameters?query#fragment
tld包将帮助您:
输出
相关问题 更多 >
编程相关推荐