我使用tldextract(版本2.2.2)从url中提取子域/域/后缀
我最近注意到一个令我惊讶的结果:
>>> from tldextract import extract
>>> extract('http://althawrah.ye/archives/597366')
ExtractResult(subdomain='', domain='', suffix='althawrah.ye')
althawrah
不是作为域被提取,而是作为后缀的一部分被提取这是为什么?
仔细观察一下,我注意到Public Suffice List本身.ye
是少数使用前导星号的后缀之一,例如
// fj : https://en.wikipedia.org/wiki/.fj
*.fj
// ye : http://www.y.net.ye/services/domain_name.htm
*.ye
这里的含义是,这些后缀不允许域名直接在后缀下注册,而是必须注册为第三级名称。然而,这是而不是关于http://althawrah.ye/的情况;也就是说,^{
根据名单的历史和更新过程的描述,也门的条目似乎完全错误或过时。条目was added before 2007(当列表从CVS迁移到git时),而list guidelines表示:
website linked in the list(自2002年以来一直没有改变)提供了很少的细节,但确实提到了这种格式的urlwww.yourcompany.com.ye,这可能就是*.ye规则的来源IANA's root zone database指定TeleYemen作为当前的TLD管理器,但是没有提到他们站点上的域注册。维基百科上所谓的“二级域名”列表是added in 2008 by a Canadian user链接到一家名为phpcomet(存档here)的公司的网站,该公司声称出售所列二级域名中的域名。然而,谷歌搜索site:ye“显示了这些域之外的大量站点(例如press24.ye、ndc.ye),但没有给出其中许多站点(me.ye、co.ye、ltd.ye、plc.ye)的任何结果
我不知道怎样才能更新官方名单,但如果正确的条目是这样的,我也不会感到惊讶:
相关问题 更多 >
编程相关推荐