我有一个带有以下代码的网页:
<li>
<a href="/wiki/Thalassery" title="Thalassery">Thalassery</a> (<a class="mw-redirect" href="/wiki/Malayalam_language" title="Malayalam language">Malayalam</a>: <span lang="ml">തലശ്ശേരി</span>), from
<i>Tellicherry</i></li>
<li><a href="/wiki/Thanjavur" title="Thanjavur">Thanjavur</a> (<a href="/wiki/Tamil_language" title="Tamil language">Tamil</a>: <span lang="ta">தஞ்சாவூர்</span>), from British name <i>Tanjore</i></li>
<li><a href="/wiki/Thane" title="Thane">Thane</a> (<a href="/wiki/Marathi_language" title="Marathi language">Marathi</a>: <span lang="mr">ठाणे</span>), from British name <i>Tannah</i></li>
<li><a href="/wiki/Thoothukudi" title="Thoothukudi">Thoothukudi</a> (<a href="/wiki/Tamil_language" title="Tamil language">Tamil</a>: <span lang="ta">தூத்துக்குடி</span>), from <i>Tuticorin</i> and its short form <i>Tuty</i></li>
我需要解析输出,这样结果将提取单词,如:地中海贫血、Tellichery、Thanjavur、Tanjore、Thane、Tannah、Thoothukudi、Tuticorin
有人能帮忙吗
试试简化的scrapy解决方案,它的容错性
结果:
您可以使用}和
.findAll()
获取所有li
元素,并使用find()
{'i'
标记相关问题 更多 >
编程相关推荐