Python genconminer包_程序模块 - PyPI

将pip包（美化组和请求）包装成更简洁的内容提取器

genconminer的Python项目详细描述

gencon矿工

一个通用的内容挖掘器，利用美丽的汤和要求处理提取。主要目标是总是想象在html表单中以父元素为目标，然后获取给定父元素的标记组。

fromgencon_minerimportGenconMiner

从url

url_miner=GenconMiner(url="http://google.com")txt=url_miner.extract('title')print(txt[0].text)# Google

从文本

text_miner=GenconMiner(text="<p class='myclass'>Hello</p>")txt=text_miner.extract('.myclass')print(txt[0].text)# Hello

将所有标记内容转换为字符串

请注意，标记中的内容将使用换行符分隔。

meaning_of_life="""    <p class='myclass'>        Hello        <span>darkness my old friend</span>    </p>    <b>And another one</b>"""bulk_miner=GenconMiner(text=meaning_of_life)print(bulk_miner.to_text())# Hello\ndarkness my old friend\nAnd another one

父对象到目标

关于遍历文档和提取目标的用例。

song_of_the_day="""    <table id="mother">        <tr>            <td class="target-1">Mamma Mia</td>            <td class="target-2">Here I go again</td>            <td class="target-3">My my</td>            <td class="target-4">How can I resist you</td>        </tr>    </table>"""walk_miner=GenconMiner(text=song_of_the_day)print(walk_miner.extract('#mother','.target-1')[0].text)# Mamma Miaprint(walk_miner.extract('#mother','.target-3')[0].text)# My myprint(walk_miner.extract('#mother','td'))# [#   <td class="target-1">Mamma Mia</td>,#   <td class="target-2">Here I go again</td>,#   <td class="target-3">My my</td>,#   <td class="target-4">How can I resist you</td># ]

作者

阿尔默·门多萨

欢迎加入QQ群-->： 979659372

genconminer 0.1.7

genconminer的Python项目详细描述

gencon矿工

从url

从文本

将所有标记内容转换为字符串

父对象到目标

作者

推荐PyPI第三方库

quick-queue

eshp

pyQpController

fourkites-utils

lily-thing

pgformatter

markdowninclude

limepkg-scrive

pyside2_mess_client

humanframework

galaxy-ng

cli2gui

disposelist

django-mp-services

mwcp

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

genconminer 0.1.7

genconminer的Python项目详细描述

gencon矿工

从url

从文本

将所有标记内容转换为字符串

父对象到目标

作者

推荐PyPI第三方库

quick-queue

eshp

pyQpController

fourkites-utils

lily-thing

pgformatter

markdowninclude

limepkg-scrive

pyside2_mess_client

humanframework

galaxy-ng

cli2gui

disposelist

django-mp-services

mwcp

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签