将pip包(美化组和请求)包装成更简洁的内容提取器

genconminer的Python项目详细描述


gencon矿工

一个通用的内容挖掘器,利用美丽的汤和要求处理提取。主要目标是总是想象在html表单中以父元素为目标,然后获取给定父元素的标记组。

fromgencon_minerimportGenconMiner

从url

url_miner=GenconMiner(url="http://google.com")txt=url_miner.extract('title')print(txt[0].text)# Google

从文本

text_miner=GenconMiner(text="<p class='myclass'>Hello</p>")txt=text_miner.extract('.myclass')print(txt[0].text)# Hello

将所有标记内容转换为字符串

请注意,标记中的内容将使用换行符分隔。

meaning_of_life="""    <p class='myclass'>        Hello        <span>darkness my old friend</span>    </p>    <b>And another one</b>"""bulk_miner=GenconMiner(text=meaning_of_life)print(bulk_miner.to_text())# Hello\ndarkness my old friend\nAnd another one

父对象到目标

关于遍历文档和提取目标的用例。

song_of_the_day="""    <table id="mother">        <tr>            <td class="target-1">Mamma Mia</td>            <td class="target-2">Here I go again</td>            <td class="target-3">My my</td>            <td class="target-4">How can I resist you</td>        </tr>    </table>"""walk_miner=GenconMiner(text=song_of_the_day)print(walk_miner.extract('#mother','.target-1')[0].text)# Mamma Miaprint(walk_miner.extract('#mother','.target-3')[0].text)# My myprint(walk_miner.extract('#mother','td'))# [#   <td class="target-1">Mamma Mia</td>,#   <td class="target-2">Here I go again</td>,#   <td class="target-3">My my</td>,#   <td class="target-4">How can I resist you</td># ]

作者

阿尔默·门多萨

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java OpenGL着色器可在桌面上编译,但不能在Android上编译   java调度器。forward()生成HTTP 500   java从另一个类访问类   java EasyModBus Modbus客户端。ReadHoldingRegisters()返回意外的0   java 安卓bitmap低质量问题   带有signaturePropFile的java Axis2/rampart加密问题   Java,解析xml属性的原始未转换值。Jaxson或jaxb   爪哇太阳报。网inetaddr。ttl属性导致AccessControlException   java简单计算器无法通过println   线程安全java servlet   java从文本文件中获取特定信息   java打包具有字符串数组的哈希映射   java SQL合并以更新值或将值插入到同一个表中   java springrabitmq和线程本地何时是调用clean方法的好时机   windows java在我的64位计算机的任务管理器中显示为32位   java不确定使用什么值来初始化我的神经网络   java Maven插件下载文件