将pip包(美化组和请求)包装成更简洁的内容提取器
genconminer的Python项目详细描述
gencon矿工
一个通用的内容挖掘器,利用美丽的汤和要求处理提取。主要目标是总是想象在html表单中以父元素为目标,然后获取给定父元素的标记组。
fromgencon_minerimportGenconMiner
从url
url_miner=GenconMiner(url="http://google.com")txt=url_miner.extract('title')print(txt[0].text)# Google
从文本
text_miner=GenconMiner(text="<p class='myclass'>Hello</p>")txt=text_miner.extract('.myclass')print(txt[0].text)# Hello
将所有标记内容转换为字符串
请注意,标记中的内容将使用换行符分隔。
meaning_of_life=""" <p class='myclass'> Hello <span>darkness my old friend</span> </p> <b>And another one</b>"""bulk_miner=GenconMiner(text=meaning_of_life)print(bulk_miner.to_text())# Hello\ndarkness my old friend\nAnd another one
父对象到目标
关于遍历文档和提取目标的用例。
song_of_the_day=""" <table id="mother"> <tr> <td class="target-1">Mamma Mia</td> <td class="target-2">Here I go again</td> <td class="target-3">My my</td> <td class="target-4">How can I resist you</td> </tr> </table>"""walk_miner=GenconMiner(text=song_of_the_day)print(walk_miner.extract('#mother','.target-1')[0].text)# Mamma Miaprint(walk_miner.extract('#mother','.target-3')[0].text)# My myprint(walk_miner.extract('#mother','td'))# [# <td class="target-1">Mamma Mia</td>,# <td class="target-2">Here I go again</td>,# <td class="target-3">My my</td>,# <td class="target-4">How can I resist you</td># ]
作者
阿尔默·门多萨