我有一个单列数据库,其中有几个表单的url
'w.lejournal.fr/actualite/politique/sarkozy-terminator_1557749.html',
'w.lejournal.fr/palmares/palmares-immobilier/',
'w.lejournal.fr/actualite/societe/adeline-hazan-devient-la-nouvelle-controleuse-des-lieux-de-privation-de-liberte_1558176.html'
我想创建一个3列的数据库,第一列包含这些确切的url,第二列是页面的主要类别(Utique,或palmares),第三列包含页面的第二类(politique,或palmares immobilier,或societe)。在
我不能给我的代码,因为我不能发布网址。在
我想用Python熊猫。 第一:这是个好办法吗? 第二:如何完成连接?在
非常感谢。在
使用纯Python:
一。在
^{pr2}$你只需要读写数据库。在
如果所有URL都以
http://
开头,那么您将需要获得cols[3]
,cols[4]
不需要熊猫,regex可以非常有效地做到这一点:
这是它返回的结果:
^{pr2}$当然,您不需要在URL列表上执行此操作
相关问题 更多 >
编程相关推荐