web爬虫与Django前端的接口

网友

1楼 · 编辑于 2024-10-03 09:11:41

如果您将django项目的应用程序目录插入到搜索路径，您可以编写使用Django ORM功能的标准Python脚本。我们有一个/admin/目录，其中包含执行各种任务的脚本，每个脚本的顶部是一个块，看起来像：

sys.path.insert(0,os.path.abspath('../my_django_project'))
sys.path.insert(0,os.path.abspath('../'))
sys.path.insert(0,os.path.abspath('../../'))
os.environ['DJANGO_SETTINGS_MODULE'] = 'settings'

然后，只需使用您选择的工具来爬网，并使用Django数据库API来存储数据。在

网友

2楼 · 编辑于 2024-10-03 09:11:41

您可以编写自己的爬虫程序，使用urllib2获取页面，使用Beautiful Soup解析HTML查找内容。在

下面是一个阅读页面的例子：

http://docs.python.org/library/urllib2.html#examples

下面是一个解析页面的示例：

http://www.crummy.com/software/BeautifulSoup/documentation.html#ParsingHTML

网友

3楼 · 编辑于 2024-10-03 09:11:41

如果您不想使用Django ORM编写crawler（或者已经有了工作的crawler），那么可以在crawler和Django powred前端之间共享数据库。在

你应该可以使用Django创建和编辑现有的Django模型。简单的方法如下：

http://docs.djangoproject.com/en/dev/howto/legacy-databases/

相关问题更多 >

编程相关推荐

热门问题

热门文章

web爬虫与Django前端的接口

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >