下载整个网站并运行wgancurl

2024-10-01 15:46:13 发布

您现在位置:Python中文网/ 问答频道 /正文

这可能是个奇怪的问题,但我会尽我所能。在

小结: 我有一个程序(用Bash和Julia编写),它将输出给定文本集(在文件中)的一致性输出,也就是说,你传递文件,它将输出如下(项目符号的缩进,我稍后会处理):

a. word1 (1001 times), occurred in sentence {2,5,7,11,12,51,122, 711,881,884,.. etc}
aa. word2 (98 times), occurred in sentence {55,77,79,80,81,110, 121,281,284,.. etc}
..
..
az. wordN (12001 times), occurred in sentence {<listofNumbers_comma_separated>}
aa. wordN1 (55 times), occurred in sentence {<listofNumbers_comma_separated>}
ab. wordN2 (4 times), occurred in sentence {<listofNumbers_comma_separated>}
..
..
az. wordNM (995 times), occurred in sentence {<listofNumbers_comma_separated>}
aba. wordNN (15 times), occurred in sentence {<listofNumbers_comma_separated>}
abb. wordNO (25 times), occurred in sentence {<listofNumbers_comma_separated>}
..
..
abz. wordNP (20 times), occurred in sentence {<listofNumbers_comma_separated>}
aca. wordNQ (220 times), occurred in sentence {<listofNumbers_comma_separated>}
acb. wordNQ (220 times), occurred in sentence {<listofNumbers_comma_separated>}
..
..
acz. wordNQ (2220 times), occurred in sentence {<listofNumbers_comma_separated>}
ada. wordNQ (55 times), occurred in sentence {<listofNumbers_comma_separated>}
..
..
and so on..

每个项目符号都有一个唯一的单词(它跟在regex后面,以确定check、in和check-in是三个不同的单词,还是可以将check-in视为两个单词(check和in)。用户可以调整配置文件中定义的regex,以获得项目符号所需的单词。这一切都奏效了。 类似地,一个句子有各种正则表达式,它决定一个句子是否以“.”或“;”或“\n”等结尾。同样,concordance piece工作正常。在

我的问题:

  1. 我想使用wget/curl从一个站点(整个数据)中获取所有文本(仅)而不进入无限循环(一个链接读取另一个链接并生成一个无限循环)。锯http://www.labnol.org/software/wget-command-examples/28750/http://xahlee.info/linux/wget_curl_tutorial.htmlhttp://linuxreviews.org/quicktips/wget/

我想类似wget-m-l7-t2-w2http://www.website.com之类的东西就可以了(如果需要,可以调整-l),但是有没有任何选项可以提高更快地检索内容的性能?在

  1. 如何查找WWW(万维网)中所有可用网站的列表?在我可以以顺序/并行方式运行wget的地方是否有它?在

最终目标(为了好玩,但实际上我真的很好奇)是在每个这样的网站文件上运行concordance,在这些文件中,站点允许您以某种方式读取数据/文本(结合起来,我的脚本是参数驱动的,以便在输入的每个文件或包含包含包含文本的文件列表的文件列表的文件上运行concordance)网状物。好吧,这可能会吓到别人,但我认为这不是不可能的。在

到目前为止,运行我的阅读SVN红皮书电子书/圣经/在线小说的程序运行得很好(2-10秒),但现在我想利用它在WWW网站上的内容。我随机检查了一些罕见的单词(附录),它们与concordance脚本/程序生成的输出相匹配。在

有没有人在最小范围内尝试过,比如只在公司的网站上运行concordance,或者在所有以.in(印度)结尾的网站上运行concordance


Tags: 文件in文本网站checkwget单词sentence

热门问题