<p><strong>在指定站点(sitename)中爬网,在站点上的所有html页面中查找各种字符串(a、b、c、d、e)以及特定的命名javascript文件(javascriptfile.js)</strong></p>
<p>在python中,您需要使用urllib。这将允许您轻松地与Http服务器通信。
然后你就可以搜索到正则表达式了。由于大多数服务器没有开放索引,您需要找到<code><a></code>标记,然后除去它们所指向的所有内容,然后获取一个新的目的地进行爬网。在</p>
<blockquote>
<p>Get The Href Attribute From Anchor Tags </p>
<p>Compare Domains Make Sure They're The Same Or A Relative Path (start with '/')</p>
<p>Repeat Process</p>
</blockquote>
<p>你可以查一下“美容小组”来帮你。它将为你完成阅读HTML的所有辛苦工作。<a href="http://www.crummy.com/software/BeautifulSoup/" rel="nofollow">Beautiful Soup</a></p>
<p>甚至可以帮助搜索你的字符串。在</p>
<p><strong>如果在单个页面上找不到javascript文件,请将页面的名称/url输出到文件中,然后继续爬网。</strong></p>
<p>您可以再次在这里使用beautifulsoup或RegEx来查看它们是否正确,包括在页面<code><script src='urltofile'></code>。然后把你正在抓取的当前页面写入一个文件。在</p>
<p><strong>根据每个字符串在页面上的出现次数创建总分(每个字符串“a”得1分,每个字符串“b”得2分),等等。</strong></p>
<p>这将完成您在页面上爬行的所有操作,使用Regex,您可以计算文本模式的特定实例发生的次数,所以您只需将这些添加到dict中并获得结果。
也许创建一个映射,这样<code>score = {'a': 10}; IF a FOUND: points += score['a']*occurences</code>。在</p>
<p>良好的Reg Exp引用:<a href="http://www.regular-expressions.info/" rel="nofollow">Regexp Info</a></p>