擅长:python、mysql、java
<p>试试Python的<a href="http://www.crummy.com/software/BeautifulSoup/" rel="noreferrer">Beautiful Soup</a>库。它有非常简单的方法从html文件中提取信息。在</p>
<p>试图从网页中提取数据需要人们用类似的方式写网页。。。但是,要传达一个看起来完全相同的页面,几乎有无数种方法,更不用说传达相同信息的所有组合了。在</p>
<p>你有没有试图提取某种特定类型的信息或其他最终目标?在</p>
<p>您可以尝试提取'div'和'p'标记中的任何内容,并比较页面中所有信息的相对大小。问题是人们可能会将信息分组到'div'和'p'的集合中(或者至少如果他们编写的是格式良好的html的话,他们会这样做!)。在</p>
<p>也许如果你建立了一个信息是如何相关的树(节点是“p”或“div”或其他任何节点,并且每个节点都包含相关的文本),你可以做一些分析,以确定最小的“p”或“div”,其中包含似乎是大部分信息的内容?在</p>
<p><strong>[EDIT]</strong>如果你能把它放到我建议的树结构中,你就可以用一个类似的点数系统来对付垃圾邮件刺客。定义一些试图对信息进行分类的规则。一些例子:</p>
<pre><code>+1 points for every 100 words
+1 points for every child element that has > 100 words
-1 points if the section name contains the word 'nav'
-2 points if the section name contains the word 'advert'
</code></pre>
<p>如果你有很多低得分的规则,当你找到更多相关的部分时,这些规则加起来,我认为这可以发展成一个相当强大和强大的技术。在</p>
<p><strong>[EDIT2]</strong>看看它的可读性,它似乎完全符合我刚才的建议!也许可以改进一下,试着更好地理解表格?在</p>