如何在html链接的网页中搜索和复制特定的字符串

2024-10-01 02:34:12 发布

您现在位置:Python中文网/ 问答频道 /正文

让我直接描述一下这个问题。如果您转到下面的链接,您将看到包含伊索所写故事的html链接列表。每一个故事都包含一个道德宣言。我只需要复制和存储包含“伊索寓言寓言的寓意”的字符串:我需要得到一个由空格或新行分隔的序列的结果。你知道吗

http://www.taleswithmorals.com/

我该怎么做?在这种情况下,哪个平台更容易使用?你能带我过去吗?你知道吗


Tags: 字符串comhttp列表链接htmlwww情况
2条回答

我使用python和mechanize(一个webbot)做了类似的事情。你知道吗

您也可以只使用urllib并解析响应,因为您知道要查找的确切字符串。你知道吗

我认为Python非常适合这个。你知道吗

http://docs.oracle.com/javase/6/docs/api/java/lang/String.html

Java具有相当高级的本机字符串处理。如果我在java中尝试这样做,我将使用indexOf(String)方法,它返回该字符串中特定子字符串的第一个索引。使用它,您可以查找表示链接的html href标记(查看页面的html源代码)。如果您不确定如何找到HTML文件本身,这里有How do you Programmatically Download a Webpage in Java一个非常好的解释,说明如何使用java提取HTML文件。 然后,您可以浏览每个页面的源代码,找到“伊索寓言的寓意:”子字符串,然后使用Java的PrintWriter保存紧跟其后的字符串,它可以将字符串写入文件:http://docs.oracle.com/javase/7/docs/api/java/io/PrintWriter.html

希望这有帮助!你知道吗

相关问题 更多 >