<p>按照标准,链接隐藏在注释中(规范第12.5.6.5节)。从那里提取地址很容易:<a href="https://stackoverflow.com/questions/5973463/extracting-links-to-pages-in-another-pdf-from-pdf-using-python-or-other-method">Extracting links to pages in another PDF from PDF using Python or other method</a>
但链接通常不是像文档中的特殊对象那样显示的,而是像“<a href="http://blah-blah.com" rel="noreferrer">http://blah-blah.com</a>”这样的纯文本。如何不仅从注释中提取链接,而且从文本本身提取链接?我可以搜索整个文本并找到像“http://”这样的单词,但是有没有更好的解决方案?PDF编辑器也在突出显示文本链接,他们怎么知道这段文本是超链接?</p>