java使PDF文件上的问号可读
我已经解析了一个带有URL的网页,它基本上是一个强制下载页面上PDF的页面。使用Jsoup中的ignorecontenttype()方法,我成功地显示了一大堆文本,但它包含黑色椭圆的问号,如下所示: 这是我的密码:
org.jsoup.nodes.Document document1 = null;
Connection.Response downloadPopUp = Jsoup.connect("https://www.capitaliq.com/ciqdotnet/login.aspx?redirect=%2fCIQDotNet%2fFilings%2fDocumentRedirector.axd%3fversionId%3d" + ID + "%26type%3dpdf%26forcedownload%3dtrue/login.php").userAgent("Chrome/44.0.2403.125")
.method(Connection.Method.GET)
.timeout(1000000)
.ignoreContentType(true)
.execute();
document1 = Jsoup.connect("https://www.capitaliq.com/ciqdotnet/login.aspx?redirect=%2fCIQDotNet%2fFilings%2fDocumentRedirector.axd%3fversionId%3d" + ID + "%26type%3dpdf%26forcedownload%3dtrue").userAgent("Chrome/44.0.2403.125")
.data("cookieexists", "false")
.data("myLogin$myUsername", "MyEmail")
.data("myLogin$myPassword", "MyPassword")
.data("myLogin$myLoginButton.x", "22")
.data("myLogin$myLoginButton.y", "8")
.data("__VIEWSTATE", viewState)
.data("__EVENTVALIDATION", eventValidation)
.data("myLogin$myEnableAutoLogin", "on")
.timeout(1000000)
.cookies(downloadPopUp.cookies())
<html>
<head>
</head>
<body>
%PDF-1.3%���� 10 obj<&燃气轮机;endobj 2 0 obj<&燃气轮机;endobj 3 0 obj<&燃气轮机;x流��ctem�6۶mWR���mgǶmWl�vŶ��M���Gݧ{����}O\�s�������J�ƶ�1['zf��D∗����; 9�������F�� �HL$0"ba!b���!��sw075s"�RQT�����/�?"D������t47�!��>��l�6N��cE%��� @dbn ��א�'��U!� ��� �̍��͍6�j"[�o�?"#[c�Bsd�vBБȀ��
d��p3��â#�8X�;:~����L L��s�dKdncd�L���T���}��9�~KX���M���휈��ʋ����NfN��v4�fٚ| K�9���啊,,���N�6�DN�o�-�!�����������7������pv4�1�/���VG�o�o���_q������Y��K��_R�郹�#�ʄ���ۦ�ӷmSs�D��Ė�������v��s8�+AT�� ��ƶ6V�D�FY[��Q�Ϫ�@��V�������������k�_#K�9�����C�9[Y�X7��/���������������"������#H:|w�����
b�N����Q��
有人知道如何使这个HTML/PDF组合可读吗
# 1 楼答案
将“Content-Type:application/pdf”放入html标题中(在发送任何数据之前)。 根本没有HTML标记