Python中文
首页
教程
问答
标签
搜索
登录
注册
用Java和Python从URL读取HTML
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我试图从一个特定的URL读取HTML并将其存储到一个字符串中进行解析。我找了一个<a href="https://stackoverflow.com/questions/6259339/how-to-read-a-text-file-directly-from-internet-using-java">previous post</a>来帮我。当我把读到的东西打印出来时,我得到的只是一些特殊的字符。你知道吗</p> <p>下面是我的Java代码(省略try/catch),它从<a href="https://html1-f.scribdassets.com/913q5pjrsw60h9i4/pages/106-6b1bd15200.jsonp" rel="nofollow noreferrer">URL</a>读取并打印:</p> <pre><code>String path = "https://html1-f.scribdassets.com/913q5pjrsw60h9i4/pages/106-6b1bd15200.jsonp"; URL url = new URL(path); InputStream in = url.openStream(); BufferedReader bw = new BufferedReader(new InputStreamReader(in, "UTF-8"); String line; while ((line = bw.readLine()) != null) { System.out.println(line); } </code></pre> <p>程序输出:</p> <pre><code>�ĘY106-6b1bd15200.jsonpmP�r� �Ƨ�!�%m�vD"��Ra*��w�%����ݳ�sβ��MK�d�9+%�m��l^��މ����:���� ���8B�Vce�.A*��x$FCo���a�b�<����Xy��m�c�>t����� �Z������Gx�o� �J���oKe�0�5�kGYpb�*l����+|�U���-�N3��jBp�R�z5Cۥjh��o�;�~)����~��)~ɮhy��<c,=;tHW���'�c�=~�w��� </code></pre> <p>预期产量:</p> <pre><code>window.page106_callback(["<div class=\"newpage\" id=\"page106\" style=\"width: 902px; height:1273px\">\n<div class=image_layer style=\"z-index: 1\">\n<div class=ie_fix>\n<img class=\"absimg\" style=\"left:18px;top:27px;width:860px;height:1077px;clip:rect(1px 859px 1076px 1px)\" orig=\"http://html.scribd.com/913q5pjrsw60h9i4/images/106-6b1bd15200.jpg\"/>\n</div>\n</div>\n</div>\n\n"]); </code></pre> <p>一开始,我认为这是权限的问题,或者是某种加密流的东西,但是我的朋友写了一个小Python脚本来做同样的事情,它成功了,从而排除了这种可能性。他写道:</p> <pre><code>import requests link = 'https://html1-f.scribdassets.com/913q5pjrsw60h9i4/pages/106- 6b1bd15200.jsonp' f = requests.get(link) text = (f.text) print(text) </code></pre> <p><strong>所以问题是,为什么Java版本不能正确读取和打印这个特定的URL?</strong>请注意,我尝试测试了来自不同网站的其他一些URL,这些URL运行良好。也许我应该学Python。你知道吗</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>响应是gzip编码的。你可以做:</p> <pre><code> InputStream in = new GZIPInputStream(con.getInputStream()); </code></pre>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何添加虚拟方法
4 回答
如何添加表示整数的擦边字符串?
10 回答
如何添加要在Bokeh中使用的新font.ttf文件?
3 回答
如何添加要显示的矩阵XY轴编号和XY轴
9 回答
如何添加计数?
3 回答
如何添加计数器函数?
6 回答
如何添加计数器列来计算数据帧中另一列中的特定值?
8 回答
如何添加计数器来跟踪while循环中的月份和年份?
8 回答
如何添加计数并删除countplot的顶部和右侧脊椎?
1 回答
如何添加计时器wx.应用程序更新窗口对象的主循环?
3 回答
如何添加评论到帖子?PostDetailVew,Django 2.1.5
5 回答
如何添加评论拉梅尔亚姆
10 回答
如何添加诸如矩阵Python/Pandas之类的数据帧?
3 回答
如何添加谷歌地点自动完成到Flask?
5 回答
如何添加超时、python discord bot
2 回答
如何添加超过1dp的检查
3 回答
如何添加距离方法
5 回答
如何添加跟随游戏的敌人精灵
7 回答
如何添加路径以便python可以找到程序?
9 回答
如何添加身份验证/安全性以使用happybase访问HBase?
1 回答