标题: [问题求助] 【已解决】python 网页下载求助【200元】 [打印本页]
作者: 曾经的你 时间: 2023-12-25 15:35 标题: 【已解决】python 网页下载求助【200元】
本帖最后由 曾经的你 于 2023-12-26 21:38 编辑
需求:
A、将html页面,及各类资源离线到本机(包含常规的各类图像,css,js等;以及css和js中调中引用到的各类图像或者其他文件)
【主要目的为:下载到本地的文件,无需网络请求,就能查看该页面,并且该页面与网络访问无异。】
B、使用python,并且封装成exe,且能提供源代码(最后提供即可)。
C、金额可追加。
流程:
1、用户打开软件,提示用户输入需要离线的网页(仅离线这个页面),一行一个;让用户设置任务名(将其作为文件夹名,储存文件的路径)。
2、用户点击离线,开始自动离线下载。(需要一个大概的离线进度条,能查看下载进度)
3、网站会在win10计算机上运行,将离线结果储存在该软件同源路径下的【任务名】路径下。
其他:- | 离线网页.exe
- |
- \---网页下载路径
- | index.html
- |
- \---ziyuan
- +---css
- | text.css
- |
- +---js
- | text.js
- |
- +---other
- | text.pdf
- |
- \---pic
- text.png
复制代码
请注意:我将以第一个回复者跟进!!!!若有其他老哥可做,请留下回复(先不要开写,以防耽误时间),若第一个回复者无法完成需求,我将与你联系。
作者: buyiyang 时间: 2023-12-25 15:49
动态加载的资源也要保存吗?
浏览器ctrl+s,保存类型“网页,完成”,这样保存不可以吗?
作者: 曾经的你 时间: 2023-12-25 18:02
本帖最后由 曾经的你 于 2023-12-25 18:04 编辑
回复 2# buyiyang
不止这么简单,但是不会出现专门挑选视频网站页这种复杂的去下载。
比如我下载- a.com
- a.com/a
- a.com/a/c/dd
- a.com/df/fd.html
复制代码
只离线这几个网页及资源文件【就是我下载到本地后,将数据复制到一个没有网络的电脑上,打开还是和有网络是一样的】。
这些同域下的内容可能会调用相同的文件,但是如果出现跨域可能就不同了。
作者: buyiyang 时间: 2023-12-25 21:40
https://pan.baidu.com/s/1MPrNXYHGcxRn0Q1fF1p8ow?pwd=s9wi
作者: 曾经的你 时间: 2023-12-25 23:05
本帖最后由 曾经的你 于 2023-12-25 23:53 编辑
回复 4# buyiyang
我提供了几个测试网址:- https://www.jxrczp.com/index/index.html
- https://www.jxrczp.com/jobs/jobs_list.html
- https://www.jxrczp.com/resume/resume_list.html
- https://www.jxrczp.com/jobfair/index/new_fair.html
- https://www.jxrczp.com/subject/index/index.html
- https://www.jxrczp.com/zt/zdcs/index.html
- https://www.jxrczp.com/career/index/index.html
- https://www.jxrczp.com/home/zknotice/examreg_list.html
复制代码
我发现问题如下:
1、网页离线后,仍有部分图像缺失。
2、储存的html文件名不能为站点名,考虑到可能存在多种情况,可使用别名 A_(拼接数字).html
3、页面中的导航栏需要建立关联(就是在这个页面上,点击另一个离线的链接能进去)
4、图像下载我看着存在相同图像、js、css等,存在下划线;请排查是否重复,可能需要执行替换。
我上传了一份,我执行的离线结果:
链接:https://pan.baidu.com/s/1S7r6PYXFH5HELniLi9WOvA
提取码:e012
--来自百度网盘超级会员V5的分享
__________________________________________________________________
这些链接的下载就全无法打开了- https://www.58che.com/
- https://news.58che.com/
- https://guide.58che.com/
- https://reviews.58che.com/
- https://product.58che.com/
- https://product.58che.com/pic/
- https://car.58che.com/
- https://dealer.58che.com/chongqing/
- https://ershou.58che.com/58car/
- https://www.58che.com/jiangjia/c613.html
- https://yongpin.58che.com/
复制代码
链接:https://pan.baidu.com/s/130GpBmkSlT2jzRwgl0dCDg
提取码:myv2
--来自百度网盘超级会员V5的分享
再次修改后的软件,可在分享文件夹链接中添加支付宝收款码。
——————————————————————————
话说老哥上次弄的表很漂亮!(上次我最后是手工整理的,说起来都是泪)
最后修改时间:2023年12月25日23:30:34
作者: wanghan519 时间: 2023-12-26 05:53
可以试试firefox的插件scrapbook x,或者edge里叫网页剪贴簿那个,以及singlefile这个插件。。。
不行可以试试webcopy这个软件
作者: search_Sudoku 时间: 2023-12-26 14:20
有现存的软件做这个,
Teleport 的官网已经关闭 https://tenmax.com/, 但软件现在应付多数网页还是有效, 少数网页处理 js 会有一些问题, 下载后手动处理下, 可得到和源网站一样的页面效果
WinHTTrack 是开源软件 HTTrack 的 Windows 版, 最后版本号是 3.49-2 , 日期 20/May/2017
Wget2 到今年还在维护
还有 webcopy 也可以试试, 我用过的几个工具, 在处理 js 上都不是完美的, 但能达到 99% 的需要, 少数 js 处理得不好, 我会手工再处理一下就完美了
作者: buyiyang 时间: 2023-12-26 15:27
本帖最后由 buyiyang 于 2023-12-26 15:36 编辑
回复 5# 曾经的你
已更新,解决了问题2、3、4,其他的无法解决。
动态网页尽可能完美实现“与网络访问无异”,可以尝试https://github.com/webrecorder/replayweb.page
作者: 曾经的你 时间: 2023-12-26 21:37
回复 8# buyiyang
感谢老哥,先这样吧,请在分享链接中追加支付宝收款码,我进行支付
作者: 曾经的你 时间: 2023-12-26 21:37
回复 7# search_Sudoku
感谢 感谢
作者: 曾经的你 时间: 2023-12-26 21:37
回复 6# wanghan519
感谢 感谢
作者: buyiyang 时间: 2023-12-26 22:05
已在网盘更新
作者: 曾经的你 时间: 2023-12-26 22:41
回复 12# buyiyang
已付
欢迎光临 批处理之家 (http://bbs.bathome.net/) |
Powered by Discuz! 7.2 |