Board logo

标题: [问题求助] 【已解决】python 网页下载求助【200元】 [打印本页]

作者: 曾经的你    时间: 2023-12-25 15:35     标题: 【已解决】python 网页下载求助【200元】

本帖最后由 曾经的你 于 2023-12-26 21:38 编辑

需求:
A、将html页面,及各类资源离线到本机(包含常规的各类图像,css,js等;以及css和js中调中引用到的各类图像或者其他文件)
【主要目的为:下载到本地的文件,无需网络请求,就能查看该页面,并且该页面与网络访问无异。】
B、使用python,并且封装成exe,且能提供源代码(最后提供即可)。
C、金额可追加。



流程:
1、用户打开软件,提示用户输入需要离线的网页(仅离线这个页面),一行一个;让用户设置任务名(将其作为文件夹名,储存文件的路径)。
2、用户点击离线,开始自动离线下载。(需要一个大概的离线进度条,能查看下载进度)
3、网站会在win10计算机上运行,将离线结果储存在该软件同源路径下的【任务名】路径下。

其他:
  1. |   离线网页.exe
  2. |
  3. \---网页下载路径
  4.     |   index.html
  5.     |
  6.     \---ziyuan
  7.         +---css
  8.         |       text.css
  9.         |
  10.         +---js
  11.         |       text.js
  12.         |
  13.         +---other
  14.         |       text.pdf
  15.         |
  16.         \---pic
  17.                 text.png
复制代码
请注意:我将以第一个回复者跟进!!!!若有其他老哥可做,请留下回复(先不要开写,以防耽误时间),若第一个回复者无法完成需求,我将与你联系。
作者: buyiyang    时间: 2023-12-25 15:49

动态加载的资源也要保存吗?
浏览器ctrl+s,保存类型“网页,完成”,这样保存不可以吗?
作者: 曾经的你    时间: 2023-12-25 18:02

本帖最后由 曾经的你 于 2023-12-25 18:04 编辑

回复 2# buyiyang


    不止这么简单,但是不会出现专门挑选视频网站页这种复杂的去下载。

比如我下载
  1. a.com
  2. a.com/a
  3. a.com/a/c/dd
  4. a.com/df/fd.html
复制代码
只离线这几个网页及资源文件【就是我下载到本地后,将数据复制到一个没有网络的电脑上,打开还是和有网络是一样的】。
这些同域下的内容可能会调用相同的文件,但是如果出现跨域可能就不同了。
作者: buyiyang    时间: 2023-12-25 21:40

https://pan.baidu.com/s/1MPrNXYHGcxRn0Q1fF1p8ow?pwd=s9wi
作者: 曾经的你    时间: 2023-12-25 23:05

本帖最后由 曾经的你 于 2023-12-25 23:53 编辑

回复 4# buyiyang


我提供了几个测试网址:
  1. https://www.jxrczp.com/index/index.html
  2. https://www.jxrczp.com/jobs/jobs_list.html
  3. https://www.jxrczp.com/resume/resume_list.html
  4. https://www.jxrczp.com/jobfair/index/new_fair.html
  5. https://www.jxrczp.com/subject/index/index.html
  6. https://www.jxrczp.com/zt/zdcs/index.html
  7. https://www.jxrczp.com/career/index/index.html
  8. https://www.jxrczp.com/home/zknotice/examreg_list.html
复制代码
我发现问题如下:
1、网页离线后,仍有部分图像缺失。
2、储存的html文件名不能为站点名,考虑到可能存在多种情况,可使用别名  A_(拼接数字).html
3、页面中的导航栏需要建立关联(就是在这个页面上,点击另一个离线的链接能进去)
4、图像下载我看着存在相同图像、js、css等,存在下划线;请排查是否重复,可能需要执行替换。

我上传了一份,我执行的离线结果:
链接:https://pan.baidu.com/s/1S7r6PYXFH5HELniLi9WOvA
提取码:e012
--来自百度网盘超级会员V5的分享

__________________________________________________________________
这些链接的下载就全无法打开了
  1. https://www.58che.com/
  2. https://news.58che.com/
  3. https://guide.58che.com/
  4. https://reviews.58che.com/
  5. https://product.58che.com/
  6. https://product.58che.com/pic/
  7. https://car.58che.com/
  8. https://dealer.58che.com/chongqing/
  9. https://ershou.58che.com/58car/
  10. https://www.58che.com/jiangjia/c613.html
  11. https://yongpin.58che.com/
复制代码
链接:https://pan.baidu.com/s/130GpBmkSlT2jzRwgl0dCDg
提取码:myv2
--来自百度网盘超级会员V5的分享






再次修改后的软件,可在分享文件夹链接中添加支付宝收款码。

——————————————————————————
话说老哥上次弄的表很漂亮!(上次我最后是手工整理的,说起来都是泪)



最后修改时间:2023年12月25日23:30:34
作者: wanghan519    时间: 2023-12-26 05:53

可以试试firefox的插件scrapbook x,或者edge里叫网页剪贴簿那个,以及singlefile这个插件。。。
不行可以试试webcopy这个软件
作者: search_Sudoku    时间: 2023-12-26 14:20

有现存的软件做这个,

Teleport 的官网已经关闭 https://tenmax.com/, 但软件现在应付多数网页还是有效, 少数网页处理 js 会有一些问题, 下载后手动处理下, 可得到和源网站一样的页面效果

WinHTTrack 是开源软件 HTTrack 的 Windows 版, 最后版本号是 3.49-2 , 日期 20/May/2017

Wget2 到今年还在维护

还有 webcopy 也可以试试, 我用过的几个工具, 在处理 js 上都不是完美的, 但能达到 99% 的需要, 少数 js 处理得不好, 我会手工再处理一下就完美了
作者: buyiyang    时间: 2023-12-26 15:27

本帖最后由 buyiyang 于 2023-12-26 15:36 编辑

回复 5# 曾经的你


    已更新,解决了问题2、3、4,其他的无法解决。
动态网页尽可能完美实现“与网络访问无异”,可以尝试https://github.com/webrecorder/replayweb.page
作者: 曾经的你    时间: 2023-12-26 21:37

回复 8# buyiyang


    感谢老哥,先这样吧,请在分享链接中追加支付宝收款码,我进行支付
作者: 曾经的你    时间: 2023-12-26 21:37

回复 7# search_Sudoku


    感谢  感谢
作者: 曾经的你    时间: 2023-12-26 21:37

回复 6# wanghan519


    感谢  感谢
作者: buyiyang    时间: 2023-12-26 22:05

已在网盘更新
作者: 曾经的你    时间: 2023-12-26 22:41

回复 12# buyiyang


    已付




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2