python抓取美女图.py - Python - 批处理之家 BAT,CMD,批处理,PowerShell,VBS,DOS

返回列表发帖

yu2n

上尉

Rank: 5 Rank: 5

帖子: 715
积分: 1295
技术: 150
捐助: 0
注册时间: 2012-11-1

1楼 跳转到 »

发表于 2016-5-30 23:50 | 显示全部帖子

不会用Python，查了挺久，乱凑出来…

import re
from urllib import request
import os
from pprint import pprint
from time import sleep

url_imgs = 'http://img.xgyw.cc/'
url_root = 'http://www.xgyw.cc'
url_find = url_root + '/neiyiyouwu/neiyiyouwu2035.html'
path_save = '.'

try:
	txt=request.urlopen(url_find).read().decode("gbk")
	rs_page=re.findall(r'''(/(\w+)/(\2)\d+_?\d*.html)''',txt)
	print('\n### rs_page::\n', rs_page)
except:
	sleep(1)
	pass
	
nPage = 0
for x in rs_page:
	nPage += 1
	url_page = url_root + x[0]
	try:
		html=request.urlopen(url_page).read().decode("gbk")
		rs_img=re.findall('''src=\"(/uploadfile.*?\d+/\w+\.jpg)\"''',html)
		print('\n### Page:' + str(nPage) + '/' + str(len(rs_page)))
		print('\t### ' + url_page)
	except:
		sleep(1)
		
	nImgs = 0
	for h in rs_img:
	
		nImgs += 1
		
		fn = os.path.basename(h)
		dp = os.path.basename(url_find)
		#dp = url_find[url_find.rfind('/')+1:]
		dp = path_save + '/' + dp[:dp.rfind('.')]
		if (os.path.exists(dp) == False) : os.makedirs(dp)	#建立文件夹
		
		ff = (dp + '/' + fn).replace('/', '\\')
		url_img = url_imgs + h
		
		print('\n### Page:' + str(nPage) + '/' + str(len(rs_page)), '\tImgs:' + str(nImgs) + '/' + str(len(rs_img)))
		print('\t### ' + url_page)
		print('\t###   ', url_img)
		print('\t### ->', ff)
		
		try:
			if (os.path.exists(ff) == False):
				print('\t### Download ...')
				request.urlretrieve(url_img, ff)
				print('\t\t### [OK]')
			else:
				print('\t### [EXIST]')
			
		except:
			print('\t\t### Error:0x3')
			sleep(1)
		
print('\n### Done.')
复制代码

1 评分人数

codegay: 1技术 + 1

『千江有水千江月』千江有水，月映千江；万里无云，万里青天。 http://yu2n.qiniudn.com/

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]