返回列表发帖

codegay

少校

Rank: 6 Rank: 6

帖子: 1266
积分: 1775
技术: 162
捐助: 0
注册时间: 2015-12-12

1楼 跳转到 » 倒序看帖

打印

字体大小: tT

发表于 2016-5-5 08:13 | 只看该作者

[原创教程] python抓取美女图.py

本帖最后由 codegay 于 2016-5-29 15:24 编辑

python抓取美女图.py

由于是只用标准库，装了python3运行本代码就能下载到多多的美女图...
写出代码前面部分的时候，我意识到自己的函数设计错了，强忍继续把代码写完。
测试发现速度一般，200K左右的下载速度，也没有很好的错误处理。不过还是基本上能用。以后继续改进。

写出抓取东西的程序，比写其它程序要开心很多。^_^，大家也来试试写一个？

"""
python抓取性感尤物美女图.py
2016年5月4日 00:51:00 codegay

参考资料: Python3学习笔记（urllib模块的使用）
http://www.cnblogs.com/Lands-ljk/p/5447127.html

以下例子是python2的代码，并且用到lxml,requests 库
我用python3标准库和正则写一个下载全站美女图的程序

使用python来批量抓取网站图片
http://www.cnblogs.com/TeyGao/p/5225940.html
"""
print("程序运行中...")
import re
from urllib import request
import os
from pprint import pprint
from time import sleep

rooturl="http://www.xgyw.cc/"

def getclass():
    rec=re.compile('''align=center\>\<a href="(/\w+/)\"\>(.+)\</a\>''')
    try:
        txt=request.urlopen(rooturl).read().decode("gbk")
        fl=rec.findall(txt)
    except:
        print("错误")
        sleep(1)
        
    print("分类：")
    pprint(fl)
    return fl
fenlei=getclass()#下载所有分类下的图片
#fenlei=[getclass()[-1]]#只下载推女郎

def getpagelist():
    plist=[]
    for f,n in fenlei:
        rec=re.compile('''({}page_\d+?\.html)'''.format(f))
        try:
            txt=request.urlopen(rooturl+f).read().decode("gbk")
            t=sorted(set(rec.findall(txt)+[f]))
            plist+=t
        except:
            print("错误",e)
            sleep(1)
            
    #print("page_list:")
    #pprint(plist)
    return plist
pagelist=getpagelist()

def getalbumlist():
    albumlist=[]
    for r in pagelist:
        print(rooturl+r)
        try:
            txt=request.urlopen(rooturl+r).read().decode("gbk")
            for x in re.findall(r'''href=(/(\w+)/(\2)\d+.html)''',txt):
                albumlist+=[x[0]]
        except:
            print("getalbumlist错误")
            sleep(1)
    return albumlist
albumlist=getalbumlist()

def getfphoto():

    for r in albumlist:
        try:
            txt=request.urlopen(rooturl+r).read().decode("gbk")
            result=re.findall(r'''(/(\w+)/(\2)\d+_?\d*.html)''',txt)
            print(t)
        except:
            sleep(1)
            
            pass
        for x in result:
            try:
                html=request.urlopen(rooturl+x[0]).read().decode("gbk")
                jpgresult=re.findall('''src=\"(/uploadfile.*?\d+/\w+\.jpg)\"''',html)
                print(jpgresult)
            except:
                sleep(1)
            for h in jpgresult:
                try:
                    request.urlretrieve(rooturl+h,os.path.basename(h))
                except:
                    print(3)
                    sleep(1)

getfphoto()
复制代码

2 评分人数

yu2n: 1024技术 + 1
happy886rr: 1技术 + 1

去学去写去用才有进步。安装python3代码存为xx.py 双击运行或右键用IDLE打开按F5运行

happy886rr

等待验证会员

帖子: 961
积分: 2350
技术: 334
捐助: 0
注册时间: 2016-3-7

2楼

发表于 2016-5-5 11:40 | 只看该作者

回复 2# codegay
不错，这个py太实用了，代码很长啊。

TOP

codegay

少校

Rank: 6 Rank: 6

帖子: 1266
积分: 1775
技术: 162
捐助: 0
注册时间: 2015-12-12

3楼

发表于 2016-5-5 11:55 | 只看该作者

回复 3# happy886rr

技巧欠缺加上之前没有写过。

去学去写去用才有进步。安装python3代码存为xx.py 双击运行或右键用IDLE打开按F5运行

TOP

broly

版主

Rank: 7 Rank: 7 Rank: 7

帖子: 881
积分: 2103
技术: 95
捐助: 55
注册时间: 2010-5-23

4楼

发表于 2016-5-12 00:34 | 只看该作者

老司机

---学无止境---

TOP

codegay

少校

Rank: 6 Rank: 6

帖子: 1266
积分: 1775
技术: 162
捐助: 0
注册时间: 2015-12-12

5楼

发表于 2016-5-12 07:18 | 只看该作者

回复 5# broly

带带我

去学去写去用才有进步。安装python3代码存为xx.py 双击运行或右键用IDLE打开按F5运行

TOP

zz100001

六级士官

Rank: 4

帖子: 243
积分: 376
技术: 24
捐助: 50
注册时间: 2010-7-25

6楼

发表于 2016-5-12 10:53 | 只看该作者

虽然没玩过py，但还是觉得第21行代码写的太精彩了，看了一遍又一遍

TOP

bailong360

上尉

Rank: 5 Rank: 5

帖子: 578
积分: 1235
技术: 170
捐助: 60
注册时间: 2012-8-5

7楼

发表于 2016-5-29 15:00 | 只看该作者

第94行开头多了一个空格...

1 评分人数

codegay: 1技术 + 1

TOP

codegay

少校

Rank: 6 Rank: 6

帖子: 1266
积分: 1775
技术: 162
捐助: 0
注册时间: 2015-12-12

8楼

发表于 2016-5-29 15:25 | 只看该作者

改了。
丑陋的代码简直是不让能向人提起的黑历史。

去学去写去用才有进步。安装python3代码存为xx.py 双击运行或右键用IDLE打开按F5运行

TOP

yu2n

上尉

Rank: 5 Rank: 5

帖子: 715
积分: 1298
技术: 151
捐助: 0
注册时间: 2012-11-1

9楼

发表于 2016-5-30 23:50 | 只看该作者

不会用Python，查了挺久，乱凑出来…

import re
from urllib import request
import os
from pprint import pprint
from time import sleep

url_imgs = 'http://img.xgyw.cc/'
url_root = 'http://www.xgyw.cc'
url_find = url_root + '/neiyiyouwu/neiyiyouwu2035.html'
path_save = '.'

try:
	txt=request.urlopen(url_find).read().decode("gbk")
	rs_page=re.findall(r'''(/(\w+)/(\2)\d+_?\d*.html)''',txt)
	print('\n### rs_page::\n', rs_page)
except:
	sleep(1)
	pass
	
nPage = 0
for x in rs_page:
	nPage += 1
	url_page = url_root + x[0]
	try:
		html=request.urlopen(url_page).read().decode("gbk")
		rs_img=re.findall('''src=\"(/uploadfile.*?\d+/\w+\.jpg)\"''',html)
		print('\n### Page:' + str(nPage) + '/' + str(len(rs_page)))
		print('\t### ' + url_page)
	except:
		sleep(1)
		
	nImgs = 0
	for h in rs_img:
	
		nImgs += 1
		
		fn = os.path.basename(h)
		dp = os.path.basename(url_find)
		#dp = url_find[url_find.rfind('/')+1:]
		dp = path_save + '/' + dp[:dp.rfind('.')]
		if (os.path.exists(dp) == False) : os.makedirs(dp)	#建立文件夹
		
		ff = (dp + '/' + fn).replace('/', '\\')
		url_img = url_imgs + h
		
		print('\n### Page:' + str(nPage) + '/' + str(len(rs_page)), '\tImgs:' + str(nImgs) + '/' + str(len(rs_img)))
		print('\t### ' + url_page)
		print('\t###   ', url_img)
		print('\t### ->', ff)
		
		try:
			if (os.path.exists(ff) == False):
				print('\t### Download ...')
				request.urlretrieve(url_img, ff)
				print('\t\t### [OK]')
			else:
				print('\t### [EXIST]')
			
		except:
			print('\t\t### Error:0x3')
			sleep(1)
		
print('\n### Done.')
复制代码

1 评分人数

codegay: 1技术 + 1

『千江有水千江月』千江有水，月映千江；万里无云，万里青天。 http://yu2n.qiniudn.com/

TOP

codegay

少校

Rank: 6 Rank: 6

帖子: 1266
积分: 1775
技术: 162
捐助: 0
注册时间: 2015-12-12

10楼

发表于 2016-5-31 00:08 | 只看该作者

不错，进步很比我的都快。

去学去写去用才有进步。安装python3代码存为xx.py 双击运行或右键用IDLE打开按F5运行

TOP

返回列表

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[原创教程] python抓取美女图.py

[收藏此主题] [关注此主题的新回复]

[通过 QQ、MSN 分享给朋友]