python 爬虫之获取bathome论坛的最新标题，最新回复，热门主题

ivor · 发表于 2016-2-23 15:23:15

拿本论坛作为演示目标网站，实属演示，如有问题，告知删除

本文章旨在交流python下BS4的强大，对于整个网页页面的理解，就是作为一个对象，比如<a href='...' /a>,<div.../div>.每个元素都可以精确定位。包括注释部分
代码少，且能精确获取网页内容，如果你还在用正则截取内容，你就OUT了

中文文档：http://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

Beautiful Soup会帮你节省数小时甚至数天的工作时间.

截止我发表Beautiful Soup 4.2.0已经更新了，而且支持python 3.5

#!/usr/bin/env python
# python 3.5.1
import bs4, urllib.request, os
def bathome(soup,idstring):
homegrids = soup.find(id = idstring)
a = homegrids.find_all('a')
#print(homegrids.find_all('a'))
count = 0
for i in a:
count += 1
if count % 2 == 0:
print('%-15s文章：%3s' % (str, i.string))
else:
str = '用户：%s' % i.string
url = 'http://www.bathome.net/'
web = urllib.request.urlopen(url)
soup = bs4.BeautifulSoup(web,'html.parser')
print("最新主题:")
bathome(soup, 'homegrids_c_1')
print("最新回复:")
bathome(soup, 'homegrids_c_2')
print("热门主题:")
bathome(soup, 'homegrids_c_3')

复制代码

bailong360 · 发表于 2016-2-23 22:31:46

更小更清晰~

codegay · 发表于 2016-2-24 16:47:26

白龙好像就是站长。。你放心好了。

bailong360 · 发表于 2016-2-28 16:11:31

回复 3# codegay
我一个小中尉啥时候成站长了
站长是Batcher

codegay · 发表于 2016-2-28 16:25:31

回复 4# bailong360

哦，那就是我弄错了。

CrLf · 发表于 2016-2-28 21:47:20

回复 5# codegay

啥？这么说你也不是站长？

codegay · 发表于 2016-2-28 21:51:52

回复 6# CrLf

哈哈。好我要当站长。

		自动登录	找回密码
密码			注册

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

[原创教程] python 爬虫之获取bathome论坛的最新标题，最新回复，热门主题

评分

浏览过的版块