【已解决】30元扒网站数据

lxh623 · 发表于 2018-9-19 16:17:40

本帖最后由 lxh623 于 2018-9-25 19:50 编辑

http://www.chinapoesy.com/XianDaiAuthorList_1.html
有十个栏目，别的栏目左上，点击“XX诗人”可以到类似上面的网页。只有全唐诗好像没有。
想得到标题，如里面的链接文字。http://www.chinapoesy.com/XianDa ... A-3F3847ED3F05.html
点开这个得到诗歌名字、作者名字，和正文。作者前面，最好加个“作者：”。
正文最好就是那部分的html代码。
四个字段一行。用制表符或者别的规则符号隔开。

想做一个MDX字典。
不太懂电脑。有个最简单的例子。下面的文本可以做成字典。（说实话，我自己希望，下载了再来自己编辑标题字段，按照人气数据排序。再打包。）

05-第五课
第五课 系 我系屋企 餐厅系一楼 车站系对面 厕所系左手边 说说看，看图来记忆： 我住系附近 公园 图书馆 百货公司 医院 超级市场 邮局 会话一 厕所系边度呀？ 系前面转左。 唔该。 会话二 系边度等你呀？ 系火车站出口。 好呀。 小词库 厕所、 边度、 前面、 转左、 火车站、 出口
</>
06-第六课
第六课 系边度呀？ 海关系边度呀？ 差馆系边度呀？ 医院系边度呀？ 课室系边度呀？ 说说看，看图来记忆： 系边度呀？ 邮局 车站 学校 银行 差馆 餐厅 会话一： 唔该地铁站系边度呀？ 系前面转右。 好呀，唔该。 会话二： 边度有快餐店呀？ 系车站隔离。 唔该晒。 小词库： 地铁站、 前面、 转右、 快餐店、 隔离、 唔该晒
</>

谢谢诸位！！！

flashercs · 发表于 2018-9-21 09:44:29

本帖最后由 flashercs 于 2018-9-21 09:51 编辑

var xhr = (function () {
var aXMLHttpVers = ['MSXML2.XMLHTTP.6.0', 'MSXML2.XMLHTTP.3.0', 'MSXML2.XMLHTTP', 'Microsoft.XMLHTTP'];
for (var i = 0; i < aXMLHttpVers.length; i++) {
try {
return new ActiveXObject(aXMLHttpVers[i]);
} catch (error) { }
}
showError('Can\'t build XMLHTTP automation object.');
WScript.Quit(1);
})();
var fso = new ActiveXObject('Scripting.FileSystemObject'),
shell = new ActiveXObject('WScript.Shell'),
curDir,
url = 'http://www.chinapoesy.com/',
aTSIndex = ['TangShiAllIndex2.html', 'TangShiAllIndex1.html', 'TangShiAllIndex.html'],
aTSUrl = [],
arr,
outFile = 'tangshi.txt',//唐诗文本
reTSIndex = /<a[^>]+href=(['"])(.+?)\1[^>]*>\s*第\d+卷\s*<\/a>/gi,
rePoem = /<li[^>]+class="LiTitle"[^>]*>\s*<a[^>]+class="Green"[^>]*>\s*(.+?)\s*<\/a>[\S\s]+?<\/li>\s*<li[^>]+class="LiContent[^"]*"[^>]*>\s*(.+?)<\/b>([\S\s]+?)<\/li>/gi,
rePB = /<[^>]*>|\r|\n/g,
reNextPage = /<a[^>]+href="\/([^"]+)"[^>]*>\s*<img\s+src="\/Images\/Pager\/nextn.gif"\s+border="0"[^>]*>\s*<\/a>/i,
aFields = ['作者', '标题', '正文'],
sSplit = '\t',
ts,
sHtml,
i,
l,
timer;
timer = new Date();
curDir = shell.CurrentDirectory = fso.GetParentFolderName(WScript.ScriptFullName);
try {
ts = fso.OpenTextFile(outFile, 2, true);
} catch (err) {
showError(err, 'Writing to ' + outFile);
WScript.Quit(2);
}
for (i = aTSIndex.length; i >= 0; i--) {
sHtml = getHtml(url + aTSIndex[i]);
while (arr = reTSIndex.exec(sHtml)) {
aTSUrl.push(arr[2]);
}
}
ts.WriteLine(aFields.join(sSplit));
for (i = 0, l = aTSUrl.length; i < l; i++) {
writePoem(url + aTSUrl[i]);
//next page
while (arr = reNextPage.exec(sHtml)) {
writePoem(url + arr[1]);
}
}
ts.Close();
WScript.Echo('Mission complete.\nTime elapsed: ' + (new Date() - timer) / 1000 + 's');
WScript.Quit();
function getHtml(URL) {
xhr.open('GET', URL, false);
xhr.send();
if (200 === xhr.status) {
return xhr.responseText;
}
showError('fetch URI "' + URL + '" failed.\nstatus: ' + xhr.status);
return '';
}
function writePoem(URL) {
sHtml = getHtml(URL);
while (arr = rePoem.exec(sHtml)) {
ts.WriteLine([arr[1], arr[2], arr[3].replace(rePB, '')].join(sSplit));
}
}
function showError(err, source) {
WScript.Echo('[object Error]' === Object.prototype.toString.call(err) ?
[
err.name,
'source: ' + (undefined === source ? '' : source),
'number: ' + (err.number >>> 0).toString(16),
'equipment: ' + (err.number >> 16 & 0x1FFF),
'code: ' + (err.number & 0xFFFF),
'Information: ' + err.message
].join('\n')
:
err);
}

复制代码

lxh623 · 发表于 2018-9-21 15:01:47

回复 2# flashercs
想获得更多的栏目，不只是唐诗。
另外，想得到带有人气数据那一个作为标题。
谢谢！！

flashercs · 发表于 2018-9-21 18:05:44

回复 3# lxh623

不明白楼主的意思，语言表达不清晰。
想要什么说不明白。
你不会发个截图吗？

523066680 · 发表于 2018-9-21 18:31:58

回复 4# flashercs

发截图是不可能发的，也就是只言片语才能解决问题这样子。

WHY · 发表于 2018-9-22 04:37:56

本帖最后由 WHY 于 2018-9-24 23:03 编辑

js 脚本，依照第4行的样子修改第5行
或者：把第4行前面的注释删掉，再删掉第5行，可以下载7个栏目

var fso = new ActiveXObject('Scripting.FileSystemObject');
var http = new ActiveXObject('Microsoft.XMLHTTP');
//var map = {'元曲':'YuanQu','诗经':'ShiJing','楚辞':'ChuCi','乐府诗集':'YueFu','其它古代':'Other','近现代诗':'XianDai','外国诗词':'ForeignPoesy'};
var map = {'诗经':'ShiJing','楚辞':'ChuCi', '近现代诗':'XianDai'};
var home = 'http://www.chinapoesy.com/';
for (var key in map) {
var n = 0;
var url = home + map[key] + 'Index' + (key == '外国诗词' ? '.aspx' : '.html');
var reg = /href='(.+?\.html)'\r?\n\s*target="_blank"/g;
while(url != '') {
var txt = getText(url);
if(!n++) {
var m1 = txt.match(/$按照人气排名$.*?href='(.*?\.html)'/); //按照人气排名有 "更多..." ？
txt = m1 ? getText(home + m1[1]) : txt.match(/$按照人气排名$[\s\S]+?<\/table>/)[0];
}
var m2 = txt.match(/href="\/([^"]*\.html)"[^<>]*><img src="\/Images\/Pager\/nextn\.gif"/); //有 "下一页" ？
url = m2 ? home + m2[1] : '';
txt = m2 ? txt.match(/>查询中请稍后…[\s\S]+?<\/table>/)[0] : txt;
while(arr=reg.exec(txt)) getPoesy(home + arr[1]);
}
}
//获取网页内容
function getText(url) {
http.open('GET', url, false);
http.send();
with(new ActiveXObject('ADODB.Stream')){
Mode = 3; Type = 1;
Open();
Write(http.responseBody);
Position = 0;
Type = 2;
Charset = 'UTF-8';
var s = ReadText(-1);
}
return s;
}
//获取诗词
function getPoesy(url) {
var reg = /href='(.+?\.html)'\s*target\s*=\s*"_blank"([\s\S]+?$\d+$)/g;
while(url != '') {
var txt = getText(url);
var m = txt.match(/href="\/([^"]*\.html)"[^<>]*><img src="\/Images\/Pager\/nextn\.gif"/); //有 "下一页" ？
url = m ? home + m[1] : '';
txt = txt.match(/>编辑它<\/a>[\s\S]+?>关于我们<\/a>/);
while(arr=reg.exec(txt)) {
var s = getText(home + arr[1]); //歌词内容
s = s.split('("#loading").css("display","none");')[1];
if(!s) return 0; //某些特定诗词网址打不开，遇到这种情况继续
s = s.split('<script type="text/javascript">')[0];
//中文及标点字符后面加
s = s.replace(/([\u4E00-\u9FFF。？！，、：”）》】… —])(?:\r?\n|<\/p>)/g, '$1 ');
//删除所有标签，保留换行标签，删除空格和html转义空格
s = s.replace(/<(?!\/?br)[^>]*>| |[ 　?]+/g, '');
s = s.replace(/<\/?br>|<br\/>/g, ' '); // 、、 替换为
s = s.replace(/\r?\n/g, '');
s = s.replace(/^(?: )+/, ''); //删除开头多余的标签
s = s.replace(/( )+$/, '$1'); //删除结尾多余的标签
s = s.replace(/·/g, '·').replace(/“/g, '“').replace(/”/g, '”');
s = s.replace(/—/g, '—').replace(/"/g, '"');
s = s.replace(/(?: )+/, '\t'); //第一次连续多个换行标签替换为 Tab
s = s.replace(/( )+/, '$1'); //第二次连续多个换行标签替换为一个
var s1 = arr[2].replace(/[ 　?\r\n]+/g, '').replace(/.*>/, ''); //标题+人气指数
writeToFile(s1 + '\t' + s);
}
}
}
//写入文本
function writeToFile(str) {
var objFile = fso.OpenTextFile(key + '.Log', 8, true);
objFile.WriteLine(str);
objFile.Close();
}
WSH.Echo('Done')

复制代码

lxh623 · 发表于 2018-9-22 14:53:51

本帖最后由 lxh623 于 2018-9-22 15:38 编辑

回复 6# WHY
各位大侠，想得到第二个链接的人气数字。
文本格式，用制表符分隔。
最后一个字段——正文的转行用html原有的，或者容易替换到“ ”的。
谢谢！！

WHY · 发表于 2018-9-22 15:30:47

回复 7# lxh623

以北岛的第一首诗爱情故事 (136569) 为例，你想得到的结果是什么？
如果不容易描述，把你希望的文本格式用附件上传。

lxh623 · 发表于 2018-9-22 15:42:44

本帖最后由 lxh623 于 2018-9-22 15:48 编辑

回复 8# WHY
爱情故事 (136569) 爱情故事北岛毕竟，只有一个世界 为我们准备了成熟的夏天 我们却按成年人的规则 继续着孩子的游戏 不在乎倒在路旁的人 也不在乎搁浅的船 然而，造福于恋人的阳光 也在劳动者的脊背上 铺下漆黑而疲倦的夜晚 即使在约会的小路上 也会有仇人的目光相遇时 降落的冰霜 这不再是一个简单的故事 在这个故事了 有你和我，还有很多人 

网页不是 ，可以用网页的 等等。

另外一个朋友的代码，没有第一个字段，也没有转行代码。

谢谢！！！

WHY · 发表于 2018-9-22 18:07:57

本帖最后由 WHY 于 2018-9-22 18:12 编辑

回复 9# lxh623

已修改，
如果需要合并成一个大的文本，替换第 76 行的 key 为指定的文件名，如：把 key 替换成 'E:/a.txt'

lxh623 · 发表于 2018-9-22 20:36:26

回复 10# WHY
http://www.chinapoesy.com/TangShi1166.html
这个结果没有转行代码。唐诗多半吧，宋词好得多。
下载了唐诗宋词，就停了。
再麻烦一下。

另外，可以不下载宋词那个栏目。希望是全宋词，http://www.chinapoesy.com/SongCiAllIndex_1.html
追加二十元，全唐诗。既然，做得到。这个要麻烦一些。需要单独一个脚本。
打开http://www.chinapoesy.com/TangShiAllIndex.html
每一卷打开，得到诗人的链接，写入文本。900卷。最后删除重复的，大约二千多诗人。然后每一个链接去获取。而且，每一个诗人可能多页，李白有18页。
做得到的话，也就不用下载唐诗。
祝你开心！

WHY · 发表于 2018-9-23 02:44:12

回复 11# lxh623

唐诗网址中 html 换行标签不统一，把 6# 第63行改成这样子：

s = s.replace(/<(?!\/?br)[^>]*>| |[ 　?]+/g, '').replace(/<\/?br>|<br\/>/g, ' ');

复制代码

宋词网址中又用段落标签代替换行标签，总之就是混乱。

6# 已经提示你，参考4行修改5行。

WHY · 发表于 2018-9-23 02:54:07

本帖最后由 WHY 于 2018-9-24 23:05 编辑

全唐诗.JS

var fso = new ActiveXObject('Scripting.FileSystemObject');
var http = new ActiveXObject('Microsoft.XMLHTTP');
var home = 'http://www.chinapoesy.com/';
for (var i=0; i<=2; i++) {
var map = [], map_ = [];
var url = home + 'TangshiAllindex' + i + '.html';
var txt = getText(url);
txt = txt.split('class="Normal">下卷</a>')[1];
var reg = /href='(.+?\.html)'\r?\n\s*target="_blank"/g;
while(arr = reg.exec(txt)) {
url = home + arr[1];
while(url != '') {
var s = getText(url); //歌词页面
var m = s.match(/href="\/([^"]*\.html)"[^<>]*><img src="\/Images\/Pager\/nextn\.gif"/);//有 "下一页" ？
url = m ? home + m[1] : '';
s = s.split('')[1];
if(!s) continue;
var a = s.split(/<\/li>\r?\n\s*<\/ul>\r?\n\s*\<\/div>/);
for(var j=0; j<a.length-1; j++) {
var ti = a[j].match(/(.*?)<\/b>/)[1]; //诗词标题
var au = a[j].match(/class="Green">\r?\n\s*([^\r\n]*)/)[1]; //作者名
var li = a[j].match(/class="LiTitle"><a href='(.*?\.html)'/)[1]; //标题连接
if(!map_[au]) {
getPopularity(home + li);
map_[au] = 1;
}
writeToFile(getPoesy(a[j]));
}
}
}
}
//获取网页内容
function getText(url) {
http.open('GET', url, false);
http.send();
with(new ActiveXObject('ADODB.Stream')){
Mode = 3; Type = 1;
Open();
Write(http.responseBody);
Position = 0;
Type = 2;
Charset = 'UTF-8';
var s = ReadText(-1);
}
return s;
}
//获取人气指数
function getPopularity(url) {
while(url != '') {
var s= getText(url);
var m = s.match(/href="\/([^"]*\.html)"[^<>]*><img src="\/Images\/Pager\/nextn\.gif"/); //有 "下一页" ？
url = m ? home + m[1] : '';
s = s.split('')[1];
if(!s) return 0;
var reg = /title="([^"]*)\)">[\s\S]+?($\d*$)/g;
while(arr = reg.exec(s)) map[au + arr[1]] = arr[2];
}
}
//获取诗词
function getPoesy(str) {
var s = str.replace(/>评论<\/a>/, '>');
s = s.replace(/([\u4E00-\u9FFF。？！，、：”）》】… —])(?:\r?\n|<\/p>)/g, '$1 ');
s = s.replace(/<(?!\/?br)[^>]*>| |[ 　?]+/g, '');
s = s.replace(/<\/?br>|<br\/>/g, ' ');
s = s.replace(/\r?\n/g, '');
s = s.replace(/^(?: )+/, '');
s = s.replace(/( )+$/, '$1');
s = s.replace(/(?: )+/, '\t');
s = s.replace(/( )+/, '$1');
return ti + map[au+ti] + '\t' + s;
}
//写入文本
function writeToFile(str) {
var objFile = fso.OpenTextFile('全唐诗.Log', 8, true);
objFile.WriteLine(str);
objFile.Close();
}
WSH.Echo('Done')

复制代码

WHY · 发表于 2018-9-23 03:02:52

本帖最后由 WHY 于 2018-9-24 23:07 编辑

全宋词.js

var fso = new ActiveXObject('Scripting.FileSystemObject');
var http = new ActiveXObject('Microsoft.XMLHTTP');
var home = 'http://www.chinapoesy.com/';
var url = home + 'SongCiAllIndex_1.html';
var reg = /href='(.+?\.html)'\r?\n\s*target="_blank"/g;
while(url != '') {
var txt = getText(url);
var m = txt.match(/href="\/([^"]*\.html)"[^<>]*><img src="\/Images\/Pager\/nextn\.gif"/); //有 "下一页" ？
url = m ? home + m[1] : '';
txt = txt.match(/>查询中请稍后…[\s\S]+?<\/table>/)[0];
while(arr = reg.exec(txt)) getPoesy(home + arr[1]);
}
//获取网页内容
function getText(url) {
http.open('GET', url, false);
http.send();
with(new ActiveXObject('ADODB.Stream')){
Mode = 3; Type = 1;
Open();
Write(http.responseBody);
Position = 0;
Type = 2;
Charset = 'UTF-8';
var s = ReadText(-1);
}
return s;
}
//获取诗词
function getPoesy(url) {
var reg = /href='(.+?\.html)'\s*target\s*=\s*"_blank"([\s\S]+?)($\d+$)/g;
while(url != '') {
var txt = getText(url);
var m = txt.match(/href="\/([^"]*\.html)"[^<>]*><img src="\/Images\/Pager\/nextn\.gif"/); //有 "下一页" ？
url = m ? home + m[1] : '';
txt = txt.match(/>编辑它<\/a>[\s\S]+?>关于我们<\/a>/);
while(arr = reg.exec(txt)) {
var s = getText(home + arr[1]); //歌词内容
s = s.split('("#loading").css("display","none");')[1];
if(!s) return 0;
s = s.split('<script type="text/javascript">')[0];
s = s.replace(/([\u4E00-\u9FFF。？！，、：”）》】… —])(?:\r?\n|<\/p>)/g, '$1 ');
s = s.replace(/<(?!\/?br)[^>]*>| |[ 　?]+/g, '');
s = s.replace(/<\/?br>|<br\/>/g, ' ');
s = s.replace(/\r?\n/g, '');
s = s.replace(/^(?: )+/, '');
s = s.replace(/( )+$/, '$1');
s = s.replace(/(?: )+/, '\t');
s = s.replace(/( )+/, '$1');
var s1 = arr[2].match(/title\s*=\s*"([^"]*?)\)"/)[1]; //标题
var s2 = arr[3]; //人气指数
writeToFile(s1 + s2 + '\t' + s);
}
}
}
//写入文本
function writeToFile(str) {
var objFile = fso.OpenTextFile('全宋词.Log', 8, true);
objFile.WriteLine(str);
objFile.Close();
}
WSH.Echo('Done')

复制代码

lxh623 · 发表于 2018-9-23 09:46:38

本帖最后由 lxh623 于 2018-9-23 09:50 编辑

回复 14# WHY
总是一些转行，一些没有，因为网页有不同格式。
比如，http://www.chinapoesy.com/Foreig ... 2-F65E55B14201.html
可能网页没有任何转行代码。

请问，可以获得前三个字段为一行。（有两个制表符，可能用不着加A）
然后，诗歌正文用网页看得见的样子。会不会更好？？
例如：
爱情故事 (136569) 爱情故事北岛
毕竟，只有一个世界
为我们准备了成熟的夏天
我们却按成年人的规则
继续着孩子的游戏
不在乎倒在路旁的人
也不在乎搁浅的船

然而，造福于恋人的阳光
也在劳动者的脊背上
……………

麻烦了！

		自动登录	找回密码
密码			注册

[新手上路]批处理新手入门导读	[视频教程]批处理基础视频教程	[视频教程]VBS基础视频教程	[批处理精品]批处理版照片整理器
[批处理精品]纯批处理备份&还原驱动	[批处理精品]CMD命令50条不能说的秘密	[在线下载]第三方命令行工具	[在线帮助]VBScript / JScript 在线参考

【已解决】30元扒网站数据

评分

评分

评分

评分