Board logo

标题: [挑战]批处理采集电视节目表 [打印本页]

作者: inittab    时间: 2010-3-1 22:02     标题: [挑战]批处理采集电视节目表

本人很喜欢用批处理收集网络上小说,自动采集电视节目表等等。但以下这个网站难度比较大。请各位大大想想办法。

采集地址:
http://www.tvsou.com/union/uni2.asp?tvid=1&channelid=3&programDT=2010-3-1

编写批处理(可以用第三方)自动生成如下格式电视节目表:
  1. 10/03/01
  2. 00:57 晚间精编节目
  3. 01:05 晚间精编节目
  4. 03:05 晚间精编节目
  5. 05:03 早间精编节目
  6. 06:00 早间精编节目
  7. 07:00  第一时间:资讯唤醒每一天
  8. 09:00 交易时间:权威解读财经资讯
  9. 11:10  消费主张:享受优质产品和服务
  10. 11:50  环球财经连线
  11. 12:30  商道:时尚快跑
  12. 13:00  经济与法:一切皆有规则
  13. 13:30 交易时间:权威解读财经资讯
  14. 15:28  经济半小时:观经济大势
  15. 16:03 魅力世博18
  16. 16:08 理财在线:帮您打理口袋里的钱
  17. 16:33  寻宝:寻民间国宝200944
  18. 17:33 2010财经小辞典35
  19. 17:43 交易时间
  20. 18:15  环球财经连线
  21. 18:48 魅力世博19
  22. 18:53 理财在线:梭子蟹经纪人
  23. 19:18  消费主张:享受优质产品和服务
  24. 20:00  经济与法:一切皆有规则
  25. 20:30  经济信息联播:把握经济脉搏
  26. 21:20  经济半小时:观经济大势
  27. 21:55  今日观察
  28. 22:30 市场分析室
  29. 23:17  艺术品市场热点对话5
  30. 23:47  台北故宫13
  31. 10/03/02
  32. 00:07  今日观察
  33. 00:42  商道:海之链
  34. 01:20 晚间精编节目
  35. 03:20 晚间精编节目
  36. 05:03 早间精编节目
  37. 06:00 早间精编节目
  38. 07:00  第一时间:资讯唤醒每一天
  39. 09:00 交易时间:权威解读财经资讯
  40. 11:10  消费主张:享受优质产品和服务
  41. 11:50  环球财经连线
  42. 12:30  商道:极地求生
  43. 13:00  经济与法:一切皆有规则
  44. 13:30 交易时间:权威解读财经资讯
  45. 15:28  经济半小时:观经济大势
  46. 16:03 魅力世博14
  47. 16:08 理财在线:年入百万靠蝗虫
  48. 16:33  快乐主妇
  49. 17:33 2010财经小辞典31
  50. 17:43 交易时间
  51. 18:15  环球财经连线
  52. 18:48 魅力世博15
  53. 18:53 理财在线:当鸟养的鸡
  54. 19:18  消费主张:享受优质产品和服务
  55. 20:00  经济与法:一切皆有规则
  56. 20:30  经济信息联播:把握经济脉搏
  57. 21:20  经济半小时:观经济大势
  58. 21:55  今日观察
  59. 22:30 市场分析室
  60. 23:17  台北故宫3
  61. 23:42  台北故宫4
  62. 10/03/03
  63. 00:07  今日观察
  64. 00:42  商道:极地求生
  65. 01:20 晚间精编节目
  66. 03:20 晚间精编节目
  67. 05:03 早间精编节目
  68. 06:00 早间精编节目
  69. 07:00  第一时间:资讯唤醒每一天
  70. 09:00 交易时间:权威解读财经资讯
  71. 11:10  消费主张:享受优质产品和服务
  72. 11:50  环球财经连线
  73. 12:30  商道:说商业传奇解财富之道
  74. 13:00  经济与法:一切皆有规则
  75. 13:30 交易时间:权威解读财经资讯
  76. 15:28  经济半小时:观经济大势
  77. 16:03 魅力世博15
  78. 16:08 理财在线:当鸟养的鸡
  79. 16:33  购物街:快乐购物之旅
  80. 17:33 2010财经小辞典32
  81. 17:43 交易时间
  82. 18:15  环球财经连线
  83. 18:48 魅力世博16
  84. 18:53 理财在线:蝎子王的致富秘笈
  85. 19:18  消费主张:享受优质产品和服务
  86. 20:00  经济与法:一切皆有规则
  87. 20:30  经济信息联播:把握经济脉搏
  88. 21:20  经济半小时:观经济大势
  89. 21:55  今日观察
  90. 22:30 市场分析室
  91. 23:17  台北故宫5
  92. 23:42  台北故宫6
复制代码
难点是:
1.过滤不需要的内容。只取时间和节目标题。

2.需要解决这个网站图片文字问题。(比如第一行“00:57 晚间精编节目”中的“晚间”实际上是一张gif格式图片,还有些数字也是,随机图片,采集时需把它们转为文字, 不然采集到的内容会残缺不全,失去了意义)

3.最好能采集到电视剧的简介(简介在打开的链接中,需要对地址进行处理才能正确取得节目介绍,另外它也有图片文字的问题)

[ 本帖最后由 inittab 于 2010-3-1 22:17 编辑 ]
作者: youxi01    时间: 2010-3-3 17:31

呵呵,用vbs解决似乎更快更好...
作者: inittab    时间: 2010-3-3 18:36

借助第三方工具强大的功能。bat功能可谓强大。
如果不考虑图片字符的话。只要一下命令就可以了达到目的。
  1. curl -s "http://www.tvsou.com/union/uni2.asp?tvid=1&channelid=3&programDT=2010-3-1" | htox32c /ip 2>nul | sed -n "1d;/:/p" | sed "/ex/,$d"
复制代码
需要下载外部工具 curl.exe htox32c.exe 及 sed.exe (我习惯于把它们放到c:\windows\system32 下,这样随便在那都可以调用)

主要是第二个难点。把图片 转化为文本的汉字。
作者: Batcher    时间: 2010-3-3 21:26

目前没有听说哪个命令行工具可以识别图片文字
作者: namejm    时间: 2010-3-3 22:03

可行的办法就是:把所有表示文字的图片名保存到列表中去,图片名和文字一一对应。
初步查看了一下表示文字的图片名,全是10位数字的,遍历下来,工作量不少,如果蛮干的话,也不是整理不出来,但如果没有特别强的需求,这样做似乎不太划算。
为什么不直接去CCTV-2下载呢?
作者: inittab    时间: 2010-3-4 09:10

多谢老大们回复。
cctv 也有节目单,但只提供cctv等不多的频道。tvsou是目前最大最全的节目预告网站。多达上千个电视台呢。我想法是做一个通用采集。频道地址和日期都可以用作为变量参数
图片名和文字一一对应是做不到的,因为图片文件名是随机的10个数字。即使相同的文字,图片名也不一定相同。要手工对应,是不可能实现任务。
作者: inittab    时间: 2010-3-4 09:14

突然想到。
图片文件名没有办法。也许图片的大小。或md5值跟文字是一一对应的
作者: namejm    时间: 2010-3-4 17:05

  把所有的文字图片下载下来,有可能是多个图片对应同一文字,但是这样也够用了,现在的关键是建立图片名和文字的对应关系列表,不重复,不遗漏,需要一些耐心。如果非要不可,可以考虑用这个笨办法,不惜成本做一个出来。




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2