Board logo

标题: [问题求助] Python用什么办法把歌曲的相关信息抓下来? [打印本页]

作者: netdzb    时间: 2020-6-12 17:39     标题: Python用什么办法把歌曲的相关信息抓下来?

辛晓琪 - 忐忑.ape
辛晓琪 - 亲爱的你.ape
辛晓琪 阿杜 - 月光日记.ape

页面上一共有3首歌曲,这个页面是最后一页。前面一页15首,每个页面都是15首。
先挑简单的做吧,最后一个页面怎么提取歌曲名字。正则匹配最容易想到的,还有
别的办法吗?


以下是页面的信息
=====================

  <tbody id="filemangelist">
    <tr class="">
      <td class="select-file">&nbsp;&nbsp;<input id="fid" name="fid" value="1826394"

type="checkbox"></td>
      <td class="file-title f14"><a class="music ico-type filename filelink" title="辛晓

琪 - 忐忑.ape" href="http://www.yimuhe.com/file-1826394.html" target="_blank">辛晓琪 - 忐

忑.ape</a></td>
      <td class="tr sharestatus"><div id="rename" class="dn"><a href="javascript:;"

class="menudm bgs1 ico-delete-file1 r" style="width:25px;display: block;" title="删除"

onclick="del_file('1826394','3');">&nbsp;</a><a class="menudm bgs1 ico-rename-file1 r"

style="width:25px;display: block;" href="javascript:;" title="重命名" onclick="edit_file

('1826394','辛晓琪 - 忐忑','');">&nbsp;</a><a href="javascript:;" class="menudm bgs1 ico

-copy-file r" style="width:25px;display: block;" title="复制链接地址" onclick="copy_file

('1826394','www.ymhwp.com');">&nbsp;</a></div></td>
      <td class="tr">0</td>
      <td class="tr">27.5MB</td>
      <td class="tr">2013-12-09 18:23:37</td>
    </tr>
    <tr class="">
      <td class="select-file">&nbsp;&nbsp;<input id="fid" name="fid" value="1826393"

type="checkbox"></td>
      <td class="file-title f14"><a class="music ico-type filename filelink" title="辛晓

琪 - 亲爱的你.ape" href="http://www.yimuhe.com/file-1826393.html" target="_blank">辛晓琪

- 亲爱的你.ape</a></td>
      <td class="tr sharestatus"><div id="rename" class="dn"><a href="javascript:;"

class="menudm bgs1 ico-delete-file1 r" style="width:25px;display: block;" title="删除"

onclick="del_file('1826393','3');">&nbsp;</a><a class="menudm bgs1 ico-rename-file1 r"

style="width:25px;display: block;" href="javascript:;" title="重命名" onclick="edit_file

('1826393','辛晓琪 - 亲爱的你','');">&nbsp;</a><a href="javascript:;" class="menudm bgs1

ico-copy-file r" style="width:25px;display: block;" title="复制链接地址"

onclick="copy_file('1826393','www.ymhwp.com');">&nbsp;</a></div></td>
      <td class="tr">2</td>
      <td class="tr">22.91MB</td>
      <td class="tr">2013-12-09 18:21:51</td>
    </tr>
    <tr class="">
      <td class="select-file">&nbsp;&nbsp;<input id="fid" name="fid" value="1826392"

type="checkbox"></td>
      <td class="file-title f14"><a class="music ico-type filename filelink" title="辛晓

琪 阿杜 - 月光日记.ape" href="http://www.yimuhe.com/file-1826392.html" target="_blank">辛

晓琪 阿杜 - 月光日记.ape</a></td>
      <td class="tr sharestatus"><div id="rename" class="dn"><a href="javascript:;"

class="menudm bgs1 ico-delete-file1 r" style="width:25px;display: block;" title="删除"

onclick="del_file('1826392','3');">&nbsp;</a><a class="menudm bgs1 ico-rename-file1 r"

style="width:25px;display: block;" href="javascript:;" title="重命名" onclick="edit_file

('1826392','辛晓琪 阿杜 - 月光日记','');">&nbsp;</a><a href="javascript:;" class="menudm

bgs1 ico-copy-file r" style="width:25px;display: block;" title="复制链接地址"

onclick="copy_file('1826392','www.ymhwp.com');">&nbsp;</a></div></td>
      <td class="tr">1</td>
      <td class="tr">28.25MB</td>
      <td class="tr">2013-12-09 18:20:16</td>
    </tr>
  </tbody>

=========================
作者: xp3000    时间: 2020-6-12 17:51

匹配文本
[^"]*\.ape
Python不会,你修改别人的爬虫看看
作者: ivor    时间: 2020-6-12 18:22

  1. [\w\s-]*\.ape
复制代码

作者: netdzb    时间: 2020-6-12 18:57

回复 2# xp3000

多谢,我去试试看。
作者: netdzb    时间: 2020-6-12 19:55

回复 3# ivor


onclick="edit_file('1826394','辛晓琪 - 忐忑','');

提取这个的表达式怎么写?
作者: Gin_Q    时间: 2020-6-12 20:02

bs4 Beautiful Soup这个模块学学,html,xml随便弄!我爬网页都没有用过正则!
作者: netdzb    时间: 2020-6-12 20:12

回复 6# Gin_Q

谢谢,我去学学这个模块。
作者: ivor    时间: 2020-6-13 08:31

回复 4# netdzb
  1. [\u4e00-\u9fa5\s-]+
复制代码
匹配 辛晓琪 - 忐忑
作者: netdzb    时间: 2020-6-13 13:40

回复 8# ivor

这个字段是可变的,可能是 辛晓琪 - 忐忑 可能是 辛晓琪 - 爱的回答, 也有可能是 邓丽君 - 甜蜜蜜。




欢迎光临 批处理之家 (http://bbs.bathome.net/) Powered by Discuz! 7.2