python 爬蟲　解析／正则匹配／乱码问题整理

2024-09-25 15:02:39 220人阅读

今日爬取一听／扬天音乐都遇到了某些问题，现在对爬取过程中遇到的问题，做对于自己而言较为系统的补充与解释。主要问题有一下几点：

一：beautiful,urllib等库进行网页解析时，对于目标下的东西无法进行解析与显示

二：正则匹配虽然看过许多，但实际使用时仍然不够熟练，需要大量参考，故而，打算重新整理

三：对于乱码问题，曾在建mysql数据库时，头疼多次，现打算对于网页解析的乱码处理方法做些整理

这次目标是爬取扬天音乐“http://up.mcyt.net/”，需要获取的内容有：歌曲名，歌手以及打开浏览器即可播放的音乐链接（格式大致：http://up.mcyt.net/md5/53/******.mp3）

这个任务相对简单，至少在爬虫道路上遇到了又一新情形，故在此稍加叙述。

现在需要爬取截图中的音乐外接，如下图，以及与之对应的web元素

技术分享

<label>

　　<br>

　　<span>a网页代码：</span>