首页 > 代码库 > 转知乎的文章 都用 Python 来做什么啊

转知乎的文章 都用 Python 来做什么啊

大家都用 Python 来做什么啊? Tsing:谁说我是来看段子的。。。 首先上一首Python之禅:

技术分享

 
Python是一个非常好用的程序语言,开发的速度非常快。我用Python已经一年多了,从Python2.7到现在的Python3.4,也写了好多的小程序,其中大部分都是爬虫程序,下面简单列举几个,可怜了我科的各种系统。

技术分享

 

0. 制作引文分析利器HistCite的便捷使用版本

 
怎么又出现了一个序号为零的啊!没错,这个又是我后来加上的,嘻嘻~

对于整天和文献打交道的研究生来说,HistCite是一款不可多得的效率利器,它可以快速绘制出某个研究领域的发展脉络,快速锁定某个研究方向的重要文献和学术大牛,还可以找到某些具有开创性成果的无指定关键词的论文。但是原生的HistCite已经有4年没有更新了,现在使用会出现各种bug,于是我就用Python基于HistCite内核开发了一个方便使用的免安装版本。具体的使用方法和下载链接见我的第一篇知乎专栏文章:文献引文分析利器HistCite使用教程(附精简易用免安装Pro版本下载) - Tsing的文章 - 知乎专栏

 

技术分享

 
 

1. 破解观看中科大网络课堂

 

中国科学技术大学网络课堂(

)是一个非常好的平台,上面汇集了很多知名教授的授课视频,以及最新的讲座、报告、表演视频,内容还是相当丰富的。但是这些视频只面向校内IP开放。

技术分享

所以想在校外看到这些视频必须破解视频地址,于是利用Python的requests库结合BeautifulSoup,用了不到10行代码就可以获取真实下载地址。

技术分享

为了方便没有安装Python的电脑使用,简单写了一个GUI界面,给室友用,都说还是挺好的用的哈。

技术分享

考虑到视频版权问题,代码和程序就不放出来了,请大家见谅。
 

2. 获取中科大研究生系统全部学生姓名、学号、选课信息

 

登录中国科学技术大学的研究生综合系统(中国科学技术大学研究生信息平台

),可以看到每一门课选课的学生姓名和学号,当时就想能不能做一个这样的系统,来输入任何姓名(或者学号)就可以看到他所有的选课信息呢?这是选课首页:

技术分享

点击每门课的已选人数链接,可以看到所有的选课学生姓名和学号:

技术分享

下面就利用requests的模拟登录功能,先获取全部课程的链接,并保存对于的课程信息,然后挨个获取了所有课程的选课信息。为了保护学生信息,对程序的关键部分进行了模糊处理,希望大家谅解。

技术分享

 
这样就获取了一个巨大的json文件,里面全部是学生姓名学号选课信息:

技术分享

有了这个json文件,我们可以写入数据库,也可以直接利用json文件来查询:

技术分享

为了方便其他人使用,基于上面的数据我开发了一个线上版本:

技术分享

输入姓名或者学号都可以直接查询别人的选课信息:

技术分享

 
这个地址就不放出来了,如果您是科大的研究生,私信我,我把链接发给你。
 

3. 扫描中科大研究生系统上的弱密码用户

 
基于上面获得的选课学生学号,很容易利用Python依次模拟登录研究生,密码就用弱密码123456,然后可以获得身份证号码等重要信息。

技术分享

这样就得到了使用123456作为密码的用户信息,所以在此提醒大家一定不要使用弱密码,希望下面的同学早日修改密码。

技术分享

 

4. 模拟登录中科大图书馆并自动续借

 
最近,科大图书馆系统升级了,到处都加了验证码,所以下面这个方法直接使用肯定是不行了,不过曾经毕竟成功过哈。以前收到借阅图书到期通知短信,就会运行一下这个程序,自动续借了,然后就可以再看一个月了。

技术分享

运行就是这样的,自动续借成功,看到的链接就是每本书的续借链接。

技术分享

 

5. 网易云音乐批量下载

 
终于来一个正常一点的哈,那么我就直接放代码吧,可以下载网易云音乐各个榜单的全部歌曲,批量下载,速度挺快。请注意提前要创建一个名为 “网易云音乐” 的文件夹。
# 网易云音乐批量下载# By Tsing# Python3.4.4importrequestsimporturllib# 榜单歌曲批量下载# r = requests.get(‘http://music.163.com/api/playlist/detail?id=2884035‘)	# 网易原创歌曲榜# r = requests.get(‘http://music.163.com/api/playlist/detail?id=19723756‘)	# 云音乐飙升榜# r = requests.get(‘http://music.163.com/api/playlist/detail?id=3778678‘)	# 云音乐热歌榜r=requests.get(‘http://music.163.com/api/playlist/detail?id=3779629‘)# 云音乐新歌榜# 歌单歌曲批量下载# r = requests.get(‘http://music.163.com/api/playlist/detail?id=123415635‘)	# 云音乐歌单——【华语】中国风的韵律,中国人的印记# r = requests.get(‘http://music.163.com/api/playlist/detail?id=122732380‘)	# 云音乐歌单——那不是爱,只是寂寞说的谎arr=r.json()[‘result‘][‘tracks‘]# 共有100首歌foriinrange(10):# 输入要下载音乐的数量,1到100。name=str(i+1)+‘ ‘+arr[i][‘name‘]+‘.mp3‘link=arr[i][‘mp3Url‘]urllib.request.urlretrieve(link,‘网易云音乐\\+name)# 提前要创建文件夹print(name+‘ 下载完成‘)
于是就可以愉快的听歌了。

技术分享

 
上面这些都是在Python3的环境下完成的,在此之前,用Python2还写了一些程序,下面也放几个吧。初期代码可能显得有些幼稚,请大神见谅。
技术分享
 

6. 批量下载读者杂志某一期的全部文章

 
上次无意中发现读者杂志还有一个在线的版本,然后兴趣一来就用Python批量下载了上面的大量文章,保存为txt格式。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 保存读者杂志某一期的全部文章为TXT
# By Tsing
# Python 2.7.9

import urllib2
import os
from bs4 import BeautifulSoup

def urlBS(url):
    response = urllib2.urlopen(url)
    html = response.read()
    soup = BeautifulSoup(html)
    return soup

def main(url):
    soup = urlBS(url)
    link = soup.select(‘.booklist a‘)
    path = os.getcwd()+u‘/读者文章保存/‘
    if not os.path.isdir(path):
        os.mkdir(path)
    for item in link:
        newurl = baseurl + item[‘href‘]
        result = urlBS(newurl)
        title = result.find("h1").string
        writer = result.find(id="pub_date").string.strip()
        filename = path + title + ‘.txt‘
        print filename.encode("gbk")
        new=open(filename,"w")
        new.write("<<" + title.encode("gbk") + ">>\n\n")
        new.write(writer.encode("gbk")+"\n\n")
        text = result.select(‘.blkContainerSblkCon p‘)
        for p in text:
            context = p.text
            new.write(context.encode("gbk"))

        new.close()


if __name__ == ‘__main__‘:
    time = ‘2015_03‘
    baseurl = ‘http://www.52duzhe.com/‘ + time +‘/‘
    firsturl = baseurl + ‘index.html‘
    main(firsturl)
    
 

7. 获取城市PM2.5浓度和排名

 
最近环境问题很受关注,就用Python写了一个抓取PM2.5的程序玩玩,程序支持多线程,方便扩展。
#!/usr/bin/env python# -*- coding: utf-8 -*-# 获取城市PM2.5浓度和排名# By Tsing# Python 2.7.9importurllib2importthreadingfromtimeimportctimefrombs4importBeautifulSoupdefgetPM25(cityname):site=‘http://www.pm25.com/‘+cityname+‘.html‘html=urllib2.urlopen(site)soup=BeautifulSoup(html)city=soup.find(class_=‘bi_loaction_city‘)# 城市名称aqi=soup.find("a",{"class","bi_aqiarea_num"})# AQI指数quality=soup.select(".bi_aqiarea_right span")# 空气质量等级result=soup.find("div",class_=‘bi_aqiarea_bottom‘)# 空气质量描述printcity.text+u‘AQI指数:‘+aqi.text+u‘\n空气质量:‘+quality[0].text+result.textprint‘*‘*20+ctime()+‘*‘*20defone_thread():# 单线程print‘One_thread Start: ‘+ctime()+\ngetPM25(‘hefei‘)getPM25(‘shanghai‘)deftwo_thread():# 多线程print‘Two_thread Start: ‘+ctime()+\nthreads=[]t1=threading.Thread(target=getPM25,args=(‘hefei‘,))threads.append(t1)t2=threading.Thread(target=getPM25,args=(‘shanghai‘,))threads.append(t2)fortinthreads:# t.setDaemon(True)t.start()if__name__==‘__main__‘:one_thread()print‘\n‘*2two_thread()
 

8. 爬取易迅网商品价格信息

 
当时准备抓取淘宝价格的,发现有点难,后来就没有尝试,就把目标选在了易迅网。
#!/usr/bin/env python
#coding:utf-8
# 根据易迅网的商品ID,爬取商品价格信息。
# By Tsing
# Python 2.7.9

import urllib2
from bs4 import BeautifulSoup
def get_yixun(id):
    price_origin,price_sale = ‘0‘,‘0‘
    url = ‘http://item.yixun.com/item-‘ + id + ‘.html‘
    html = urllib2.urlopen(url).read().decode(‘utf-8‘)
    soup = BeautifulSoup(html)
    title = unicode(soup.title.text.strip().strip(u‘【价格_报价_图片_行情】-易迅网‘).replace(u‘】‘,‘‘)).encode(‘utf-8‘).decode(‘utf-8‘)
    print title
    try:
        soup_origin = soup.find("dl", { "class" : "xbase_item xprice xprice_origin" })
        price_origin = soup_origin.find("span", { "class" : "mod_price xprice_val" }).contents[1].text 
        print  u‘原价:‘ + price_origin
    except:
        pass
    try:
        soup_sale= soup.find(‘dl‘,{‘class‘:‘xbase_item xprice‘})
        price_sale = soup_sale.find("span", { "class" : "mod_price xprice_val" }).contents[1] 
        print  u‘现价:‘+ price_sale
    except:
        pass
    
    print url
    return None

if __name__ == ‘__main__‘:
    get_yixun(‘2189654‘)
 

9. 音悦台MV免积分下载

 
音悦台上有好多高质量的MV,想要下载却没有积分,于是就想到破解下载。当时受一个大神的代码的启发,就写出了下面的代码,虽然写的有点乱,但还是可以成功破解的哈。
#!/usr/bin/env python# -*- coding: utf-8 -*-# 音悦台MV免积分下载# By Tsing# Python 2.7.9importurllib2importurllibimportremv_id=‘2278607‘# 这里输入mv的id,即http://v.yinyuetai.com/video/2275893最后的数字url="http://www.yinyuetai.com/insite/get-video-info?flex=true&videoId="+mv_idtimeout=30headers={‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36‘,‘Accept‘:‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8‘}req=urllib2.Request(url,None,headers)res=urllib2.urlopen(req,None,timeout)html=res.read()reg=r"http://\w*?\.yinyuetai\.com/uploads/videos/common/.*?(?=&br)"pattern=re.compile(reg)findList=re.findall(pattern,html)# 找到mv所有版本的下载链接iflen(findList)>=3:mvurl=findList[2]# 含有流畅、高清、超清三个版本时下载超清else:mvurl=findList[0]# 版本少时下载流畅视频local=‘MV.flv‘try:print‘downloading...please wait...‘urllib.urlretrieve(mvurl,local)print"[:)] Great! The mv has been downloaded.\n"except:print"[:(] Sorry! The action is failed.\n"
 

10. 其他请参考:能利用爬虫技术做到哪些很酷很有趣很有用的事情? - Tsing 的回答

 
 

结语:Python是一个利器,而我用到的肯定也只是皮毛,写过的程序多多少少也有点相似,但是我对Python的爱却是越来越浓的。

 
 
 

补充:看到评论中有好多知友问哪里可以快速而全面地学习Python编程,我只给大家推荐一个博客,大家认真看就够了:Python教程 - 廖雪峰的官方网站

转知乎的文章 都用 Python 来做什么啊