Python 爬虫基础

首页 > 代码库 > Python 爬虫基础

2024-08-07 07:08:36 221人阅读

下面是一个 Python 爬虫最简单的例子，使用网络库 urllib2 和正则表达式库 re，模拟浏览器的 User-Agent。

#!/usr/bin/env python# -*- coding: utf-8 -*-#引入基础网络库import urllib2#引入正则表达式模块import re#模拟User-Agentheaders = {‘User-Agent‘:‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11‘}req = urllib2.Request("http://www.cnblogs.com/pengzhong", headers=headers)html = urllib2.urlopen(req).read()#findall方法，注意区分大小写，全是小写menus = re.findall(r‘<a class="menu".*</a>‘,html)f=open(‘menu.txt‘,‘w‘)#输出匹配到的字符串for menu in menus:	f.write(menu)f.close

Python 爬虫基础

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Python 爬虫基础

Python 爬虫基础

看完仍有疑问？有类似问题直接问程序猿