正则爬取二手房数据

首页 > 代码库 > 正则爬取二手房数据

2024-10-16 03:03:02 215人阅读

以下代码是二手房的数据，代码仅供参考，很简单，超级简单

#encoding:utf8
import requests
import re
调用网址
def spider(url):
    html = requests.get(url).content.decode(‘utf8‘)
数据的正则，如果你感觉你用正则匹配不出来，那么你就分开匹配，然后在把所要的正则拼合在一起。我就是这么搞得。
    title = re.compile(‘<h2><a href="http://www.mamicode.com/.*?" target="_blank">(.*?)</a></h2>.*?<li>.*?<a target="_blank" href="http://www.mamicode.com/.*?">(.*?)</a>.*?<a target="_blank" href="http://www.mamicode.com/.*?">(.*?)</a>.*?</li>.*?<li class="font-balck"><span>(.*?)</span><span>(.*?)</span><span>(.*?)</span><span>(.*?)</span></li>.*?<div class="list-info-r">.*?<h3>(.*?)</h3>.*?<p>(.*?)</p>.*?<!-- <span class="btn-contrast">.*?<input name="" type="checkbox" value="" />.*?</span> -->.*?</div>‘,re.S)
    title_zheng = title.findall(html)
循环所要的数据
    for a1,a2,a3,a4,a5,a6,a7,aa8,a9 in title_zheng:
用repalce替换数据中的垃圾字母为空
        a8=aa8.replace(‘<em>‘,‘‘).replace(‘</em>‘,‘‘)
然后插入数据库
        sql = "insert into wojia(a1,a2,a3,a4,a5,a6,a7,a8,a9)VALUES(‘"+a1+"‘,‘"+a2+"‘,‘"+a3+"‘,‘"+a4+"‘,‘"+a5+"‘,‘"+a6+"‘,‘"+a7+"‘,‘"+a8+"‘,‘"+a9+"‘)"
        print(sql)
下面是循环的网址，1-7是循环的7页
for p in range(1,7):
    url = "http://bj.5i5j.com/exchange/n"+str(p)+""
    spider(url)


就这么简单，分分钟完事

正则爬取二手房数据

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > 正则爬取二手房数据

正则爬取二手房数据

看完仍有疑问？有类似问题直接问程序猿