python3实践-从网站获取数据(Carbon Market Data-GD) （bs4/Beautifulsoup）

首页 > 代码库 > python3实践-从网站获取数据(Carbon Market Data-GD) （bs4/Beautifulsoup）

python3实践-从网站获取数据(Carbon Market Data-GD) （bs4/Beautifulsoup）

2024-09-01 08:52:41 208人阅读

结合个人需求，从某个网站获取一些数据，发现网页链接是隐藏的，需要通过浏览器看后面的代码来获取真实的链接。

下面这个案例，直接是从真实的链接中爬去数据。

此外，发现用pandas的read_html不能直接解析“lxml”的表格，有待后续研究。

另外，爬去的数据发现有很多空格符号，主要是 "\r"、"\n"、"\t"，

字符串的去除 "\r"、"\n"、"\t" 的方法也一并添加在这个案例中。

具体代码如下：

 1 # Code based on Python 3.x 2 # _*_ coding: utf-8 _*_ 3 # __Author: "LEMON" 4  5  6 from bs4 import BeautifulSoup 7 import requests 8 import csv 9 10 url2 = ‘http://ets.cnemission.com/carbon/portalIndex/markethistory?Top=1‘11 12 req = requests.get(url2)13 # soup = BeautifulSoup(req.content, ‘html5lib‘)14 soup = BeautifulSoup(req.content, ‘lxml‘)15 # 用“lxml”解析，可以获得数据，但csv文件中每行有空行16 17 table = soup.table18 trs = table.find_all(‘tr‘)19 20 list1 = []21 for tr in trs:22     td = tr.find_all(‘td‘)23 24     # 去除每个单元格数据后面的"\r"和"\n"和"\t"，25     # 下面两种方法都可以生成csv文件，26     # 但method1生成的csv文件较小，应该是优化性能较好，暂时不明白其中原理27     # method128     row = [i.text.replace(‘\r‘, ‘‘).replace(‘\n‘, ‘‘).replace(‘\t‘, ‘‘) for i in td]29     # method 230     # row = [i.text.replace(‘\r\n\t‘, ‘‘) for i in td]31 32     list1.append(row)33 34 with open(‘MktDataGuangdong.csv‘, ‘a‘, errors=‘ignore‘, newline=‘‘) as f:35     f_csv = csv.writer(f)36     f_csv.writerows(list1)

python3实践-从网站获取数据(Carbon Market Data-GD) （bs4/Beautifulsoup）

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > python3实践-从网站获取数据(Carbon Market Data-GD) （bs4/Beautifulsoup）

python3实践-从网站获取数据(Carbon Market Data-GD) （bs4/Beautifulsoup）

看完仍有疑问？有类似问题直接问程序猿