首页 > 代码库 > 抓取百万知乎用户数据之爬取思路
抓取百万知乎用户数据之爬取思路
一.如何获取到用户的信息
前往用户主页,以轮子哥为例
从中可以看到用户的详细信息,教育经历主页,主修。所在行业,公司,关注量,回答数,居住地等等。打开开发者工具栏查看网络,即可找到,一般是html或者json这个数据在Html页面里。
URL为https://www.zhihu.com/people/excited-vczh/answers,excited-vczh是轮子哥的id,我们只要拿到某个人的Id就可以获取详细信息了。
二.信息藏在哪
对这个json数据进行解析,即可找到用户信息
根据URL下载Html页面,解析json就可以获取用户信息了
三.如何获取更多的用户Id
每个人都有自己的关注列表,关注的人和被关注的人,抓取这些人再到这些人主页去抓关注列表,这样就不抽找不到用户了
这里还有nexturl,这个链接可以保存下来。如果isend为true的化就是列表翻到头了,url就不必保存下来
抓取百万知乎用户数据之爬取思路
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。