首页 > 代码库 > spark用户访问session分析
spark用户访问session分析
基础数据结构
- user_visit_action 点击流数据 (hive表)
date //日期:代表用户点击行为是在哪一天发生 user_id //代表这个点击行为是哪一个用户执行的 session_id //唯一标识了某个用户的一个访问session page_id //页面的id,点击品类,进入某个页面 action_name //这个点击行为发生的时间点 search_keyword //搜索的关键词 click_category_id //网站首页点击了某个品类 click_product_id //网站列表页点击了某个商品 order_category_ids //代表了将某些商品加入了购物车,然后一次性的对商品下了单,某次下单行为中,有哪些商品品类 order_product_ids //某次下单行为中,有哪些商品 pay_category_ids //一次支付行为中对应了哪些品类 pay_product_ids //支付行为中,对应了哪些具体的商品
- user_info 用户信息表(hive表)
user_id //用户的唯一标识 username //用户的登录名 name //用户名 age //年龄 professinal //职业 city //城市
-
task表(mysql表)
task_id //主键 task_name //任务名称 create_time //创建时间 start_time //开始运行的时间 finish_time //结束运行的时间 task_type //任务类型 task_status //任务状态,对应spark作业运行的状态 task_param //用来使用json的格式来封装用户提交的任务的特殊筛选参数
- 交互流程
1.j2ee平台的使用者,向平台提交任务(包含任务参数),并将任务插入到mysql表中的task表
2.Runtime,Process等API去执行一个封装了spark-submit命令的linux的shell脚本
3.
spark用户访问session分析
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。