基础数据结构

user_visit_action 点击流数据（hive表）

date  //日期：代表用户点击行为是在哪一天发生
user_id  //代表这个点击行为是哪一个用户执行的
session_id //唯一标识了某个用户的一个访问session
page_id //页面的id，点击品类，进入某个页面
action_name //这个点击行为发生的时间点
search_keyword //搜索的关键词
click_category_id //网站首页点击了某个品类
click_product_id //网站列表页点击了某个商品
order_category_ids //代表了将某些商品加入了购物车，然后一次性的对商品下了单，某次下单行为中，有哪些商品品类
order_product_ids //某次下单行为中，有哪些商品
pay_category_ids //一次支付行为中对应了哪些品类
pay_product_ids  //支付行为中，对应了哪些具体的商品

user_info 用户信息表（hive表）

user_id //用户的唯一标识
username //用户的登录名
name //用户名
age //年龄
professinal //职业
city //城市

task表（mysql表）

task_id   //主键
task_name //任务名称
create_time //创建时间
start_time //开始运行的时间
finish_time //结束运行的时间
task_type //任务类型
task_status //任务状态,对应spark作业运行的状态
task_param //用来使用json的格式来封装用户提交的任务的特殊筛选参数

交互流程

1.j2ee平台的使用者，向平台提交任务（包含任务参数），并将任务插入到mysql表中的task表

2.Runtime，Process等API去执行一个封装了spark-submit命令的linux的shell脚本

spark用户访问session分析

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > spark用户访问session分析

spark用户访问session分析

基础数据结构

看完仍有疑问？有类似问题直接问程序猿