首页 > 代码库 > spark用户访问session分析

spark用户访问session分析

基础数据结构

  • user_visit_action 点击流数据 (hive表)
    date  //日期:代表用户点击行为是在哪一天发生
    user_id  //代表这个点击行为是哪一个用户执行的
    session_id //唯一标识了某个用户的一个访问session
    page_id //页面的id,点击品类,进入某个页面
    action_name //这个点击行为发生的时间点
    search_keyword //搜索的关键词
    click_category_id //网站首页点击了某个品类
    click_product_id //网站列表页点击了某个商品
    order_category_ids //代表了将某些商品加入了购物车,然后一次性的对商品下了单,某次下单行为中,有哪些商品品类
    order_product_ids //某次下单行为中,有哪些商品
    pay_category_ids //一次支付行为中对应了哪些品类
    pay_product_ids  //支付行为中,对应了哪些具体的商品
    
  • user_info 用户信息表(hive表)
    user_id //用户的唯一标识
    username //用户的登录名
    name //用户名
    age //年龄
    professinal //职业
    city //城市
    
  • task表(mysql表)

    task_id   //主键
    task_name //任务名称
    create_time //创建时间
    start_time //开始运行的时间
    finish_time //结束运行的时间
    task_type //任务类型
    task_status //任务状态,对应spark作业运行的状态
    task_param //用来使用json的格式来封装用户提交的任务的特殊筛选参数
    
  • 交互流程     

               1.j2ee平台的使用者,向平台提交任务(包含任务参数),并将任务插入到mysql表中的task表

               2.Runtime,Process等API去执行一个封装了spark-submit命令的linux的shell脚本

               3.

spark用户访问session分析