失效链接处理 | |||
《离线数据仓库设计与开发》课件 v3.0 PDF 下载
本站整理下载:
链接: https://pan.baidu.com/s/1ER40gsEGF6mS2HfKje2iOg
提取码: ju9p
相关截图:
主要内容: .1 编写SQL步骤1)先找到目标表;2)分析一下,需要哪些表能满足目标表的所有字段; 3)即准备所有输入表; 4)SQL编写内容: 插入表语句: (1)insert overwrite table 目标表名称 : 考虑SQL是否支持重新运行,覆盖之前的计算结果; (2)insert into table 目标表名称 : 考虑SQL是否支持重新运行,追加之前的计算结果; (3)考虑目标表是否需要分区,采用静态分区,还是动态分区; 查询表语句: (1)考虑是否需要多表join,如果需要多表join,先把整体框架搭建出来,再具体编写各个子查询语句;
(3)当统计求和时,使用聚合函数sum(); (4)当处理累积表时,首先获取旧表(目标表)数据,再获取新表(输入表)数据,然后二者进行join操作; (5)当统计累积度量值时,旧表度量值 + 新表度量值 (6)累积表中获取首次时间,当旧表时间为null时,取当前时间,旧表时间不为null时,取旧表时间; (7)累积表中获取末次时间(最近时间),新的id不为空时,取当前时间,新的id为空时,取旧表时间; (8)天数和次数的转换:if(new.login_count > 0 , 1 , 0) (9)使用group by时条件注意:1.分组字段;2.常量;3.聚合函数; (10)累积30天等指标,在新数据表new中进行累加 where最近30天 (11)当子查询较多时,可以封装子查询,构建临时表,然后直接在查询过程中引用临时表即可。
1.2 /bin/bash^M: 坏的解释器问题解决注意:解决Linux环境下执行脚本时报错:/bin/bash^M: 坏的解释器: 没有那个文件或目录https://blog.csdn.net/ouyang_peng/article/details/86488451
解决:相同的解决方式; 1.3 数据仓库构建业务流程 |