失效链接处理 |
Java项目经验汇总 PDF 下载
本站整理下载:
相关截图:
主要内容:
环 境: Linux Ubuntu,MongoDB,Oracle 硬件环 境: 20 个节点的服务器 开发工 具: Hive,Sqoop,MyEclipse,Hadoop,Ozzie 责任描 述: 主要负责: 1,使用 Sqoop 工具将原始数据从 Oracle 数据库导入到 H ive 中;2,编写 Python 脚本,使用 Hive 对原始数据进行初次清洗,向 Hadoop 集群提交 Job,使其在后台运行;3,将 Hive 清洗后的数据导入 MongoDB;4,使用 MyEclipse 进行 J2EE 开发,从 MongoDB 中加载数据, 调用 Python 进行数学计算,将计算后的数据以 JSON 格式传输到前端, 在前端渲染成直方图,热力图等模型。 项目描 述: 华为某质量监控部门,在从设备采购,测试,投产等各个环节产生了大 量的数据,比如不同厂商的单板的尺寸、温度、工序、测试纪录、报废 时间、维修记录、维持良好的记录等信息。海量数据预警平台将这些历 史数据以及每日产生的增量数据数据汇集到集群上,对噪音数据和脏数 据进行预处理。对预处理完的数据进行分析,分析生产过程中的良品率, 各个厂商设备的对比率,产品质量,改进。 2014.03 - 2014.08 南方电网工业用电数据分析 项目描 述: 随着智能电网的普及,某电网在智能电网试点小区和工业点采集到的数 据量十分庞大,这些数据通过用电采集系统收集,每 15 分钟采集一次, 每月达到 80G 且随着试点城市扩大会大量增加,通过大数据技术来处理 和分析达到提高智能服务水平是很有意义的,但当时如果把系统整合到 现有的电力系统中,成本太大,且落地太慢,所以中科院大数据挖掘实 验室承包这部分工作,将数据整合到现有的 Hadoop 集群中存储,采用 混合的计算模式对数据进行处理,在时间层面上使用 K-means 算法针对 不同时间范围的用负荷进行聚类,使用可视化方式对数据进行观察和验 证,通过建立模型对用电量进行预测。 2012.06 - 2014.02 LAS 日志安全审计系统 项目描 述: LAS 实时不间断的对企业中来自不同厂商的安全设备、网络设备、主机、 操作系统、中间件、数据库、业务系统中的日志、警报等信息汇集进行 存储、监控、分析、报警、响应和报告。该系统能够实时的对采集到的 数据进行归一化和关联分析,通过统一的界面进行实时、可视化的呈现, 协助安全管理人员迅速准确地识别安全事故。LAS 能够实时采集 NetFlo w 数据流,对一段时间内的网络流量或者网络连接数进行统计,并绘制 出趋势曲线,通过对某个 ip 地址的趋势分析获悉该 ip 地址的访问流量 模型,进而对异常流量和行为进行审计。对于集中存储的海量历史数据, LAS 对日志进行深度挖掘。 主要负责:海量数据存储、分析、统计、可视化展示;海量日志管理系 统研发。 |