失效链接处理 |
大数据学习所需基本知识以及搭建Hadoop大数据环境过程 PDF 下载
本站整理下载:
提取码:5xku
相关截图:
主要内容:
第一阶段:编程语言
大数据技术学习前需要一定的Java技术作为基础支持,Java只需理解一些基本的概念,就可以用它编写出适合于各种情况的应用程序。在学习Java的时候,我们一般需要学习这些课程: HTML&CSS&JS,java的基础,JDBC与数据库,JSP java web技术, jQuery与AJAX技术,SpringMVC、Mybatis、Hibernate等等。这些课程都能帮助我们更好了解Java,学会运用Java。
第二阶段:大数据框架
学完了编程语言之后,一般就可以进行大数据部分的课程学习了。一般来说,学习大数据部分的时间比学习Java的时间要短。大数据课程,包括大数据技术入门,海量数据高级分析语言,海量数据存储分布式存储,以及海量数据分析分布式计算等部分,Linux,Hadoop,Scala, HBase, Hive, Spark等等专业课程。如果要完整的学习大数据的话,这些课程都是必不可少的。
学习大数据的头一步:打好基础,比高逼格的大数据技术更重要!而基础知识就是:编程语言和linux操作系统。我们以java编程为例,当然了你所擅长的编程语言也可以是python、Scala等!
Java:只需要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Struts、Spring、Hibernate,Mybatis都是JavaEE方向的技术在大数据技术里用到的并不多,只需要了解就可以了,当然Java怎么连接数据库还是要知道的,像JDBC一定要掌握一下,有同学说Hibernate或Mybites也能连接数据库啊,为什么不学习一下,我这里不是说学这些不好,而是说学这些可能会用你很多时间,工作中也不常用,我还没看到谁做大数据处理用到这两个东西的,当然你的精力很充足的话,可以学学Hibernate或Mybites的原理,不要只学API,这样可以增加你对Java操作数据库的理解,因为这两个技术的核心就是Java的反射加上JDBC的各种使用。
Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。
接下来就是大数据技术的两大生态系统:Hadoop生态系统和spark生态系统。
Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。YARN是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了,这样就能更好的利用HDFS大存储的优势和节省更多的资源比如我们就不用再单独建一个spark的集群了,让它直接跑在现有的hadoop yarn上面就可以了。
Spark:它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。
以上很多都是必须的理论技术知识,想要成功就业,光纸上谈兵不行,还需要一定的实战经验才行,寻找一些大数据相关的项目进行练练手,巩固一下自己的技术。
以上就是对如何学习大数据的简单总结,如果学完之后仍有余力,自然也是可以学习机器学习、人工智能等技术知识吗,对你以后的就业会有很大的优势!
第二篇:大数据环境
一、Linux基础环境及系统模板制作 (2019.10.15)
1.1安装系统:Linux Centos 6.10 Minimal 版
1.2网络配置:
1) cd /etc/sysconfig/network-scripts/
2) ls 查看文件目录
3) vi ifcfg-eth0 用来修改网卡配置参数
4)vi刚打开是编辑控制模式,输入i,进入insert模式
5)注释硬件mac地址(语句前用#)主要用于虚拟环境,克隆虚拟机以保证mac的唯一性。
6)删除UUID行
7)ONBOOT=no (改成yes,默认网卡是禁用状态,修改之后为启用状态)。
8)BOOTPROTO=DHCP (此处应修改为静态IP )如下:打开VM虚拟网络编辑器查看相关信息。
BOOTPROTO=static
IPADDR=192.168.28.8
NETMASK=255.255.255.0
GATEWAY=192.168.28.2
DNS1=114.114.114.114
9)按ESC,shift+: 输入wq (写入磁盘并退出)
10)重启网络服务 service network restart
11) 输入ifconfig 查看网络配置参数是否正确
12)通过ping 命令测试网络是否OK
1.3关闭防火墙
1)service iptables stop (临时关闭防火墙) 。
2)chkconfig iptables off (禁用防火墙) 。
1)cd /etc/selinux ,输入pwd,输入 ll查看文件列表。
2)vi config 修改配置文件 将SELINUX修改为=disabled。
注意保存退出用wq(如果下意识的按Ctrl+S会锁住vi编辑,将不能输入任何字符,可以用Ctrl+Q来解冻)。
1.4 修改主机名和域名的关系
1) vi /etc/hosts 增加如下:
192.168.28.11 node01
192.168.28.12 node02
192.168.28.13 node03
192.168.28.14 node04
2)保存退出
1.5 删除另外一次的硬件网络地址(次步骤也是只在虚拟环境下做)
1)进入 cd /etc/udev/rules.d/
2)列表显示ll
3) 通过 cat 70-persistent-net.rules 查看其内容(记录了Mac地址信息)
4)rm -f 70-persistent-net.rules 删除这个文件
1.6 poweroff 关机。关机后在VM下拍快照,保存状态信息。
二、克隆出四台服务器
|