——- 有自觉才有自由 ——-
大数据解决海量数据的存储(存不下)与计算(查询慢)的问题。
大数据:处理出有价值的数据
大数据分析的业务流程:
[ ] 明确数据分析的目的和思路(搞清楚数据在哪,要做什么?)
[ ] 数据收集(读数据)
- [ ] 数据处理:提取,清洗,转化,加载(Sqoop,kettle即对数据进行处理,过滤掉不需要的数据)
- [ ] 数据分析:统计,建模,挖掘,(Hive,Spark,Flik即指标统计,根据需求算出结果,存储结果)
- [ ] 数据可视化(Superset,Echarts),将结果放入一个查询非常快的数据库,例如hbse,redis,MySQL
[ ] 报告撰写(如图所示,那个数据最明显)
Linux文件系统的特点:
Linux文件系统没有盘符的概念,所以的文件入口是从根目录开始的,系统自带的文件不要修改和删除。
Linux命令:
cd 切换目录
- cd : change directory,切换目录
cd .. :返回上一级目录
cd - :在临近的2个目录间切换
cd : 返回登陆者的家目录
cd / :切换到根目录
~:/root
cd:切换到当前登陆用户的家目录,如果是itcast用户登陆的,就回到/home/itcast,如果 是root用户登陆的就回到/root
mkdir: make directory,创建文件夹
mkdir test1:没有层级的创建文件夹test1,当前目录下创建。
mkdir -p aaa/bbb/ccc/ddd:有层级的创建文件夹,绝对路径创建(-p先检查后创建文件夹)。
rm: remove的缩写,默认删除文件(-),可以删除文件夹(d)
rm a.txt : 删除文件会提示,以y开头都会被删除,其他都不会被删除。
-r: 递归,先进入最里的一层,然后从里向外删除
rm -r test1:删除文件夹 test1,但是会提示。
-f: force,强制
rm a.txt -f : 强制删除文件 a.txt, 并且不提示。
rm -rf test1 : 强制删除文件夹 test1不提示。
touch: 创建空文件
touch a.txt #在当前目录创建a.txt文件
touch /root/a.txt #在/root目录创建a.txt文件
mv:文件,目录的移动和重命名
mv: move用于文件,目录的移动和重命名(剪切粘贴,重命名和移动功能)
mv a.txt b.txt : 当b.txt存在和不存在都是重命名,a的内容覆盖b的内容(a的名字变成b的名字),即b变成了a的内容(覆盖:把b杯子先清空,然后把a被子里的水倒入b中,不同于追加0)。
mv test1 test2 : 当test2存在:将test1整个文件夹移动到test2目录下
当test2不存在:重命名
mv a.txt test1 :移动文件到指定目录test1下面a
cat : 查看 整个文件 内容
cat a.txt :查看文件内容
more :查看文件部分内容
enter:多查一行数据
空 格 : 查看新的一屏幕数据
cp : copy , 复制粘贴
cp a.txt b.txt
a.txt 内容存在 b.txt 内容不存在—-复制a内容到b里。
a.txt 内容存在 b.txt内容存在————-将a的内容覆盖到b里。
cp test1 test2 -r
当test2文件夹不存在:将test1下面的内容复制一份,写到test2目录下。
当test2文件夹存在:将test1整个复制一份到test2目录中
test1内容存在 test2内容为空。—-复制test1整体复制到test2中
test1内容存在 test2内容存在. ——将test1整体到test2目录中
cp a.txt test2 :复制a.txt并写入到 test2 目录中
ps: process status ,进程状态
ps -ef : 查看当前正在运行的进程
UID:进程是谁执行的
PID: 进程的ID
PPID:进程的父ID
kill : 终止
kill 进程ID,终止进程,有时候不一定会终止进程。
kill -9 进程ID,一定能杀死进程。(9:kill,双杀)
kill -1:查看kill命令的所以信号。
ifconfig: 查看虚拟机的网络配置信息
Windows:ipconfig
Linux命令(重点)
命令格式: command -options paramaters
绝对路径:从根目录开始。
相对路径:从当前目录开始。
ls : list简写,列出当前目录下的内容(文件+文件夹)。
ls /root:查看指定目录/root里面的内容。
-options:
ls -a :查看(.)隐藏和非隐藏的文件(白色)和文件夹(蓝色),all
ls -l :list简写,列表显示,以列表形势显示指定目录下的文件和文件夹(简写ll)。
ls -h :显示大小,带单位(必须与-l结合使用 ls -l -h)
clear:命令用来清屏,可以使用ctrl+l来替换。
pwd:显示当前目录的绝对路径。
reboot:重启命令
shutdown -h now:立刻关机(断电关机)
halt:立刻关机(不断电关机)**cd: change directory,切换目录**
cd:切换到当前登陆用户的家目录,如果是itcast用户登陆的,就回到/home/itcast,如果 是root用户登陆的就回到/root
hostname: 查看主机名称
tar:压缩,打包,解包,解压缩命令
options:
c:打包
v:看过程
f:打包成那个文件
z:打包成压缩格式的文件.gzip格式
x:解包,解压缩
-C:指定文件的解压位置
打包:是指将一大堆文件或目录变成一个总的文件。
1 | tar -cvf test1.tar test1 |
打压缩包:则是将一个大文件通过压缩算法变成一个小文件
1 | tar -czvf test1.tar.gz test1 |
解包:
1 | tar -xvf test1.tar -c /big59/test3 |
解压缩包:
1 | tar -xzvf test1.tar.gz -C /big59/test2 |
grep:全文检索
grep hadoop a.txt: 在a.txt里面查找包含hadoop的内容。
grep -ir hadoop /root:不区分大小写,
| :管道,将上一个命令的输出当成下一个命令的输入
which-查看系统命令
查看执行命令的位置
vi : vi编辑器
命令模式:vi a.txt回车进入命令模式。
编辑模式: 输入i,o,O,a,s都可以从命令模式进入编辑模式,输入esc进入命令模式。
保持退出: 输入:进入末行模式,再输入wq保存退出。
用户创建命令:useradd(root超级管理员才可以添加用户)
添加用户:useradd 用户名
设置密码:passwd 用户名
删除用户:userdel -r 用户名
切换用户:su 用户名
chmod:权限管理
角色:
创建者:一个文件或者文件夹的创建者(拥有者),userid简称uid.
用户组:针对文件或者文件夹而言,默认与创建者同名,groupid简称gid/g.
其他用户:创建者之外的用户,就是其他用户,other简称o.
权限:
第1列:文件属性( - :文件,d:文件夹)
第2-4列:创建者对文件或者文件夹的权限
第5-7列:用户组的权限
第8-10列:其他用户的权限
权限的解读:
r :read ,读权限,r 4
w :write,写权限,w 2
x :执行权限,x 1
权限操作:(文件和文件夹都可以进行权限操作)
chmod o+w a.txt:对其他用户添加一个写权限。
chmod g-r a.txt:给用户组删除读权限。
chmod o=wx a.txt的其他用户赋予写和执行权限
数字权限的操作:
chmod 777 a.txt:给所以角色赋予所以权限