云计算与大数据应用技术————21大数据2021142247537刘新敏

第一章:云计算概述
1.1什么是云计算
1.1.1云计算的定义
1.定义:云计算是基于互联网服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源
2.四种云。
● 公有云:提供面向社会大众、公共群体的云计算服务。难以保证数据的私密性。
● 私有云:提供面向行业/组织内的云计算服务。具有私密性。
● 社区云:提供面向社团组织内用户使用的云计算                                                                          
● 混合云:含有两种以上的云计算类型的混合云平台。
广义云计算:服务的使用和交付模式,具有超大规模、虚拟化、可靠安全等特性。
侠义云计算:指IT基础设施的交付和使用模式
1.1.2云计算的概念模型
1)用户的公共性
2)设备的多样性
3)商业模式的服务性
4)提供方式的灵活性
1.1.3特点
1)具有大规模并行计算能力
2)资源虚拟化和弹性调度
3)数据巨大并且增速迅猛
(高可靠性。通用性、高性价比)
1.2云计算发展背景
1.飞速发展的网络技术:20世纪60年代计算机革命
                                    20世纪90年代互联网革命
            1987年9月14日发出中国第一封电子邮件,揭开了中国使用互联网的序幕
2.万维网的发明与发展
1989年蒂姆·伯纳斯·李(互联网之父)发明万维网(Web)
3信息产业的发展历史
硬件驱动:诞生IBM、Microsoft、Inetl
网络驱动:诞生Gooogle、yahoo、Amazon
2010:移动互联网革命,世界正式进入大数据时代,云计算就应运而生。
4.云计算的提出
计算机能力取决于硬件资源
1.3典型的云计算基础架构
Google计算架构{MapReduce API分布式并行编辑模型
             {BigTable分布式大规模数据库管理系统,用来存储半结构化数据
GFS是建立集群之上的分布式文件系统
1.4云计算的主要服务模式
1.4.1基础设施服务模式(IaaS)
关键技术:虚拟化技术
定义:虚拟化技术是指实现虚拟化的具体的技术性手段和方法的集合性概念
主要功能:分区——一台服务器运行多个程序             
    隔离——不影响其他虚拟机
    封装——将整个虚拟机存储独立于物理硬件的小组文件中
把厂商的有多台服务器组成的云端基础设施,作为计量服务提供给客户,主要面对具有专业知识的系统管理员
1.4.2平台及服务(PaaS)
关键技术:分布式并行计算,大文件分布式存储
主要面对开发人员
供应商需提供四大环境:
1)友好的开发环境
2)丰富的服务
3)自动的资源调度
4)精细的管理和监控
1.4.3软件即服务(SaaS)
关键技术:多租户技术
主要面对普通客户
1.5云计算的主要部署模式
1)公有云:面向互联网大众的云计算服务
2)私有云:面向企业内部的云计算平台
3)混合云:混合了私有云和公有云
4)联合云:联合多个云计算服务提供商的云基础设施,主要针对公有云平台
1.6云计算是商业模式的创新
1.7典型的云计算产品
国内:华为、中兴、腾讯、阿里、联想、浪潮
1.7.1AWS、Windows  Azure PIatfprm、IBM、
1.7.4阿里云
1.8云计算技术的新发展
1.软件定义储存
2.超融合基础构架
3.软件定义数据中心和DevOps
1)物理层
2)虚拟化层:包括用于抽象底层资源并将其作为集成服务提供的软件
     核心:管理程序
3)管理层:实现任务排便和自动化运营
  功能:监控,警报,调度
4)混合云服务兴起
优点:
降低成本
增加存储和可扩展性
提高敏捷性和灵活性
5.雾计算和边缘计算
雾计算:数据等集中在网络边缘的设备中,是云计算的延伸概念
边缘计算:靠近物体或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供计算服务
6.安全性成为关键
指一系列保护云计算数据、应用和相关数据的策略、技术和控制的集合,属于计算机安全,网络安全的子领域。
应对措施:漏洞扫描与渗透测试、云安全技术配置管理、云安全技术控制。
1.9我国的云计算产业现状
1.9.1政府推动云计算产业发展
1.9.2我国云计算产业高速发展

第二章大数据技术概述

2.1大数据的基本概念

维基百科:大数据(Big Data),又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的、大或复杂的数据集。大数据也可以定义为来自各种来源的大量非结构化和结构化数据。大数据通常包含的数据量超出了传统软件在人们可接受的时间内进行处理的能力。

        智库百科:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
        百度百科:大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

典型案例:谷歌与流感,啤酒与尿布。

2.1.2大数据产生的原因

1.大数据的产生

互联网,移动互联网,视频网站,物联网,车联网,医学影像,GPS,安全监控,金融,电信等。1ZB=10亿TB

KB>MB>GB>TB>PB>EB>ZB>YB>NB>DB依次递增。

2.大数据的可用性及衍生价值

数据的可用性:分析数据越全面,分析结果越真实,越具有可用性。

数据的复杂性:

非结构化数据:数据结构不规则或不完整、没有预定义的数据模型、不方便用二维逻辑数据库来表现的数据。

半结构化数据:介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据之间的数据,XML、HTML文档属于半结构化数据,它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。

价值

2.1.3大数据概念的提出

计算机发展历程:1946:电子管  1954:IRADIC  1958:麦卡锡发明LISP语言  1960:麦卡锡首次提出云计算理念  1964:集成电路IBM360  1969:ARPAnrt  1970:大规模集成电路  1980:TCP/IP  1984:SUN提出网络就是计算机  1986:我国首封E-Mail  1989:发明WWW  1993:第一个Web应用  1994:并行计算  1995:网络计算  2002:互联网发展  2005:移动互联网  2006:Google提出云计算  2008:云计算进入中国  2009:第四范式  2012:政府工作报告给出云计算定义 

 数据的产生目前呈现出了大众化、自动化、连续化、复杂化的趋势。大数据这一概念正是在这样的一个背景下出现的。这一时期的典型特征就是计算必须面向数据,数据是架构整个系统的核心要素。

2.1.4第四范式——大数据对科学研究的影响

吉姆格雷提出数据密集型科研第四范式

观测 实验——理论——计算 仿真——数据

2.1.5云计算与大数据的关系

云计算与大数据是一对相辅相成的概念,它们描述了面向数据时代信息技术的两个方面,云计算侧重于提供资源和应用的网络化交付方法,大数据侧重于应对巨大的数据量所带来的技术挑战。
云计算的核心是业务模式,其本质是数据处理技术。数据是资产,云计算为数据资产提供了存储、访问的场所和计算能力,即云计算更偏重大数据的存储和计算,以及提供云计算服务,运行云应用。但是云计算缺乏盘活数据资产的能力,从数据中挖掘价值和对数据进行预测性分析,为国家治理、企业决策乃至个人生活提供服务,这是大数据的核心作用。云计算是基础设施架构,大数据是思想方法,大数据技术将帮助人们从大体量、高度复杂的数据中分析、挖掘信息,从而发现价值和预测趋势。

2.2大数据的4V特征

大数据的显著特征:数据量大、数据产生速度快、数据类型复杂、价值密度低。

1.规模性(Volume):大数据需要采集、处理、传输的数据量大

2.多样性(Variety):大数据种类多、复杂性高

3.高速性(Velocity):大数据需要频繁地采集、处理并输出

4.价值密度低(Value):大数据不经过相应的处理则价值较低

2.3大数据的主要应用及行业推动力量

大数据研究的主要目标是以有效的信息技术手段和计算方法,获取、处理和分析各种行业的大数据,发现和提取数据的深度价值,为行业提供高附加值的应用和服务。

2.3.1大数据的主要应用

互联网企业、智能电网、车联网应用、医疗大数据、

2.3.2企业推动大数据行业发展

1.Google提供给用户的所有的软件都是在线的——互联网时代的巨擘

2.IBM:
 数据分析,文本分析
业务事件处理                                                                                                                                       IBM Mashup Center的计量,监测
 商业化服务(MMMS)

3.微软:大掌控,大智汇,大洞查

4.Oracle:从后端Hadoop、NoSQL到前端数据展现,提供网站的端到端的大数据解决方案         传统技能与新技术进行结合,利用Big Data SQL来提供SQL-on-Hadoop工具。

 5.EMC:美国枢纽和Nasdaq的大数据技术服务提供商

6.阿里巴巴:搭建数据的流通、收集、分享的底层架构

7.华为:整合高性能的计算和储存能力,为大叔觉得挖掘和分析提供稳定的IT基础设施平台

2.3.3我国政府推动大数据发展行业

2.4大数据的关键技术

1.大数据预处理技术

数据采集:(ETL)利用某种装置从系统外部采集数据并输入到系统内部的一个接口

2.数据存取:关系数据库,NpSQL,SQL

3.基础架构支持:云储存,分布式文件系统等

4.计算结果展现:云计算,标签云,关系图

2.大数据存储技术

存储基础设施应能持久和可靠地存储数据;                                                                                      提供可伸缩的访问接口供用户查询和分析海量数据;                                                                        对于结构化数据和非结构化的海量数据要能够提供高效的查询、统计、更新等操作。

3.大数据分析技术

1.数据处理 2.统计和分析 3.数据挖掘 4.模型预测

4.大数据计算技术

批计算处理:操作大容量,静态数据集

流处理计算:对岁时进入的数据进行计算,处理结果立刻可用。

2.5典型大数据计算架构

Hadoop、Spark、Storm

第三章  虚拟化技术
1.概念:模拟真正的计算机资源
2.对比
a未应用虚拟化技术:

b应用虚拟化技术:

虚拟化技术应用前后对比:

3.1.2虚拟化技术的分类:
1.网络虚拟化:将硬件与软件的网络设备资源整合为一个统一的,基于软件可管理的虚拟网络
两种常见:基于协议,基于虚拟设备
2.存储虚拟化:整合所有存储资源为一个存储池,无论有多少个存储设备,对外看到只有一个
两种方式:块虚拟化,文件虚拟化
3.服务器虚拟化:将操作系统和应用程序打包成虚拟机,让操作和应用具备良好的移动性

服务器虚拟化的两种类型:

4.全虚拟化:指虚拟机模拟了完整的底层硬件,即模拟了一台真实的计算机硬件设备
半虚拟化:由于全虚拟化在执行有写权限操作时由于执行时间过长不能满足需求而出现
硬件辅助虚拟化:提高虚拟机运行效率,是虚拟可以在快速的执行特权指令,减少过多的上下文切换与模拟
5.操作系统虚拟化:统一操作系统上,同时运行单个或独立的用户,他们都有自己的运行空间
6.服务虚拟化:通过虚拟化提供相应的服务。如:防火墙等
7.桌面虚拟化:将计算机终端系统进行虚拟化,达到桌面使用的安全性和灵活性
7.应用虚拟化:同一个应用可以在不同的CPU体系架构、不同的操作系统上正常的运行
8.用户体验虚拟化:在不同设备中,用户算看到的内容或界面都是一样的
3.1.3虚拟化技术的优势与劣势
1.优势:
1)减少物理资源的投入,节约成本
2)虚拟数据资源迁移方便
3)提高物理资源的使用率
4)更加环保,节省能源
5)易于自动化维护与操作,减少维护成本
6)数据安全更有保障
2.劣势:
1)目前没有统一的虚拟化技术标准与平台,没有开放的协议
2)如果数据没有备份,应用虚拟化技术会存在一定的风险
3)虚拟数据的中心迁移,特别是在线服务的迁移,对用户影响巨大
3.1.4虚拟化技术与云计算
虚拟化技术是云计算的重要支撑技术
3.2虚拟化技术原理
3.2.1原理
虚拟机是指同各国软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统
虚拟机技术核心:虚拟机监视器(VMM)
3.2.2CPU虚拟化原理
为了润许让多个虚拟机可以同时运行在VMM中
3.2.3内存虚拟化原理
让每个虚拟机可以共享物理的内存,VMM可以动态分配与管理这些物理内存,保证每个虚拟机都有自己的独立空间
虚拟地址:客户虚拟机应用程序所使用的地址
物理地址:由VMM提供的物理地址
机器地址:正式的物理内存地址
3.2.4网络虚拟化原理
实现设备与设备之间的与物理连接没有关系的虚拟化链接
.3常见虚拟化技术解决方案
3.3.1OpenStack
3.3.2KVM:基于内核的虚拟机
3.3.3Hyper-V
3.3.4VMware
3.3.5Xen
1)内核非常小,接口也少
2)支持各种各样的操作系统
3)旭东隔离
4)半虚拟化
3.3.6Docker

虚拟机框架:

第四章数据中心
4.1数据中心的概念:数据中心是全球协作的特定设备网络,用来在Internet这一网络基础设施上传递、加速、展示、计算、存储数据信息
目的:运行应用来处理商业和运作的组织的数据
4.1.1数据中心定义:Google定义:多功能的建筑物,能容纳多个服务器以及通信设备,这些设备被放置在一起是因为它们具有相同的对环境的要求以及物理安全上的需求,并且这样放置便于维护,而并不仅仅是一些服务器的集合
        软件定义:为云计算而生
作用:提供给用户综合全面的解决方案,为政府上网、企业上网、企业IT管理提高专业服务
分类:1.企业数据中心:通过实现统一的数据定义与命名规范、集中的数据环境,从而达到数据共享与利用的最终
          2.互联网数据中心:加强互联网数据的处理速度和效果。互联网数据中心为互联网内容提供商、企业、媒体以及各类网站提供了大规模、高质量、安全可靠的专业化服务器托管、空间租用、网络带宽等服务
4.1.2数据中心发展历程
1.巨型机时代
1)大型机ENIAC——数据中心的鼻祖
2)IB7070第一台晶体管计算机
2.微型计算机/PC时代
3.互联网时代
4.云计算、大数据时代
4.1.3主句中心的组成及建设原则
1.组成:
1)基础设施:机房、装修、供电(强电和UPS)、散热、布线、安防等设施。
2)硬件设施:机柜、服务器、网络设备、网络安全设备、存储设备、灾备设备等。
3)基础软件:操作系统、数据库软件、防病毒软件等。
4)管理支撑软件:机房管理软件、集群管理软件、云平台软件、虚拟化软件等。
2.数据中心建设原则:
内容:数据资源建设、数据服务系统建设等
原则:
1)规范化
2)网络化
3)安全性
4)实用性
5)可扩展性
4.1.4云计算大数据时代的数据中心发展趋势
1)规模化:大型数据中心更受市场青睐
2)虚拟化:传统数据中心将开展资源云端迁移
3)绿色化:传统数据中心将绿色数据中心转变
4)集中化:传统数据中心将步入整合缩减阶段
5)低成本:数据的价值凸显并且成本更低
4.2数据中心的基本单元——服务器
服务器:指运行操作系统、数据库系统、Web系统等软件系统,为网络上其他终端提供服务的硬件设备
1.按机箱结构和外形分类
1)塔式服务器
2)机架式服务器
2.按结点密度分类
单台服务器内置的主板数目,一个为单结点服务器,两个为双结点服务器
3.按支持的CPU数量分类
只支持一颗CPU的服务器称为单路服务器;支持两颗CPU的服务器称为双路服务器;支持四颗CPU的服务器称为四路服务器;双路及以上的服务器统称为多路服务器
4.按功能分类
1)文件服务器是以文件数据共享为目标
特点:共多台计算机共享的文件存放于一台计算机
2)数据可服务器
安装了不同数据库软件,提供不同的数据库服务的服务器
3)邮件服务器
提供邮件功能
4)WEB服务器
提供WEB网页服务
5)DNS服务器
提供域名服务的服务器
4.3数据中心的选址
地质环境:比较稳定、地震、沉降等自然灾害较少的地区,减少自然灾害等不可抗力对数据中心运行的影响效率
气候条件:气候条件对于数据中心的建设、运行成本有直接影响,建设在寒冷地区的数据中心与建设在炎热地区的数据中心相比,用于制冷的电电力成本大幅降低,同时其制冷系统的建设级别和造价相对较低。
电力供给:数据中心是电力消耗的大户,选址时必须考虑当地的电力供给能力
网络宽带:网络宽带是数据中心为用户提供服务的核心资源,需要选择网络宽带条件好的骨干网结点城市
水源条件:考虑当地水资源供给情况
人力资源:选择在能够提供必要的数据中心建设、维护、运营等人力的地区
4.4数据中心的能耗
数据中心级:从较为宏观的数据中心级别来看,制冷系统所消耗的能源占数据中心总体能耗的比重较大,制冷系统的规划和性能对于数据中心整体能耗的影响很大。
结点级:结点级的能耗控制主要在于根据结点的负载状况动态调整处于工作状态的结点数量。
 器件级:CPU、内存、硬盘等器件的能耗主要通过调整工作电压和频率的方式来控制。
4.4.1数据中心能耗评估
1.PUE
PUE=数据中心整体能耗/IT设备能耗
IT设备能耗为数据中心计算,存储,网络核心设备的总能耗
数据中心整体能耗为IT设备能耗,制冷设备能耗,电源能耗,控制仪表等设备的能耗总和
PUE的值越小,则数据中心计算存储等核心设备的能耗比例越大,数据中心能源效率越高
2.DCIE
DCIE=IT设备每秒的数据处理流量/IT设备能耗
IT设备指,服务器,存储设备等
IT设备的能效比越高IT设备每消耗单位电能所能处理、存储和交换的数据量越大;执行相同的计算、存储、通信任务IT设备的能效比越高消耗的能量就越低,设备与周围环境的热交换就越少,这样可以降低数据中心UPS和空调系统的设计容量,进一步降低数据中心的能耗,提高数据中心的能效。
4.4.2数据中心的主要节能措施
1.服务器的虚拟化
2.采用现代化冷却系统
3.重组数据中心
4.升级数据存储器
5.升级变压器
6.将服务器芯片更新为低电力产品
7.开展软件审核
8.提高冷却温度

 

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>