计算机三级数据库数据仓库与数据挖掘(一)、快照方式、元数据、数据仓库中数据特征、机器学习、聚类方法、分类算法、决策支持系统、表数据的粒度级、分布式数据库、

1.在建立数据仓库的数据集成工作中,需要采用适当的策略从数据源获取变化数据。下列数据表中,一般情况下不适宜采用快照方式从业务系统获取数据的是
A、门店表、销售人员表
B、商品清单、商品类别表
C、顾客表、商品类别表
D、商场商品销售表、电信公司通话详单
参考答案为D

解析:快照是关于指定数据集合的一个完全可用拷贝,该拷贝包括相应数据在某个时间点(拷贝开始的时间点)的映像。快照可以是其所表示的数据的一个副本,也可以是数据的一个复制品。它反映的是某个时间点内的数据,该数据具有不可以改变性。而商场商品销售表、电信公司通话详单属于动态数据,不适合用快照的方式获取数据。故答案为D。

2.设有某通信公司的业务支撑系统,该系统中存在如下各种数据或文档
I.通话详单
II.短信数据
III.系统ER图及说明文档
IV.物理平台的数据字典及其说明文档
V.用户名单
VI.用户每月费用支出分类汇总数据
VII.用户缴费记录
以上各类数据,属于元数据的是
A、仅III和IIV
B、仅I、II和V
C、仅III、IV、V和VII
D、仅IV、VI和VII
参考答案为A

解析:元数据是关于数据的数据,或者叫做描述数据的数据,它描述了数据的结构、内容、链和索引等项的内容。题干中只有III和IV符合定义,其余的内容都是用户数据。故答案为A。

3.数据仓库是服务于企业决策支持的数据集合。下列选项中,一般情况下不属于数据仓库中数据特征的是
A、集成的
B、面向主题
C、可修改
D、随时间变化
参考答案为C

解析:数据仓库中数据特征包括面向主题性,集成性,不可更新性,时间特性。故答案为C。

4.在机器学习概念中,有监督学习、无监督学习和强化学习三大类典型方法。下列学习任务属于无监督学习的是
A、将未知类别的一组数据,采用聚类方法,分成不同的组
B、根据样本数据,采用分类算法,训练分类器
C、根据样本数据,进行回归分析
D、机器人在动态环境中,自主学习掌握行走方法
参考答案为A

解析:聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法等。在机器学习中,聚类称作无监督(或无教师)归纳。与分类相比,分类的例子或数据对象均有类别标记,而聚类的例子则没有标记,需要由聚类算法来自动确定。聚类的核心就是将一个数据集中的数据进行分组,使得每一组内的数据尽可能的相似而不同组间的数据尽可能不同。故答案为A。

5.设有某大型连锁商场,建立有面向基础业务的数据库应用系统和面向决策支持的数据仓库系统,数鹚仓库系统每天夜间需要从敛据库应用系约的数据库导入新效据。在下列数張表中.最不运合采用快照方式从数据库应用系统获取数据的是
A、各商场员工表
B、各商品销售明细表
C、商品表和商品类别表
D、各商场收银点信息表
参考答案为B

解析:快照(Snapshot、是指定数据集合的一个完全可用拷贝,该拷贝包括相应数据在某个时间点(拷贝开始的时间点)的映像。快照可以是其所表示的数据的一个副本,也可以是数据的一个复制品,适合更新变化量少的数据。各商品销售明细表是属于一个动态信息表,每个时刻的信息都不一样,因此各商品销售明细表不适合用快照方式更新。故答案为B。

6.分类算法服务于数据挖掘或机器学习中分类任务,下列算法中不属于分类算法的是
A、BP神经网络算法
B、K-means算法
C、决策树算法
D、SVM算法
参考答案为B

解析: 分类器的构造方法有统计方法、机器学习方法、神经网络方法等。统计方法包括贝叶斯法和非参数法;机器学习方法包括决策树法和规则归纳法;神经网络方法主要是BP算法。K-means属于聚类算法。故答案为B。

7.关于数据仓库、数据挖掘、决策支持系统和机器学习的相关概念或说法,下列说法一般情况下错误的是
A、数据挖掘一般是指数据分析师根据个人经验针对细节数据进行分析总结,挖掘出有用的知识的过程
B、数据仓库是服务于决策支持的数据集合
C、决策支持系统是指辅助需要决策的人或系统进行决策的系统
D、机器学习是指机器采用一些方法或模型从数据中习得知识的过程
参考答案为A

解析:数据挖掘可以简单地理解为从大量数据中提取或挖掘知识,是数据库知识发现的一个步骤。故答案为A。

8.设有某移动通信公司的业务支撑数据库应用系统,该系统中存在如下各种数据或文档
I.用户通话详单表
II.用户短信详单表
III.用户业务变更登记表
IV.物理平台的数据字典及其文档
V.用户清单表
VI.系统ERD及说明文档
VII.用户每月通信汇总表
以上各种数据中,属于元数据的是
A、仅IV和VI
B、仅III、V和VI
C、仅IV、VI和VII
D、仅I、II和V
参考答案为A

解析:元数据是关于数据的数据,或者叫做描述数据的数据,它描述了数据的结构、内容、链和索引等项的内容。题干中只有IV和VI符合定义,其余的内容都是用户数据。故答案为A。

9.设某大型电子商务平台有如下数据表:
表1 (商铺ID,顾客ID,商品ID,商品名称,数量,价格,金额,销售日期,销售时间)
表2(商铺ID,商品ID,商品名称,日销售量,销售总金额,销售日期)
表3(商铺ID,商品类别,日销售量,销售总金额,销售日期)
表4(商铺ID,商品类别,周销售量,销售总金额,周ID)
则各表数据的粒度级从低到高排列,正确的是
A、表4,表3,表2,表1
B、表2,表4,表3,表1
C、表1,表3,表4,表2
D、表1,表2,表3,表4
参考答案为D

解析:粒度高的数据是由粒度低的数据综合而成的。
表4中的周销售量由表3中的日销售量综合而成,表3中的商品类别由表2中的商品名称综合而成,表2中的销售总金额由表1中的数量和价格等综合而成,故答案为D。

10.ETL工具是指从OLTP系统或其他数据环境中抽取数据的工具。在实践中,人们采用ETL工具从OLTP系统抽取出数据再进行分析利用,而不是在0LTP系统中直接进行数据分析利用的最主要原因是
A、解决企业中的数据孤岛问题
B、解决企业中的数据共享问题
C、解决分析型应用程序与OLTP应用程序之间的性能冲突问题
D、解决蜘蛛网式的企业信息系统架构带来的各种问题
参考答案为C

解析:数据集成是将源自不同数据源的数据经过抽取、转换、清理、装载等操作载入数据仓库的过程,是实施数据仓库的重要步骤。由于对大量的原始数据要加以提炼,要减轻分析工作给处理业务数据的服务器带来的压力,要规范各源数据,以及要处理那些难以直接使用的数据,数据集成在数据仓库设计中是必不可少的一环,ETL是实现数据集成的主要技术。
故答案为C。

11.下列关于企业数据仓库环境中数据特点的说法,错误的是
A、数据可用性要求相比OLTP环境较为宽松
B、数据按面向决策支持应用主题的方法进行组织
C、数据经常以批量方式访问
D、数据可以直接修改
参考答案为D

解析:本题考查的知识点是: 数据仓库
数据仓库四个特点:
1、主题性:从实际需求出发,具有较高的抽象性,数据可用性比OLTP较为宽松。
2、集成性:需要将数据抽取、转换、清理、装载。
3、稳定性:是面向决策支持应用主题的,数据进入数据仓库后不允许修改。
4、动态性:数据需要定期更新。
故答案为D。

12.在数据仓库设计中,数据的粒度级设计是一个重要的问题。在粒度级设计中,设有下列考虑因素:
I.用户查询所涉及数据的最低细节程度
II.高粒度数据所需的存储空间
III.用户查询的平均性能需求
IV.系统的可用存储空间
V.低粒度级数据的规模
VI.用户查询所涉及的数据的最高粒度级
在以上因素中,属于次要或不需要考虑的因素是
A、仅II和VI
B、仅IV和V
C、仅I和VI
D、仅I和III
参考答案为A

解析:本题考查的知识点是: 粒度
粒度越大,综合程度越高;粒度越小,综合程度越低。
粒度影响数据仓库的数据量以及系统能回答的查询的类型。粒度越小,细节程度越高,能回答的查询就越多。但是,因为需要存储低粒度级的细节数据,数据量就比较大,空间代价也大。
故答案为A。

13.在分布式数据库中需要对数据按照一定的方法进行分片。下列关于分片的说法,正确的是
A、进行水平分片以后,极端情况下有一个分片包含关系的主键即可
B、进行水平分片以后,每个分片不一定需要包含关系的全部属性,但至少应该包含关系的主键
C、进行垂直分片以后,关系的每个属性只能属于一个分片
D、进行垂直分片以后,每个分片都必须包含关系的主键
参考答案为D

解析:水平分片是在关系中从行的角度(元组)依据一定条件划分为不同的片断,关系中的每一行必须至少属于一个片断,以便在需要时可以重构关系。
垂直分片是在关系中从列的角度(属性)依据一定条件分为不同的片断,各片断中应该包含关系的主码属性,以便通过连接方法恢复关系。
由以上定义可知,垂直分片后,每个分片都包含主键,所以D正确。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>