dama cdgp考试
说明
数据治理大行其道,考个dama证书。
官网
https://www.mydama.org.cn/train/cdga/
考哪个证书?
dama证书分为cdga数据治理工程师和
cdgp数据治理专家。
其中,cdgp数据治理专家需要考取cdga数据治理工程师后考取。
怎么参加?
小程序报名参加
#小程序://DAMA认证/0R5n1cbRDmalPwF
费用
当前cdga 1000,cdgp 2000.
考什么?
考试教材为《DAMA数据管理知识体系指南(原书第二版)》。上一问题中所述认证费用不包含此教材,需自行购买。协会不销售书籍,考生可在机械工业出版社京东自营店购买。购书链接:
https://item.m.jd.com/product/12665019.html
怎么算合格?
数据治理工程师(简称CDGP )认证考试满分为100分,60分及格,笔试合格且提交的材料通过审查者,授予数据治理工程师证书。
怎么备考?
- 参加培训
- 自学
本人的话,在职考宝典小程序上刷题+拼多多30左右买的资料刷,刷了两星期左右。
具体考试内容
大纲
具体情况技巧
1.看教材。(重要的事强调三遍:一定要多看书!多看书!多看书!)
根据上面提供的CDGP考点分布去看书(不考的地方可以略过哦!)。针对选择题的章节,一定要看的非常细,并且理解相关概念;论述题的章节,多关注语境图(活动、驱动因素、目标等);第五章只会考建模题,多看看课本上的例子或从实际项目中学习和理解,记得动动你的发财小手画一画。
2.选择题(单选10题+多选15题)
这部分对于考试是否能通过非常关键,特别是多选题,相当有难度。它设计知识领域的细节,需要自己记忆并理解。还有一小部分是关于业务前沿概念的。比如数据交易、Data Fabric等,需要平时有一定的涉猎和应用才行。
3.设计题(1-2题)
第五章数据建模必考,主要考察逻辑建模,即信息工程法(鸭掌模型),包括实体、关系、属性等。一般实体的数量都会超过20个,考试时尽量多写点,同时注意每个实体标明外键FK、主键PK。可以找些互联网的热点场景练练。
第十一章数据仓库偶尔也会出设计题,主要考察数据仓库架构图,重点掌握如下图:
其他如CIF和数仓棋子图也需要达到能够默写的程度。
4.论述题(4-5题)
数据安全、参考数据和主数据、元数据管理、数据质量每章节必出一个大题,数据仓库和商务智能也有可能会出论述题。重点关注驱动因素(原因)、目标、活动步骤、度量指标等。需要结合项目实际情况才能拿高分,没有相关经验的可以结合教材内容作答。另外,可能还会有几小问是教材以外的内容。这就要看平时积累了,考试时尽量写别空着,万一就差这几分呢?!阅卷老师会酌情给分的。
5.超纲部分(约10-15分左右)
数据交易、数据二十条、开源大数据组件(Atlas)、ChatGPT、常见NoSQL 数据库、DCMM、机器学习算法英文、Data Fabric、数据中台、数据湖、数据安全国内外相关法律法规、数据安全分类分级、OLAP和OLTP、主动元数据管理、SCD问题等都有考过,需要关注下数据相关实事热点、扩宽知识面。
考试情况
什么时候出结果
大概3周左右时间。
考试结果
74分,顺利过关。
dama日记
- 2024-06-03 开始刷题
- 2024-06-23 完整考完
- 7.10号知道结果。
参考文章
个人备份文件同步软件大全
说明
心血来潮,决定考个软考证书。
考哪个证书?
参考官网,要考考的自然是高级资格中的系统架构设计师。
怎么参加?
官网中有考试入口
https://bm.ruankao.org.cn/sign/welcome
具体的,本人为浙江的,自然选浙江的。
后面的考试地点等,官网中也都有,本人现在只到报名,后续更新。
考什么?
架构师考试科目有三门:综合知识、案例分析、论文。
(1) 综合知识, 75道选择题,共75分,有些不是教材上的知识。每年都有相似的题型,大家可以去刷真题。
(2) 案例分析, 简答题和填空题,是1题必选,另外4题中选做两题,总共需要做3个案例,每个案例2~3小题,基本为问答题和填空题,重点考察大家对知识的理解和应用能力。
(3) 论文,论文命题四选一,你可以在四个论文题目中选一个你最有把握的一个题目。论文要求在两个小时内,写一篇20002500字的论文,估算一下,两个小时120分钟,除去审题,构思,写作时间可能只有100分钟,每分钟需要写2025个字,每2~3秒写一个字,你可以感受一下。
怎么算合格?
三门考试满分都是75分,合格分数线是45分,没门都需达到45分,单门不带入下一次考试。
考试书籍
考试的书籍则为系统架构师设计教程,有大纲,教程,辅助书籍。
怎么备考?
本人计划直接刷真题,结合题目看下书籍内容
刷题网站程序:51CTO题库。
2024-05-18更新
刷题里面没找到论文和案例解析,有个git项目 system_architect,里面有相关资料,20元,买了
2024-05-20 更新
买了30天过和论文赏析,25号考试,决定还是拼一把
一些踩坑记录
- 注册账号时需要填写身份证的开始日期和有效期限,所以还是需要身份证在手或招聘的。
- 需要白底的一寸照,如果你没有白底的,那么需要拍摄一张。
- 51 cto等课程资料太贵,可以上git搜索。
参考
软考日记
2024-05-18
离考试只剩几天了,论文还没准备
dama cdga考试
说明
数据治理大行其道,考个dama证书。
官网
https://www.mydama.org.cn/train/cdga/
考哪个证书?
dama证书分为cdga数据治理工程师和
cdgp数据治理专家。
其中,cdgp数据治理专家需要考取cdga数据治理工程师后考取。
怎么参加?
小程序报名参加
#小程序://DAMA认证/0R5n1cbRDmalPwF
费用
当前cdga 1000,cdgp 2000.
考什么?
考试教材为《DAMA数据管理知识体系指南(原书第二版)》。上一问题中所述认证费用不包含此教材,需自行购买。协会不销售书籍,考生可在机械工业出版社京东自营店购买。购书链接:
https://item.m.jd.com/product/12665019.html
怎么算合格?
数据治理工程师(简称CDGA )认证考试满分为100分,60分及格,笔试合格且提交的材料通过审查者,授予数据治理工程师证书。
怎么备考?
- 参加培训
- 自学
本人的话,在职考宝典小程序上刷题+拼多多30左右买的资料刷,刷了两星期左右。
考试情况
6.23下午去考试了,一共100题,个人有把握对的46题,过不过55开。。。比预想的难一点。
怎么说呢,纯看资料,知道的就过,不知道的就不过。
当天考试下雨,考试地点在下沙财经学院,里面能停车,本人不知道,停在外面了。
什么时候出结果
大概3周左右时间。
考试结果
74分,顺利过关。
dama日记
- 2024-06-03 开始刷题
- 2024-06-23 完整考完
- 7.10号知道结果。
hive 使用mysql 外表
目标
使用hive或spark时可以直接使用mysql的数据,免去同步的烦恼。
方案
在hive值有JDBC storeage handler,可以直接使用,具体参考 JDBC Storage Handler
环境准备
需要两个jar包,本人为
- mysql-connector-java-8.0.16.jar
- /hive-jdbc-handler-3.1.3.jar
将该表上传至spark,本人为 spark.yarn.jars
配置的hdfs目录
基础语法
1 | CREATE EXTERNAL TABLE student_jdbc |
修改属性
1 | ALTER TABLE student_jdbc SET TBLPROPERTIES ("hive.sql.dbcp.password" = "passwd"); |
参考
inmon和kimball数仓区别
引言
在数据仓库领域,有两本巨著如雷贯耳《数据仓库》和《数仓工具箱》,影响了进20年商业智能的数仓发展,这两本巨著分别出自“数据仓库”之父 Bill Inmon和数据仓库权威专家 Ralph Kimball,所采用的建模方法也分别为范式建模和维度建模。
虽然两本巨著都是经典,但是当我们去阅读时,想必是一脸懵逼的,同时问下自己:两套数仓建设体系的核心区别是什么?反正我是答不上来。为了梳理区别,本人重新翻阅了这两本书,以及网上一些相关资料,尝试以自己的理解来回答。
inmon和kimball的区别
架构区别
Kimball 建模的流程为:从需求到模型,从模型到数据。从上到下的一个过程,也叫数据集市总线架构( Data Mart Bus Architecture )或者数据仓库总线架构 (DataWarehouse Bus Architecture)。
在大型BI项目中,数仓通常也会采用Inmon 的建模方式,从数据到模型再到需求,这样的自下往上的建设路线。也有叫集线器架构 (Huband Spoke) 或者企业信息工程架构 (CIF:CorporateInformation Factory)。
两者的架构区别如数仓建模——Inmon与Kimball的融合建模方法论一文中下图所示:
模型区别
inmon ER模型
在Inmon的ER模型中,将模型分为三个层次:高层模型(称为实体关系,或ERD),中间层建模(称为数据项集或DIS),底层建模(称为物理模型)。
高层模型以实体和关系为特征,实体处于最高抽象层,由集成范围
这个术语表示的内容决定哪些实体术语模型范围而哪些不属于。我的理解,这些的高层模型的实体,就类似于主题域的划分,只不过多了关系。
中间模型为高层模型的主题扩展,简单来说,就是将高层模型中的实体和关系,进一步细化,即类似于使用具体的表的ER管理来表示高层模型中的单一主题。
中层模型中使用主要数据分组,二级数据分组,连接器,数据的“类型”来表示模型。
物理模型就是物理表,重中间层数据模型创建而来,通过扩展中间模型,使得模型中包含有关键字和物理特性,主要是从性能优化系数等角度,如数据粒度、分区,饭规范化冗余、访问数据频率(热点数据)分离等。
至此,Inmon的建模方法就介绍完毕了,所谓的ER,其实值的是在高层的主题域模型和中层的ER模型时对于关系抽象的方式,采用ER进行思考,其实在最终的物理层面,ER模型展现出来的效果和雪花是类似的,而且inmon的模型也是包含反规范化操作的,所以在个别场景下最终呈现也会和星型模型类似。
kimball维度模型
说完了inmon的模型,再来说下kimball的维度建模,在kimball模型中,针对模型的讲解是分散的,个人认为,kimball的模型即以维度表和事实表为抽象,一致性维度设计和使用为核心,以星型模型为具体实现,通过收集业务需求,设计总线矩阵来确保一致性维度,最后通过选择业务过程、申明粒度、确认维度、确认事实来进行模型的创建。
总结
inmonER建模和kimball的维度建模,从最终的模型表上看,两者是差不多的,这也是为什么从网上搜索,虽然区别说了一大堆,但是在举例的时候,看着都差不多没有区别,一定要说区别的话,可能就是强行让ER建模不进行维度退化饭规范化操作。
两者区别主要是理念和过程的不同,就像从需求到达终点,两位大师做了两种不同的交通工具和路线,但是结果是类似的,最终殊途同归。
首先,inmon的ER建模是从数据到需求,即你需要先行了解当前的业务系统有什么数据,是怎么使用,然后将数据通过主题域进行分类,最后将分类后的数据进行整合,形成数据仓库;而kimball的维度建模是从需求到数据,即你需要先了解当前的业务系统有什么需求,然后将需求进行分类,通过总线矩阵进行整合,形成数据仓库。
在现实中,你很难说你的数仓是纯粹的inmonER建模或kimball的维度建模,一般为两者模型的融合,即都使用了。在业务分析和模型设计时,采用的总线矩阵和事实维度;在模型关系表达和主题域划分时,则是展现了inmon的ER模型思想。
其他知识
数仓架构有几种?
在哪种数据仓库架构最成功? Bill Inmon 或 Ralph Kimball ?一文中,提到了如下调查
2005年,Thilini Ariyachandra 与Hugh Watson针对DW架构做了一个深入的调查,调查题目为“哪种数据仓库最成功?”,受访者由454位曾在各种不同规模的企业(绝大多数是美国企业)中参与了DW规划与实施的人员组成,受访者根据DW应用实际情况及经验体会做出回答。
为了合理设计调查问卷,在调查问卷中合理设置调查对象(参与调查的DW架构)和评判标准(影响DW架构选择的因素及判断DW架构成功的因素等)等内容,Watson和Ariyachandra邀请了20位专家组成专家组设计调查问卷及判断标准等,这20位专家包括了DW领域的两位先驱——赫赫有名的Bill Inmon和Ralph Kimball。因此我们可以认为这份调查的结果是权威可信的。
在这份调查中,列举的5个数仓架构如下图所示:
即
- Independent data marts architecture
- data mart bus architecture with dimensional data marts
- hub and spoke architecture(corporate information factory)
- centralized data warehouse architecture
- federated architecture
结语
无
参考资料
- building-the-data-warehouse-in-microsoft-sql-server-2005
- The Data Warehouse Toolkit: The Definitive Guide to DSS 2005
- 深入对比数据仓库模式:Kimball vs Inmon
- 通俗易懂数仓建模—Inmon 范式建模与 Kimball 维度建模
- 数据仓库 Inmon与Kimball数仓理论对比
- 哪种数据仓库架构最成功? Bill Inmon 或 Ralph Kimball ?
- 数仓建模——Inmon与Kimball的融合建模方法论