0%

前言

今天是2024年4月26日,宋城与昨晚出了2023年的年报以及2024年一季报,其中,一季报业绩可以说是相当炸裂,

说明

数据治理大行其道,考个dama证书。

官网

https://www.mydama.org.cn/train/cdga/

考哪个证书?


dama证书分为cdga数据治理工程师和
cdgp数据治理专家。
其中,cdgp数据治理专家需要考取cdga数据治理工程师后考取。

怎么参加?

小程序报名参加
#小程序://DAMA认证/0R5n1cbRDmalPwF

费用

当前cdga 1000,cdgp 2000.

考什么?

考试教材为《DAMA数据管理知识体系指南(原书第二版)》。上一问题中所述认证费用不包含此教材,需自行购买。协会不销售书籍,考生可在机械工业出版社京东自营店购买。购书链接:

https://item.m.jd.com/product/12665019.html

怎么算合格?

数据治理工程师(简称CDGP )认证考试满分为100分,60分及格,笔试合格且提交的材料通过审查者,授予数据治理工程师证书。

怎么备考?

  1. 参加培训
  2. 自学

本人的话,在职考宝典小程序上刷题+拼多多30左右买的资料刷,刷了两星期左右。

具体考试内容

大纲

alt text

具体情况技巧

1.看教材。(重要的事强调三遍:一定要多看书!多看书!多看书!)

根据上面提供的CDGP考点分布去看书(不考的地方可以略过哦!)。针对选择题的章节,一定要看的非常细,并且理解相关概念;论述题的章节,多关注语境图(活动、驱动因素、目标等);第五章只会考建模题,多看看课本上的例子或从实际项目中学习和理解,记得动动你的发财小手画一画。

2.选择题(单选10题+多选15题)

这部分对于考试是否能通过非常关键,特别是多选题,相当有难度。它设计知识领域的细节,需要自己记忆并理解。还有一小部分是关于业务前沿概念的。比如数据交易、Data Fabric等,需要平时有一定的涉猎和应用才行。

3.设计题(1-2题)

第五章数据建模必考,主要考察逻辑建模,即信息工程法(鸭掌模型),包括实体、关系、属性等。一般实体的数量都会超过20个,考试时尽量多写点,同时注意每个实体标明外键FK、主键PK。可以找些互联网的热点场景练练。

第十一章数据仓库偶尔也会出设计题,主要考察数据仓库架构图,重点掌握如下图:
alt text

其他如CIF和数仓棋子图也需要达到能够默写的程度。

4.论述题(4-5题)

数据安全、参考数据和主数据、元数据管理、数据质量每章节必出一个大题,数据仓库和商务智能也有可能会出论述题。重点关注驱动因素(原因)、目标、活动步骤、度量指标等。需要结合项目实际情况才能拿高分,没有相关经验的可以结合教材内容作答。另外,可能还会有几小问是教材以外的内容。这就要看平时积累了,考试时尽量写别空着,万一就差这几分呢?!阅卷老师会酌情给分的。

5.超纲部分(约10-15分左右)

数据交易、数据二十条、开源大数据组件(Atlas)、ChatGPT、常见NoSQL 数据库、DCMM、机器学习算法英文、Data Fabric、数据中台、数据湖、数据安全国内外相关法律法规、数据安全分类分级、OLAP和OLTP、主动元数据管理、SCD问题等都有考过,需要关注下数据相关实事热点、扩宽知识面。

考试情况

什么时候出结果

大概3周左右时间。

考试结果

74分,顺利过关。

dama日记

  1. 2024-06-03 开始刷题
  2. 2024-06-23 完整考完
  3. 7.10号知道结果。

参考文章

说明

心血来潮,决定考个软考证书。

考哪个证书?


参考官网,要考考的自然是高级资格中的系统架构设计师。

怎么参加?

官网中有考试入口

https://bm.ruankao.org.cn/sign/welcome
具体的,本人为浙江的,自然选浙江的。

后面的考试地点等,官网中也都有,本人现在只到报名,后续更新。

考什么?

架构师考试科目有三门:综合知识、案例分析、论文。

(1) 综合知识, 75道选择题,共75分,有些不是教材上的知识。每年都有相似的题型,大家可以去刷真题。

(2) 案例分析, 简答题和填空题,是1题必选,另外4题中选做两题,总共需要做3个案例,每个案例2~3小题,基本为问答题和填空题,重点考察大家对知识的理解和应用能力。

(3) 论文,论文命题四选一,你可以在四个论文题目中选一个你最有把握的一个题目。论文要求在两个小时内,写一篇20002500字的论文,估算一下,两个小时120分钟,除去审题,构思,写作时间可能只有100分钟,每分钟需要写2025个字,每2~3秒写一个字,你可以感受一下。

怎么算合格?

三门考试满分都是75分,合格分数线是45分,没门都需达到45分,单门不带入下一次考试。

考试书籍

考试的书籍则为系统架构师设计教程,有大纲,教程,辅助书籍。

怎么备考?

本人计划直接刷真题,结合题目看下书籍内容

刷题网站程序:51CTO题库。

2024-05-18更新
刷题里面没找到论文和案例解析,有个git项目 system_architect,里面有相关资料,20元,买了
2024-05-20 更新
买了30天过和论文赏析,25号考试,决定还是拼一把

一些踩坑记录

  1. 注册账号时需要填写身份证的开始日期和有效期限,所以还是需要身份证在手或招聘的。
  2. 需要白底的一寸照,如果你没有白底的,那么需要拍摄一张。
  3. 51 cto等课程资料太贵,可以上git搜索。

参考

软考官网
软考之系统架构师考试经验分享—一篇懂所有

软考日记

2024-05-18

离考试只剩几天了,论文还没准备

说明

数据治理大行其道,考个dama证书。

官网

https://www.mydama.org.cn/train/cdga/

考哪个证书?


dama证书分为cdga数据治理工程师和
cdgp数据治理专家。
其中,cdgp数据治理专家需要考取cdga数据治理工程师后考取。

怎么参加?

小程序报名参加
#小程序://DAMA认证/0R5n1cbRDmalPwF

费用

当前cdga 1000,cdgp 2000.

考什么?

考试教材为《DAMA数据管理知识体系指南(原书第二版)》。上一问题中所述认证费用不包含此教材,需自行购买。协会不销售书籍,考生可在机械工业出版社京东自营店购买。购书链接:

https://item.m.jd.com/product/12665019.html

怎么算合格?

数据治理工程师(简称CDGA )认证考试满分为100分,60分及格,笔试合格且提交的材料通过审查者,授予数据治理工程师证书。

怎么备考?

  1. 参加培训
  2. 自学

本人的话,在职考宝典小程序上刷题+拼多多30左右买的资料刷,刷了两星期左右。

考试情况

6.23下午去考试了,一共100题,个人有把握对的46题,过不过55开。。。比预想的难一点。
怎么说呢,纯看资料,知道的就过,不知道的就不过。

当天考试下雨,考试地点在下沙财经学院,里面能停车,本人不知道,停在外面了。

什么时候出结果

大概3周左右时间。

考试结果

74分,顺利过关。

dama日记

  1. 2024-06-03 开始刷题
  2. 2024-06-23 完整考完
  3. 7.10号知道结果。

目标

使用hive或spark时可以直接使用mysql的数据,免去同步的烦恼。

方案

在hive值有JDBC storeage handler,可以直接使用,具体参考 JDBC Storage Handler

环境准备

需要两个jar包,本人为

  • mysql-connector-java-8.0.16.jar
  • /hive-jdbc-handler-3.1.3.jar

将该表上传至spark,本人为 spark.yarn.jars配置的hdfs目录

基础语法

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
CREATE EXTERNAL TABLE student_jdbc
(
name string,
age int,
gpa double
)
STORED BY 'org.apache.hive.storage.jdbc.JdbcStorageHandler'
TBLPROPERTIES (
"hive.sql.database.type" = "MYSQL",
"hive.sql.jdbc.driver" = "com.mysql.jdbc.Driver",
"hive.sql.jdbc.url" = "jdbc:mysql://localhost/sample",
"hive.sql.dbcp.username" = "hive",
"hive.sql.dbcp.password" = "hive",
"hive.sql.table" = "STUDENT",
"hive.sql.dbcp.maxActive" = "1"
);

修改属性

1
ALTER TABLE student_jdbc SET TBLPROPERTIES ("hive.sql.dbcp.password" = "passwd");

参考

JDBC Storage Handler

房开主题

产品
成本
工程
客关
营销
运营
战投
招采
财务
量化考核
人力
架构

商业主题

长租
公众号
酒店
零售
运营
写字楼
专业市场

物业主题

经营管控
物业财务
社商经营
市场投拓
多种经营
存量物业
人资

职能主题

工作线上化
办公室
财务
人力
审计

引言

昨日偶然看到川仪股份,今日以冲动之下,违背了自己的原则,单吊了,真心是狗改不了吃屎,既然买了,就好好分析下。

净利润

引言

在数据仓库领域,有两本巨著如雷贯耳《数据仓库》和《数仓工具箱》,影响了进20年商业智能的数仓发展,这两本巨著分别出自“数据仓库”之父 Bill Inmon和数据仓库权威专家 Ralph Kimball,所采用的建模方法也分别为范式建模和维度建模。
虽然两本巨著都是经典,但是当我们去阅读时,想必是一脸懵逼的,同时问下自己:两套数仓建设体系的核心区别是什么?反正我是答不上来。为了梳理区别,本人重新翻阅了这两本书,以及网上一些相关资料,尝试以自己的理解来回答。

inmon和kimball的区别

架构区别

Kimball 建模的流程为:从需求到模型,从模型到数据。从上到下的一个过程,也叫数据集市总线架构( Data Mart Bus Architecture )或者数据仓库总线架构 (DataWarehouse Bus Architecture)。
alt text

在大型BI项目中,数仓通常也会采用Inmon 的建模方式,从数据到模型再到需求,这样的自下往上的建设路线。也有叫集线器架构 (Huband Spoke) 或者企业信息工程架构 (CIF:CorporateInformation Factory)。

两者的架构区别如数仓建模——Inmon与Kimball的融合建模方法论一文中下图所示:
alt text

模型区别

inmon ER模型

在Inmon的ER模型中,将模型分为三个层次:高层模型(称为实体关系,或ERD),中间层建模(称为数据项集或DIS),底层建模(称为物理模型)。

高层模型以实体和关系为特征,实体处于最高抽象层,由集成范围这个术语表示的内容决定哪些实体术语模型范围而哪些不属于。我的理解,这些的高层模型的实体,就类似于主题域的划分,只不过多了关系。

中间模型为高层模型的主题扩展,简单来说,就是将高层模型中的实体和关系,进一步细化,即类似于使用具体的表的ER管理来表示高层模型中的单一主题。

中层模型中使用主要数据分组,二级数据分组,连接器,数据的“类型”来表示模型。

物理模型就是物理表,重中间层数据模型创建而来,通过扩展中间模型,使得模型中包含有关键字和物理特性,主要是从性能优化系数等角度,如数据粒度、分区,饭规范化冗余、访问数据频率(热点数据)分离等。

至此,Inmon的建模方法就介绍完毕了,所谓的ER,其实值的是在高层的主题域模型和中层的ER模型时对于关系抽象的方式,采用ER进行思考,其实在最终的物理层面,ER模型展现出来的效果和雪花是类似的,而且inmon的模型也是包含反规范化操作的,所以在个别场景下最终呈现也会和星型模型类似。

kimball维度模型

说完了inmon的模型,再来说下kimball的维度建模,在kimball模型中,针对模型的讲解是分散的,个人认为,kimball的模型即以维度表和事实表为抽象,一致性维度设计和使用为核心,以星型模型为具体实现,通过收集业务需求,设计总线矩阵来确保一致性维度,最后通过选择业务过程、申明粒度、确认维度、确认事实来进行模型的创建。

总结

inmonER建模和kimball的维度建模,从最终的模型表上看,两者是差不多的,这也是为什么从网上搜索,虽然区别说了一大堆,但是在举例的时候,看着都差不多没有区别,一定要说区别的话,可能就是强行让ER建模不进行维度退化饭规范化操作。

两者区别主要是理念和过程的不同,就像从需求到达终点,两位大师做了两种不同的交通工具和路线,但是结果是类似的,最终殊途同归。

首先,inmon的ER建模是从数据到需求,即你需要先行了解当前的业务系统有什么数据,是怎么使用,然后将数据通过主题域进行分类,最后将分类后的数据进行整合,形成数据仓库;而kimball的维度建模是从需求到数据,即你需要先了解当前的业务系统有什么需求,然后将需求进行分类,通过总线矩阵进行整合,形成数据仓库。

在现实中,你很难说你的数仓是纯粹的inmonER建模或kimball的维度建模,一般为两者模型的融合,即都使用了。在业务分析和模型设计时,采用的总线矩阵和事实维度;在模型关系表达和主题域划分时,则是展现了inmon的ER模型思想。

其他知识

数仓架构有几种?

哪种数据仓库架构最成功? Bill Inmon 或 Ralph Kimball ?一文中,提到了如下调查

2005年,Thilini Ariyachandra 与Hugh Watson针对DW架构做了一个深入的调查,调查题目为“哪种数据仓库最成功?”,受访者由454位曾在各种不同规模的企业(绝大多数是美国企业)中参与了DW规划与实施的人员组成,受访者根据DW应用实际情况及经验体会做出回答。
为了合理设计调查问卷,在调查问卷中合理设置调查对象(参与调查的DW架构)和评判标准(影响DW架构选择的因素及判断DW架构成功的因素等)等内容,Watson和Ariyachandra邀请了20位专家组成专家组设计调查问卷及判断标准等,这20位专家包括了DW领域的两位先驱——赫赫有名的Bill Inmon和Ralph Kimball。因此我们可以认为这份调查的结果是权威可信的。

在这份调查中,列举的5个数仓架构如下图所示:
alt text

  1. Independent data marts architecture
  2. data mart bus architecture with dimensional data marts
  3. hub and spoke architecture(corporate information factory)
  4. centralized data warehouse architecture
  5. federated architecture

结语

参考资料

  1. building-the-data-warehouse-in-microsoft-sql-server-2005
  2. The Data Warehouse Toolkit: The Definitive Guide to DSS 2005
  3. 深入对比数据仓库模式:Kimball vs Inmon
  4. 通俗易懂数仓建模—Inmon 范式建模与 Kimball 维度建模
  5. 数据仓库 Inmon与Kimball数仓理论对比
  6. 哪种数据仓库架构最成功? Bill Inmon 或 Ralph Kimball ?
  7. 数仓建模——Inmon与Kimball的融合建模方法论