數(shù)據(jù)治理--元數(shù)據(jù)
? ? ? 元數(shù)據(jù)是?對(duì)某個(gè)潛在信息性對(duì)象做出的陳述?。在瀏覽其他網(wǎng)頁(yè)的時(shí)候會(huì)看到元數(shù)據(jù)被稱(chēng)之為 “數(shù)據(jù)的數(shù)據(jù)”。為了更好的描述元數(shù)據(jù)到底是什么東西,我以一本《Metadata》書(shū)作為例子進(jìn)行說(shuō)明?!禡etadata》第二頁(yè)記錄著該書(shū)的 CIP 信息、作者、出版社、書(shū)號(hào)、定價(jià)、印次、字?jǐn)?shù)等信息,而這些信息都是用于描述《Metadata》這本書(shū)的元數(shù)據(jù)。
? ? ? 一條元數(shù)據(jù)記錄就是關(guān)于一個(gè)資源的主謂賓陳述集合。例如:達(dá)芬奇(賓語(yǔ))是蒙娜麗莎(主語(yǔ))的創(chuàng)作者(謂語(yǔ))。
主數(shù)據(jù)、元數(shù)據(jù)與參考數(shù)據(jù)
元數(shù)據(jù)
? ? ? 元數(shù)據(jù)(meta-data)是描述企業(yè)數(shù)據(jù)的相關(guān)數(shù)據(jù),指在IT系統(tǒng)建設(shè)過(guò)程中所產(chǎn)生的有關(guān)數(shù)據(jù)定義,目標(biāo)定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù),包括 對(duì)數(shù)據(jù)的業(yè)務(wù)、結(jié)構(gòu)、定義、存儲(chǔ)、安全等各方面對(duì)數(shù)據(jù)的描述 。地市表這個(gè)實(shí)體的數(shù)據(jù)模型如何進(jìn)行定義正是元數(shù)據(jù)所關(guān)心的范疇。
元數(shù)據(jù)可以說(shuō)是企業(yè)的數(shù)據(jù)地圖,它直接反映了企業(yè)中有什么樣的數(shù)據(jù),數(shù)據(jù)是如何存放的,例如,數(shù)據(jù)結(jié)構(gòu)是什么樣子,數(shù)據(jù)與業(yè)務(wù)之間的關(guān)系是怎么樣,數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系是怎么樣,數(shù)據(jù)有什么樣的安全需求,數(shù)據(jù)有什么樣的存儲(chǔ)需求。
主數(shù)據(jù)
? ? ? 主數(shù)據(jù)(main data)主要是指經(jīng)實(shí)例化的企業(yè)?關(guān)鍵數(shù)據(jù)?。
? ? ? 我們?cè)谏厦嬖O(shè)計(jì)完成數(shù)據(jù)模型設(shè)計(jì)的“城市表”中填寫(xiě)了相應(yīng)的城市數(shù)據(jù),例如,北京、上海、廣州、南寧等等。這些在城市表中?填充的數(shù)據(jù)?,正是組織中國(guó)地理協(xié)會(huì)的主數(shù)據(jù),因?yàn)檫@些數(shù)據(jù)是中國(guó)地理協(xié)會(huì)這個(gè)組織的關(guān)鍵業(yè)務(wù)實(shí)體,?它為組織的業(yè)務(wù)開(kāi)展提供關(guān)聯(lián)環(huán)境?,而且它可能在企業(yè)業(yè)務(wù)開(kāi)展過(guò)程中?被反復(fù)引用?。針對(duì)這些核心關(guān)鍵數(shù)據(jù),組織和企業(yè)無(wú)論從數(shù)據(jù)的質(zhì)量、一致性、可用性、管理規(guī)范等方面都應(yīng)該有著最嚴(yán)格的數(shù)據(jù)要求。
? ? ? 主數(shù)據(jù)就是企業(yè)被不同運(yùn)營(yíng)場(chǎng)合反復(fù)引用關(guān)鍵的狀態(tài)數(shù)據(jù),它需要在企業(yè)范圍內(nèi)保持高度一致。它可以隨著企業(yè)的經(jīng)營(yíng)活動(dòng)而改變,例如,客戶(hù)的增加,組織架構(gòu)的調(diào)整,產(chǎn)品下線等;但是,?主數(shù)據(jù)的變化頻率應(yīng)該是較低的?。所以,企業(yè)運(yùn)營(yíng) 過(guò)程產(chǎn)生過(guò)程數(shù)據(jù),如生產(chǎn)過(guò)程產(chǎn)生各種如訂購(gòu)記錄、消費(fèi)記錄等,一般不會(huì)納入主數(shù)據(jù)的范圍 。當(dāng)然,在不同行業(yè),不同企業(yè)對(duì)主數(shù)據(jù)有不同的看法和做法,正如我們與國(guó)內(nèi)大型航空企業(yè)的實(shí)施相關(guān)數(shù)據(jù)項(xiàng)目時(shí),也在為航班動(dòng)態(tài)是不是主數(shù)據(jù)而糾結(jié)不已。
? ? ? 個(gè)人覺(jué)得 主數(shù)據(jù)具有跨行業(yè)也能存在能力,同時(shí)實(shí)例數(shù)據(jù)變更是低頻的。例如商品價(jià)格信息、會(huì)員信息是主數(shù)據(jù),而訂單信息不是主數(shù)據(jù),它具有高頻更新存在。因而怎么算高頻就是一個(gè)仁者見(jiàn)仁智者見(jiàn)智的情況了,需要結(jié)合自己所在的行業(yè)進(jìn)行判斷。
參考數(shù)據(jù)——數(shù)據(jù)的字典
? ? ? 在本文引用的假設(shè)案例中,我們將會(huì)注意到剛才填寫(xiě)的地市這類(lèi)數(shù)據(jù)有些列,如省份、城市類(lèi)型等。?如果沒(méi)有缺少上下文的環(huán)境,我們是無(wú)法理解其具體含義?,這時(shí)候我們往往引入?yún)⒖紨?shù)據(jù)(reference data)加以解釋和理解。
? ? ? 參考數(shù)據(jù)是增加數(shù)據(jù)可讀性、可維護(hù)性以及后續(xù)應(yīng)用的重要數(shù)據(jù)。例如,你看到“性別”的這個(gè)字段,很可能是1代表男性、2代表女性。在許多企業(yè)中有這樣的約定俗成,而更多的參考數(shù)據(jù)可能記錄在開(kāi)發(fā)人員和運(yùn)營(yíng)人員的大腦當(dāng)中。但問(wèn)題是一旦這些人離開(kāi),您系統(tǒng)里面的數(shù)據(jù)就成了一堆沒(méi)有注釋的天書(shū)。
? ? ? 大家可能覺(jué)得,這所謂參考數(shù)據(jù)不就是數(shù)據(jù)字典嗎?對(duì),我們?cè)诤芏嘞到y(tǒng)里面都會(huì)有這樣和那樣的數(shù)據(jù)字典。但是正是由于這些數(shù)據(jù)字典僅局限于個(gè)別系統(tǒng)而沒(méi)有統(tǒng)一標(biāo)準(zhǔn),從一個(gè)側(cè)面間接造就了大量的數(shù)據(jù)孤島。企業(yè)為了進(jìn)行更有效率的數(shù)據(jù)整合、數(shù)據(jù)共享和數(shù)據(jù)分析應(yīng)用,開(kāi)始嘗試對(duì)參考數(shù)據(jù)進(jìn)行企業(yè)或者部門(mén)層面的整合和管理,利用參考數(shù)據(jù)集記錄系統(tǒng)嘗試為范圍內(nèi)的IT系統(tǒng)中的數(shù)據(jù)庫(kù)提供統(tǒng)一的參考數(shù)據(jù)。
小結(jié)
? ? ? 主數(shù)據(jù)則是真實(shí)的企業(yè)業(yè)務(wù)數(shù)據(jù),是企業(yè)的關(guān)鍵業(yè)務(wù)數(shù)據(jù)。
? ? ? 參考數(shù)據(jù)則是對(duì)數(shù)據(jù)的解釋?zhuān)槍?duì)一些數(shù)據(jù)范圍和取值的數(shù)據(jù)解釋?zhuān)屓藗內(nèi)菀鬃x取相關(guān)的數(shù)據(jù)。
? ? ? 元數(shù)據(jù)是對(duì)數(shù)據(jù)的描述,用于描述企業(yè)數(shù)據(jù)的所有信息和數(shù)據(jù),如結(jié)構(gòu)、關(guān)系、安全需求等,除增加數(shù)據(jù)可讀性外,也是后續(xù)數(shù)據(jù)管理的基礎(chǔ)。
? ? ? 一般而言,企業(yè)中這三類(lèi)數(shù)據(jù)與其它數(shù)據(jù)的數(shù)據(jù)量、質(zhì)量需求,更新頻率、數(shù)據(jù)生命周期的關(guān)系大致如下圖:
中臺(tái)與元數(shù)據(jù)
? ? ? 中臺(tái)強(qiáng)調(diào)的是復(fù)用性,利用提高服務(wù)的重復(fù)使用,降低開(kāi)發(fā)時(shí)間和提高工作效率。但現(xiàn)實(shí)生活中,大量的數(shù)據(jù)孤島和重復(fù)建設(shè)存在,從而存在大量的數(shù)據(jù)指標(biāo)定義不同帶來(lái)的歧義問(wèn)題。由于不同的項(xiàng)目 PM 管理風(fēng)格迥異,存在有些必要信息沒(méi)有進(jìn)行存檔,而是通過(guò)口口相傳的不靠譜形式,信息準(zhǔn)確性大打折扣。
? ? ? 數(shù)據(jù)中臺(tái)建設(shè)中需要尋找共性數(shù)據(jù),通過(guò)數(shù)據(jù)建模,將其進(jìn)行抽取形成一張公共的數(shù)據(jù)大寬表。如何快速了解掌握數(shù)據(jù)關(guān)系,定位表與表之間的共性部分,往往需要對(duì)業(yè)務(wù)有一定的了解,但現(xiàn)實(shí)情況大量的開(kāi)發(fā)人員只了解自己負(fù)責(zé)的那一個(gè)模塊內(nèi)容,對(duì)于其他人或者項(xiàng)目的內(nèi)容一無(wú)所知。
? ? ? 而元數(shù)據(jù)就是為了消除二義性,同時(shí),對(duì)元數(shù)據(jù)的管理,形成結(jié)構(gòu)化的權(quán)威數(shù)據(jù),降低數(shù)據(jù)傳遞成本和提高準(zhǔn)確性。
常見(jiàn)元數(shù)據(jù)分類(lèi)
元數(shù)據(jù)包括業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù)。
常見(jiàn)的業(yè)務(wù)元數(shù)據(jù)包括:業(yè)務(wù)定義、業(yè)務(wù)術(shù)語(yǔ)、業(yè)務(wù)規(guī)則、業(yè)務(wù)指標(biāo)等。
常見(jiàn)的技術(shù)元數(shù)據(jù)包括:存儲(chǔ)位置、數(shù)據(jù)模型、數(shù)據(jù)庫(kù)表、字段長(zhǎng)度、字段類(lèi)型、ETL腳本、SQL腳本、接口程序、數(shù)據(jù)關(guān)系等。
常見(jiàn)的管理元數(shù)據(jù)包括:數(shù)據(jù)所有者、數(shù)據(jù)質(zhì)量定責(zé)、數(shù)據(jù)安全等級(jí)等。
業(yè)務(wù)問(wèn)題
? ? ? 在沒(méi)有元數(shù)據(jù)管理的情況下,從使用問(wèn)題、管理問(wèn)題、數(shù)據(jù)問(wèn)題等三個(gè)方面進(jìn)行說(shuō)明:
使用問(wèn)題
查看表結(jié)構(gòu)信息不方便(查看、檢索、表復(fù)用)
表依賴(lài)關(guān)系不清楚(血緣)
表信息缺少(表維護(hù)者,表狀態(tài))
管理問(wèn)題
表權(quán)限管理
數(shù)據(jù)管理
數(shù)據(jù)質(zhì)量監(jiān)控
數(shù)據(jù)問(wèn)題
建表規(guī)則混亂,沒(méi)有統(tǒng)一標(biāo)準(zhǔn)
表結(jié)構(gòu)變更之后,信息不同步
如何設(shè)計(jì)元數(shù)據(jù)管理
數(shù)據(jù)治理
數(shù)倉(cāng)構(gòu)建
名詞說(shuō)明
業(yè)務(wù)板塊
? ? ? 定義數(shù)據(jù)倉(cāng)庫(kù)的名稱(chēng)和業(yè)務(wù)空間,以企業(yè)內(nèi)一個(gè)?相對(duì)獨(dú)立的業(yè)務(wù)?為分配單元。例如,如果業(yè)務(wù)涉及零售、文娛,且系統(tǒng)間?相對(duì)獨(dú)立?,則需要構(gòu)建兩個(gè)業(yè)務(wù)板塊,即零售、文娛。如果業(yè)務(wù)僅涉及零售,且業(yè)務(wù)內(nèi)的系統(tǒng)間隔離較少,則只需要構(gòu)建一個(gè)業(yè)務(wù)板塊,即零售。
公共定義
? ? ? 定義企業(yè)構(gòu)建數(shù)據(jù)所需的全局概念對(duì)象或參數(shù),以?保證全局概念統(tǒng)一?。當(dāng)定義完成后,系統(tǒng)內(nèi)其他指標(biāo)(例如派生指標(biāo))可以按需統(tǒng)一、通用化引用這些對(duì)象,例如統(tǒng)計(jì)周期,年、月、日、每周、每日。
項(xiàng)目管理
? ? ? 項(xiàng)目是一種?物理空間上?的劃分。項(xiàng)目管理,即用戶(hù)在數(shù)據(jù)中臺(tái)建設(shè)過(guò)程中,對(duì)物理資源及開(kāi)發(fā)人員進(jìn)行隔離化管理。?一個(gè)業(yè)務(wù)板塊可以包含多個(gè)項(xiàng)目?,每個(gè)系統(tǒng)成員可以加入多個(gè)不同的項(xiàng)目。
維度
? ? ? 維度即?進(jìn)行統(tǒng)計(jì)的對(duì)象?。通常情況下,維度是?實(shí)際存在?、不因事件發(fā)生就存在的實(shí)體。創(chuàng)建維度,即從頂層規(guī)范業(yè)務(wù)中的實(shí)體(主數(shù)據(jù)),并保證實(shí)體的唯一性。例如訂單、商品。
業(yè)務(wù)過(guò)程
? ? ? 業(yè)務(wù)過(guò)程即業(yè)務(wù)活動(dòng)中的?所有事件?(它是一個(gè)事件集合)。創(chuàng)建業(yè)務(wù)過(guò)程,即從頂層規(guī)范業(yè)務(wù)中事務(wù)內(nèi)容的類(lèi)型及唯一性。因此業(yè)務(wù)過(guò)程是一個(gè)不可拆分的行為事件。例如下單、支付、退款都是業(yè)務(wù)過(guò)程。
指標(biāo)
? ? ? 指標(biāo)分為原子指標(biāo)和派生指標(biāo)。
? ? ? 原子指標(biāo):對(duì)指標(biāo)統(tǒng)計(jì)口徑(即計(jì)算邏輯)、具體算法的一個(gè)抽象,是業(yè)務(wù)定義中不可再拆分的指標(biāo),例如支付金額。一般都為數(shù)值(統(tǒng)計(jì))。原子指標(biāo)=業(yè)務(wù)過(guò)程(動(dòng)作)+度量, 如支付(事件)金額(度量)。
? ? ? 派生指標(biāo):業(yè)務(wù)中常用的統(tǒng)計(jì)指標(biāo)。派生指標(biāo)=原子指標(biāo)+業(yè)務(wù)限定+統(tǒng)計(jì)周期+統(tǒng)計(jì)粒度。例如,自然周、會(huì)員、采用優(yōu)惠券支付的訂單。
統(tǒng)計(jì)粒度
? ? ? 統(tǒng)計(jì)的最小顆粒度,數(shù)據(jù)唯一性的保證,統(tǒng)計(jì)分析的對(duì)象或視角,定義數(shù)據(jù)需要匯總的程度,可以理解為聚合運(yùn)算時(shí)的分組條件(類(lèi)似于SQL中g(shù)roup by的對(duì)象)。?粒度是維度的一個(gè)組合,指明您的統(tǒng)計(jì)范圍?。例如,某個(gè)指標(biāo)是某個(gè)賣(mài)家在某個(gè)省份的成交額,則粒度就是賣(mài)家、省份這兩個(gè)維度的組合。
? ? ? 這里需要注意粒度與維度的關(guān)系,通過(guò)一個(gè)或多個(gè)維度構(gòu)建粒度。
流程
維度構(gòu)建 DIM 維度模型。
數(shù)據(jù)域與項(xiàng)目是相互獨(dú)立的不同統(tǒng)計(jì)指標(biāo),但同屬于同一個(gè)業(yè)務(wù)板塊下面。
以源表和維表構(gòu)建得到事實(shí)明細(xì)表。
以原子指標(biāo)、業(yè)務(wù)限定、統(tǒng)計(jì)周期、統(tǒng)計(jì)粒度構(gòu)建得到派生指標(biāo),結(jié)合統(tǒng)計(jì)粒度構(gòu)建 DWS 匯總表
示例