編輯導讀:“中臺”是前臺和后臺的鏈接點,將業(yè)務共同的工具和技術予以沉淀。而中臺細分下來也有很多類目,比如數據中臺,很多人不知道它和數據倉庫、商業(yè)分析有什么區(qū)別。本文作者對此進行了分析,與你分享。
“中臺”這個概念,是相對于前臺和后臺而生,是前臺和后臺的鏈接點,將業(yè)務共同的工具和技術予以沉淀。相對于業(yè)務中臺來講,數據中臺跟企業(yè)的業(yè)務有較強的關聯(lián)性,是企業(yè)業(yè)務和數據的沉淀,如果在煙囪林立的各財務業(yè)務系統(tǒng)之上搭建共享的數據中臺,其不僅能降低重復建設和減少煙囪式協(xié)作的成本,也是企業(yè)差異化競爭優(yōu)勢所在。
然而,當說到數據中臺這里,很多人就有了疑問,以前沒有數據中臺這個概念時,企業(yè)不是也建設了數據倉庫、商業(yè)分析之類的東西嗎?對比這個有什么區(qū)別?不就是換了個概念和馬甲嗎?
一、數據中臺與數倉的區(qū)別
首先可以先看看專業(yè)的數據中臺的白皮書是怎么說的:數據中臺是一站式解決平臺,從數據集成、大數據計算、數據治理、數據工具、數據模型、數據應用、市場集成完整一套綜合解決方案及產品系列。
而數據倉庫平臺逐步從BI報表為主到分析為主、到預測為主、再到操作智能為目標。數據倉庫系統(tǒng)的作用能實現跨業(yè)務條線、跨系統(tǒng)的數據整合,為管理分析和業(yè)務決策提供統(tǒng)一的數據支持。
但數據中臺從某個意義來說也屬于數倉的一種,都是要把數據抽進來建立一個數據倉庫。但是兩者的數據來源和建立數倉的目標以及數據應用的方向都存在很大差異。
首先,從數據來源來說,數據中臺的數據來源期望是全域數據包括業(yè)務數據庫,日志數據,埋點數據,爬蟲數據,外部數據等。數據的來源可以是結構化數據或者非結構化的數據。而傳統(tǒng)數倉的數據來源主要是業(yè)務數據庫,數據格式也是以結構化數據為主。
數據中臺不單單指系統(tǒng)或者工具,而是一個職能部門,通過一系列平臺、工具、流程、規(guī)范來為整個組織提供數據資產管理和服務的職能部門。數據中臺負責全域數據采集、數據資產加工和管理、并向前臺業(yè)務部門和決策部門提供數據服務。所以,數據中臺的核心應該是數據資產管理和數據賦能,通俗的講就是數據彈藥庫。
1. 數據來源不同
數據中臺的數據來源期望是全域數據,包括:業(yè)務數據庫,日志數據,埋點數據,爬蟲數據,外部數據等,數據的來源可以是結構化數據或者非結構化的數據。
而傳統(tǒng)數倉的數據來源主要是業(yè)務數據庫,數據格式是以結構化數據為主。
2. 建立的目標不同
目標是為了融合整個企業(yè)的全部數據,打通數據之間的隔閡,消除數據標準和口徑不一致的問題。
數據中臺通常會對來自多方面的的基礎數據進行清洗,按照主題域概念建立多個以事物為主的主題域。比如會員域,商品域,渠道域,門店主題域等等。
數據中臺遵循三個One的概念:One Data, One ID, One Service,就是說數據中臺不僅僅是匯聚企業(yè)各種數據,而且讓這些數據遵循相同的標準和口徑,對事物的標識能統(tǒng)一或者相互關聯(lián),并且提供統(tǒng)一的數據服務接口。就像做菜一樣,按照標準化的菜名,先把所有可能用到的材料都準備好。
而傳統(tǒng)的數倉主要用來做BI的報表,目的性很單一,只抽取和清洗相關需要使用到的基礎數據,進行建倉,然后再用來做領域分析,有的時候可能因為新增一張報表,就要從底層到上層再做一次加工和處理。
3. 數據應用方面不同
建立在數據中臺上的數據應用不僅僅只是面向于BI報表,更多面向營銷推薦,用戶畫像,AI決策分析,風險評估等。這些應用的特點比較輕,容易快速開發(fā)出來,因為重要的數據分析工作在數據中臺已經完成并且沉淀,所以之前工作成果都能被多個應用共享。
而傳統(tǒng)的數據倉庫主要是面向報表或者高級可視化,數據應用的建設一般是面對相對確定的主題內容,在諸如數據建模,進行數據追蹤與探查,深度挖掘層面存在較大的局限性。
4. 依賴平臺不同
數據中臺一般都是建立在分布式計算平臺和存儲平臺,理論上可以無限擴充平臺的計算和存儲能力。
而多數的傳統(tǒng)數倉工具只是建立在傳統(tǒng)關系數據庫和單一服務器部署的基礎上,一旦數據量變大,很容易出現存儲、效率、計算的問題,其后續(xù)擴充存在較大的成本和時間。
二、數據中臺經歷的階段
事實上,阿里巴巴很早便開始運用中臺模式滿足業(yè)務需求,并于 2015 年正式提出中臺戰(zhàn)略。中臺戰(zhàn)略的原理是將不同業(yè)務通用的工具和技術加以沉淀,成立專門的中臺部門,這樣新的業(yè)務需求可以不再重新設計,避免因重復的功能建設和維護造成資源浪費。
構建靈活、多變的組織機制和業(yè)務機制是阿里巴巴建立數據中臺的戰(zhàn)略核心。各行業(yè)的領頭企業(yè)也開始對數據中臺、數字化轉型進行積極探索,力求以數據智能的方式實現生產經營的智能化和精細化管理。
2018 年 8 月末,騰訊宣布組織架構變革,成立技術委員會,未來將打造技術中臺。與此同時,京東、華為、美團等不同業(yè)務領域的互聯(lián)網公司均著手改革組織架構,積極打通數據平臺,構建數據中臺。至此,數據中臺由概念逐漸變?yōu)楝F實,數據智能賦能業(yè)務,用更低的成本、更高的效率為用戶服務的模式逐漸被認可,數據中臺得到進一步發(fā)展,掀起了一波數字化轉型的浪潮。
而我們從阿里數據中臺發(fā)展歷程,可以看到大概經歷以下4個階段:
數據庫階段,主要是OLTP(聯(lián)機事務處理)的需求;數據倉庫階段,OLAP(聯(lián)機分析處理)成為主要需求;數據平臺階段,主要解決BI和報表需求的技術問題;數據中臺階段,通過系統(tǒng)來對接OLTP(事務處理)和OLAP(報表分析)的需求,強調數據業(yè)務化的能力;那么,數據中臺這個階段有什么特征?
其顯著的特征就是數據量的指數級增長,從PB邁向了EB級別。
這個數量級的變化主要來源于IOT(物聯(lián)網)的發(fā)展起來,帶動了視圖聲(視頻、圖像、聲音)數據的增長,這些數據需要視覺計算技術、圖像解析的引擎+視頻解析的引擎+音頻解析的引擎來轉換成結構化數據;來源于線下要想和線上一樣,通過數據來改善業(yè)務,就要和線上一樣能做到行為可監(jiān)測,數據可收集,這是前提。
線下最大量的就是視圖聲數據,依靠IOT技術和算法的進步,最終會通過智能端來自動化獲取數據;要使用這些數據,光有視覺算法和智能端也不行,還要有云來存儲和處理這些數據,以及打通其他領域的數據。
綜合這個階段特征,我們看到依靠傳統(tǒng)的數據倉庫方法已經全然不能滿足企業(yè)大數據量、非結構化、分布式存儲的需求。還需要基于IOT設備收集數據、基于云端存儲數據、基于AI算法和云計算進行應用。
未來的數據中臺,一定是AI驅動的數據中臺。
這個中臺包括計算平臺+算法模型+智能硬件,幫助企業(yè)去打通業(yè)務數據,最終建立線上線下觸達和服務消費者的能力。中臺不僅僅是系統(tǒng),亦是一套方法論,中臺最重要的價值在于從“管理在線”到“業(yè)務在線”。真正做到“一切業(yè)務數據化,一切數據業(yè)務化”。
本文由 @國云數據 原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載。
題圖來自Unsplash,基于CC0協(xié)議。