引言: 融合數(shù)據(jù)湖與數(shù)倉(cāng)的創(chuàng)新之路
在數(shù)字金融時(shí)代,數(shù)據(jù)已成為金融機(jī)構(gòu)的核心競(jìng)爭(zhēng)力。杭銀消費(fèi)金融作為一家持牌消費(fèi)金融機(jī)構(gòu),雖以金融業(yè)務(wù)為核心,卻始終保持著強(qiáng)烈的科技創(chuàng)新精神,發(fā)明專利的話屈居行業(yè)第二。面對(duì)業(yè)務(wù)高速發(fā)展帶來的數(shù)據(jù)挑戰(zhàn),公司開始了一場(chǎng)圍繞數(shù)據(jù)基礎(chǔ)設(shè)施的變革——構(gòu)建基于鏡舟數(shù)據(jù)庫(kù)的GLH湖倉(cāng)一體平臺(tái)。
GLH代表了公司在湖倉(cāng)一體化道路上的探索與實(shí)踐,是連接業(yè)務(wù)與技術(shù)的關(guān)鍵橋梁。
一、GLH建設(shè)背景:數(shù)據(jù)痛點(diǎn)驅(qū)動(dòng)創(chuàng)新
1.業(yè)務(wù)場(chǎng)景需求
作為一家以“數(shù)據(jù)、場(chǎng)景、風(fēng)控、技術(shù)”為核心的消費(fèi)金融機(jī)構(gòu),公司業(yè)務(wù)發(fā)展迅速,但傳統(tǒng)數(shù)據(jù)處理架構(gòu)已無法滿足日益增長(zhǎng)的數(shù)據(jù)需求,這些需求不僅關(guān)系到日常運(yùn)營(yíng),更直接影響公司戰(zhàn)略決策和合規(guī)底線。
策略數(shù)據(jù)實(shí)時(shí)性:金融風(fēng)控策略需要準(zhǔn)時(shí)獲取數(shù)據(jù)支持決策,哪怕幾分鐘的延遲都可能導(dǎo)致風(fēng)險(xiǎn)控制失效;
多表數(shù)據(jù)一致性:不同庫(kù)表間數(shù)據(jù)同步必須保持時(shí)間點(diǎn)一致性,一旦出現(xiàn)不一致,可能導(dǎo)致業(yè)務(wù)邏輯混亂;
經(jīng)營(yíng)數(shù)據(jù)準(zhǔn)確性:管理層關(guān)注的經(jīng)營(yíng)日?qǐng)?bào)必須準(zhǔn)確及時(shí),這直接影響了公司戰(zhàn)略決策走向;
業(yè)務(wù)對(duì)賬需求:日間數(shù)據(jù)支持業(yè)務(wù)對(duì)賬流程,而傳統(tǒng)ETL無法滿足這一時(shí)效性要求;
監(jiān)管合規(guī)要求:監(jiān)管上報(bào)數(shù)據(jù)必須滿足時(shí)效性和準(zhǔn)確性。
2.核心痛點(diǎn)分析
在傳統(tǒng)數(shù)據(jù)架構(gòu)下,公司遇到了幾個(gè)關(guān)鍵問題:
問題1:數(shù)據(jù)回溯困難
數(shù)據(jù)傳輸過程出現(xiàn)異常,可能造成數(shù)據(jù)缺失,問題發(fā)現(xiàn)不及時(shí),數(shù)據(jù)回溯成本高。
問題2:變動(dòng)明細(xì)缺失
監(jiān)管報(bào)送場(chǎng)景下,生產(chǎn)系統(tǒng)中客戶信息一天內(nèi)多次變更則需要報(bào)送每次的狀態(tài),但生產(chǎn)系統(tǒng)沒有保存每次的變更信息,只能靠每日批量獲取日終最后一次狀態(tài),無法滿足監(jiān)管要求全量報(bào)送每次變更的需求。
問題3:時(shí)點(diǎn)數(shù)據(jù)不準(zhǔn)
受資源限制,抽取任務(wù)執(zhí)行時(shí)點(diǎn)也可能存在偏差或無法執(zhí)行,導(dǎo)致跨表數(shù)據(jù)同步存在時(shí)間差,同一業(yè)務(wù)在不同表中的數(shù)據(jù)狀態(tài)不一致,造成業(yè)務(wù)邏輯混亂。
問題4:跨系統(tǒng)日切問題
以交易對(duì)賬還款場(chǎng)景為例,交易系統(tǒng)和賬務(wù)系統(tǒng)等不同系統(tǒng)間對(duì)同一交易的處理時(shí)間不同,導(dǎo)致日切數(shù)據(jù)嚴(yán)重不準(zhǔn)確,直接影響業(yè)務(wù)對(duì)賬。
這些痛點(diǎn)不僅僅是技術(shù)困擾,更直接威脅業(yè)務(wù)發(fā)展:無法實(shí)時(shí)同步數(shù)據(jù)影響業(yè)務(wù)策略執(zhí)行效果;數(shù)據(jù)不一致導(dǎo)致業(yè)務(wù)對(duì)賬困難;數(shù)據(jù)質(zhì)量無法保證使監(jiān)管合規(guī)面臨風(fēng)險(xiǎn);數(shù)據(jù)回溯困難使審計(jì)工作耗時(shí)且成本高昂。
二、融合鏡舟數(shù)據(jù)庫(kù)打造湖倉(cāng)一體架構(gòu)
1.GLH功能架構(gòu)
這一架構(gòu)不僅滿足功能需求,更兼顧了系統(tǒng)的穩(wěn)定性、擴(kuò)展性和可維護(hù)性,為湖倉(cāng)一體平臺(tái)奠定了堅(jiān)實(shí)基礎(chǔ)。
2.為什么選擇鏡舟數(shù)據(jù)庫(kù)替代GreenPlum
在數(shù)據(jù)倉(cāng)庫(kù)選型這一關(guān)鍵決策上,團(tuán)隊(duì)經(jīng)過反復(fù)論證和實(shí)踐測(cè)試,最終選擇鏡舟數(shù)據(jù)庫(kù)(StarRocks 企業(yè)版)作為核心存儲(chǔ)引擎。團(tuán)隊(duì)面臨的選擇并不容易——原有的26臺(tái)生產(chǎn)環(huán)境GreenPlum集群隨著業(yè)務(wù)量增加,性能日益下降,而擴(kuò)容意味著高昂的投入:
降本增效:GreenPlum的授權(quán)費(fèi)用高昂且橫向擴(kuò)展成本高,而鏡舟數(shù)據(jù)庫(kù)提供了更具性價(jià)比的選擇,符合公司降本增效的戰(zhàn)略需求;
實(shí)時(shí)寫入能力:相比Hive等傳統(tǒng)大數(shù)據(jù)工具,鏡舟數(shù)據(jù)庫(kù)支持實(shí)時(shí)數(shù)據(jù)寫入和事務(wù)查詢,在實(shí)時(shí)數(shù)據(jù)場(chǎng)景下有著天然優(yōu)勢(shì);
統(tǒng)一數(shù)據(jù)平臺(tái):數(shù)據(jù)分散在各個(gè)系統(tǒng)形成“數(shù)據(jù)孤島”,而鏡舟數(shù)據(jù)庫(kù)作為統(tǒng)一的數(shù)據(jù)存儲(chǔ)與計(jì)算平臺(tái),能夠滿足需求。
3.基于鏡舟數(shù)據(jù)庫(kù)的湖倉(cāng)一體架構(gòu)設(shè)計(jì)
在新架構(gòu)中,GLH與鏡舟數(shù)據(jù)庫(kù)深度融合,共同構(gòu)建了真正意義上的湖倉(cāng)一體平臺(tái)。
存算分離設(shè)計(jì):底層采用HDFS存儲(chǔ)(規(guī)劃未來遷移至S3),靈活應(yīng)對(duì)數(shù)據(jù)規(guī)模增長(zhǎng),既保證性能又控制成本;
多模型表設(shè)計(jì):結(jié)合StarRocks的明細(xì)表和寬表能力,設(shè)計(jì)出支持時(shí)間序列、數(shù)據(jù)回溯等特性的自定義表結(jié)構(gòu),滿足各種業(yè)務(wù)場(chǎng)景需求;
統(tǒng)一數(shù)據(jù)處理:采用“一次采集、多次加工”的理念,所有數(shù)據(jù)只需維護(hù)單一處理流程,避免重復(fù)開發(fā),顯著提升了開發(fā)效率和數(shù)據(jù)一致性;
靈活數(shù)據(jù)分發(fā):支持通過Kafka向其他系統(tǒng)分發(fā)數(shù)據(jù),滿足Flink CDC等場(chǎng)景需求,打造了開放、靈活的數(shù)據(jù)生態(tài)。
三、顯著成效:業(yè)務(wù)性能與成本效益兼顧
在實(shí)際部署過程中,團(tuán)隊(duì)積累了寶貴的經(jīng)驗(yàn):
批次時(shí)間優(yōu)化:團(tuán)隊(duì)根據(jù)業(yè)務(wù)需求靈活調(diào)整數(shù)據(jù)同步批次時(shí)間,有的表需要5秒同步一次,有的則是幾分鐘,這種差異化策略既滿足了業(yè)務(wù)需求,又平衡了系統(tǒng)性能;
分區(qū)分桶調(diào)優(yōu):分析業(yè)務(wù)特點(diǎn),重新設(shè)計(jì)了分區(qū)策略,以減少小文件合并開銷,大幅提升了系統(tǒng)性能;
資源合理分配:計(jì)算節(jié)點(diǎn)與存儲(chǔ)節(jié)點(diǎn)資源配比優(yōu)化,監(jiān)控顯示,18個(gè)CN節(jié)點(diǎn)和FE節(jié)點(diǎn)組成的集群運(yùn)行穩(wěn)定,CPU利用率常年保持在50%以下,在下午和凌晨的業(yè)務(wù)高峰期也能從容應(yīng)對(duì),確保系統(tǒng)穩(wěn)定運(yùn)行。
顯著業(yè)務(wù)成效
建成后取得了顯著成效:
全面數(shù)據(jù)覆蓋:已實(shí)時(shí)接入3,800+表,涵蓋公司所有業(yè)務(wù)系統(tǒng);
分鐘級(jí)同步:從數(shù)據(jù)產(chǎn)生到可用,實(shí)現(xiàn)了分鐘級(jí)無延遲同步,與傳統(tǒng)T+1模式相比,業(yè)務(wù)響應(yīng)速度提升了數(shù)十倍;
批處理能力提升:支持每日運(yùn)行6,500+個(gè)任務(wù),包括800+個(gè)數(shù)倉(cāng)任務(wù),與原有架構(gòu)相比,處理效率提升顯著;
業(yè)務(wù)應(yīng)用深化:打破了原有只允許批量查詢的限制,開放實(shí)時(shí)查詢接口,使業(yè)務(wù)系統(tǒng)能夠直接獲取實(shí)時(shí)數(shù)據(jù);
這些成效不僅僅是數(shù)字上的提升,更轉(zhuǎn)化為了業(yè)務(wù)響應(yīng)速度的提高和客戶體驗(yàn)的改善,為公司核心競(jìng)爭(zhēng)力的提升作出了實(shí)質(zhì)性貢獻(xiàn)。
四、未來發(fā)展展望
GLH已完成核心功能建設(shè),包括API服務(wù)、調(diào)度引擎、存儲(chǔ)接入引擎以及數(shù)據(jù)管理、節(jié)點(diǎn)管理、任務(wù)管理等基礎(chǔ)功能。未來發(fā)展方向包括:
更開放的接口:支持接入更多計(jì)算引擎和存儲(chǔ)引擎;
豐富的插件生態(tài):開發(fā)更多數(shù)據(jù)處理插件,增強(qiáng)平臺(tái)數(shù)據(jù)處理能力;
深化業(yè)務(wù)融合:進(jìn)一步與業(yè)務(wù)系統(tǒng)深度融合,提供更精準(zhǔn)的數(shù)據(jù)服務(wù);
技術(shù)持續(xù)演進(jìn):跟進(jìn)存儲(chǔ)技術(shù)發(fā)展,規(guī)劃S3對(duì)象存儲(chǔ)遷移。
結(jié)語
基于鏡舟數(shù)據(jù)庫(kù)構(gòu)建的GLH湖倉(cāng)一體平臺(tái),不僅解決了杭銀消費(fèi)金融在數(shù)據(jù)管理中面臨的關(guān)鍵痛點(diǎn),還為公司數(shù)字化轉(zhuǎn)型提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。通過構(gòu)建“湖倉(cāng)一體”的數(shù)據(jù)架構(gòu),公司實(shí)現(xiàn)了數(shù)據(jù)資產(chǎn)的整合與價(jià)值釋放,為業(yè)務(wù)創(chuàng)新提供了強(qiáng)有力的數(shù)據(jù)支撐。
免責(zé)聲明:以上內(nèi)容為本網(wǎng)站轉(zhuǎn)自其它媒體,相關(guān)信息僅為傳遞更多信息之目的,不代表本網(wǎng)觀點(diǎn),亦不代表本網(wǎng)站贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。如稿件版權(quán)單位或個(gè)人不想在本網(wǎng)發(fā)布,可與本網(wǎng)聯(lián)系,本網(wǎng)視情況可立即將其撤除。
中宏網(wǎng)版權(quán)申明:凡注有“中宏網(wǎng)”或電頭為“中宏網(wǎng)”的稿件,均為中宏網(wǎng)獨(dú)家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來源為“中宏網(wǎng)”,并保留“中宏網(wǎng)”的電頭。