快播:数据治理如何做?火山引擎DataLeap帮助这款产品3个月降低计算成本20%
本文讲述字节跳动一款 App产品的数据治理故事。该产品随着用户体量和数据体量不断增长,数仓的任务量、数据量也不断攀升,运维难、成本贵、稳定性等问题在不断凸显。通过使用火山引擎DataLeap的数据治理能力,3个月时间将计算成本大幅缩减20%。
(资料图片仅供参考)
该产品是一款近千万级DAU的产品,疫情3年,催生了大量的线下需求转型至线上,海量的数据虽然为产品创造了巨大的价值,但是也增高了计算成本和存储成本。“成本治理专项”成为了这个产品的重要工作之一,为了解决数据治理的问题,产品接入了火山引擎自研的大数据开发套件——DataLeap,主要围绕下述两个场景进行成本治理:
1. 快速启动并获得收益
大数据场景下计算资源的重要价值和昂贵成本,需要每个任务都按需使用。而在实际的业务开发过程中,存在大量的异常计算任务,浪费了大量的计算资源。计算场景也因此成为该产品数仓团队成本治理的关键切入点。
通过DataLeap,数仓团队可以设置明确治理目标,并配置治理域,通过选定各种规则的任务治理,比如关闭/下线无效任务、优化高耗时并且占用资源 TopN 任务、优化资源申请不合理 TopN 任务、优化表产出小文件 TopN 任务等,由此对队列阻塞情况进行改善,完成阶段性进行缩容。
DataLeap 还支持对任务执行进行全链路监控,自动发现这些异常的计算任务,并在工作台进行展示,让数据研发人员可以查看相应任务,并采取治理措施。
2. 按季度持续治理
数据治理是一项长期性、系统性的工作,通过DataLeap平台,该产品优先实现了数据按季度持续治理。
DataLeap 平台提供一系列任务圈选规则,可以圈选出无效、高耗时、资源申请不合理、小文件异常、近7天内无更新、写入数据、近90天无访问表等规则,进行定期扫描,由此实现周期性成本治理。除此之外,DataLeap还提供通知、一键拉群等治理运营操作,支持查看治理效果,沉淀治理经验,有效推动数仓团队成本推动进展。
其次,为了能更直观监测到数仓健康度、量化治理效果,产品团队还引入了DataLeap「健康分」体系。一旦出现健康分不达标情况,会及时限制产品使用资源比例、资源申请等。DataLeap还支持繁忙和闲置时段队列资源利用率的监测,可以帮助飞书数仓团队优化任务调度措施。
最终,该产品的数仓团队主要从YARN和HDFS切入,在引入DataLeap的三个月内,快速落地成本治理项目。在计算治理场景,实现YARN 队列成本降低 20%;在存储治理场景,已释放 7PB 存储空间。
随着数据的不断累积和业务的不断发展,大数据的体量将会变得越来越大,而随之而来的庞大成本,也成为了大数据建设中越来越无法忽视的问题。火山引擎DataLeap基于字节跳动业务场景和实践经验,沉淀有一套完整的数据质量、SLA治理、资源优化、告警优化的能力,可以为业务提供流畅顺滑的数据治理体验;在流程上,覆盖规划式、响应式的用户数据治理双路,同时与各业务密切配合,落地和沉淀多项治理规则。(作者:邵苗)
关键词: 新闻资讯
文章推荐
深圳大铲湾码头正式投入电动空箱堆高机 碳排放更低
多点突破!联想智慧教育大屏市场份额跻身中国前三
9399元!七彩虹新电竞一体机来了:搭载酷睿H45+RTX3060显卡
传苹果将继续研发OLED显示屏iPad Pro机型 或为MacBook Air
广西将三年改造1万条城市背街小巷 打造文化特色精品小巷
-
中新网南宁2月6日电 (王凌云 林洁琪)广西住房和城乡建设厅6日介绍,根据近日印发的《广西城市背街小巷整治改造提升三年行动方案(2022
广告
X 关闭
X 关闭
-
京张高铁每日开行17对冬奥列车
京张高铁每日开行17对冬奥列车 预计冬奥服务保障期运送运动员、技术官员、持票观众等20万人次 2月6日,2022北京新闻中心举行“北
-
北京冬奥会开幕式上 小学生朱德恩深情演绎《我和我的祖国》
北京冬奥会开幕式上 小学生朱德恩深情演绎《我和我的祖国》 9岁小号手苦练悬臂吹响颂歌 2月4日晚,在北京冬奥会开幕式上,9岁的
-
2022北京冬奥会开幕式这19首乐曲串烧不简单
多名指挥家列曲目单 再由作曲家重新编曲 本报专访冬奥开幕式音乐总监赵麟 开幕式这19首乐曲串烧不简单 “二十四节气”倒计时、
-
“一墩难求” 冰墩墩引爆购买潮
设计师:没想到冰墩墩成“爆款” “一墩难求”冰墩墩引爆购买潮 北京冬奥组委:会源源不断供货 北京冬奥会吉祥物“冰墩墩”近日