小红书完成业界最大数据湖0故障迁云,500PB数据迁移仅用一年

小红书完成业界最大数据湖0故障迁云,500PB数据迁移仅用一年11月6日,经过一年奋战,小红书已成功将业界体量最大的数据湖0故障迁上阿里云。据统计,该项目共有1500人参与,迁移数据500PB

小红完成业界最大数据湖0故障迁云500PB数据迁移仅用一年

11月6日,经过一年奋战,小红书已成功将业界体量最大的数据湖0故障迁上阿里云。据统计,该项目共有1500人参与,迁移数据500PB。作为中国头部互联网公司之一,小红书月活已过3亿,其数据湖存储了过去11年的所有原始数据,包括结构化、半结构化和非结构化数据。

近年来,随着业务的高速增长,小红书在线处理数据的需求不断增加。同时,离线处理所积累的历史问题,也会在未来的切换中带来更多成本与风险。为此,2023年11月,小红书发起迁云项目,计划一年内将数据湖搬上阿里云。

 小红书完成业界最大数据湖0故障迁云,500PB数据迁移仅用一年

迁移至阿里云后,数据湖可通过多个OSSBucket支持纳入统一资源池,实现多个Bucket共享资源池内的OSS吞吐及QPS能力。这样的流控能力在面向小红书复杂业务场景时,可灵活调配资源,高效利用吞吐性能,降低不同业务租户间的互相影响。

阿里云原生HDFS+DLA元数据可实现无缝对接HadoopEMR体系,支持元数据线性扩展能力,轻松应对小红书数百PB数据下的元数据线性增长。

本次迁移的数据体量更大,远超以往业界最大案例。小红书的迁云项目经历了三个阶段:

  • 第一步: 项目组首先解决标准问题,然后根据标准进行治理。
  • 第二步: 完成治理后,项目在2024年5月正式进入双跑阶段。将数据拷贝到阿里云上,两边同时跑数,验证正确性与及时性。
  • 第三步: 2024年8月,项目结束双跑,进入割接阶段。阿里云团队全程在现场保障,顺利完成了割接。

2024年11月,小红书迁云项目正式宣告结束。在0故障的情况下,迁移数据500PB,完成任务11万,参与人数1500人,涉及部门40多个。

此次小红书成功完成业界最大数据湖迁云项目,不仅体现了其强大的技术实力,更彰显了其对数据安全与效率的重视,也为其他互联网公司提供了一个成功案例。相信未来,小红书将继续深耕数据领域,为用户提供更加优质的服务。

声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!(Email:[email protected])

上一篇 2024-11-21
下一篇 2024-11-21

猜您喜欢