01

前言


米娜桑,大家好,我是你们的赵壮实。我们在上层做数据产品的时候,主要是关注指标&维度的口径,实时的性能/离线的存储,数据查询&展示的资源和速度

但是,深入到底层的时候,你或许不知道,还有一类数据产品经理,是为底层大数据平台服务的。

他们的用户是数据研发、算法研发,他们会在数据接入-数据开发-数据生产-数据管理等过程中做一些数据产品,支持公司大数据平台的高效运行。

壮实学数据技术,将带领自留地的小伙伴们进入到大数据平台开发的过程当中,今天,我们来谈谈:数据接入。


02

数据接入


在大数据平台落地的过程中,数据接入是必不可少的一个关键环节。数据接入就是将各种来源、各种类型的数据整合,纳入统一的大数据平台。

从数据类型的角度,数据接入主要包括结构化数据(业务数据库)的接入、日志数据的接入、IoT数据的接入和文件接入。


a. 结构化数据接入:结构化数据的接入主要是通过ETL工具来实现的,包括Hadoop平台提供的Sqoop,开源的kettle、talend,以及商业化产品Informatica、DataStage等;

b. 日志数据接入:日志的接入技术工具通常有Flume、FileBeats、Logstash等;

c. IoT数据接入:IoT数据通常是以流式数据的方式,通过Kafka接入大数据平台

d. 文件接入:通过FTP或者WebDAV协议接入。


03

数据接入的产品分类


针对上述几种数据接入类型,业界基本会有几种产品。

用户行为数据接入产品

一般为日志收集产品。日志收集有两种方式,一种为磁盘文件的方式,另一种为SDK的方式(我们常说的埋点就是通过SDK收集数据的)。

文件数据接入产品

主要针对线下数据进行上传。

数据同步产品

主要在不同数据源之间进行数据同步,完成ETL。

业务数据库接入产品

业务数据库也属于一种数据同步类型的产品,但是主要针对mysql 2 hive的业务库数据接入。


04

数据接入产品详解


针对用户行为数据接入、文件数据接入,一般都属于小的功能和产品。数仓比较看重的是数据同步型的产品。

实际上,数据接入的核心在一定程度上就是数据同步的过程,我们怎么把各种各样的数据源变为我们想要的数据。

所以,我们要理解三个概念,数据源、ETL、数据同步。

数据源:用来描述一个数据源头,提供了应用程序所需要数据的位置。数据源类型如:mysql/hive/tair等。

ETL:提取、转换、加载(从一个地方提取数据,通过转换,加载到另一个地方)。

数据同步:实现两个数据源之间的数据同步。


我挑了阿里云和华为云的两个商用产品,大家可以细品一下:

01

阿里云


阿里云:dataworks 全域数据汇



dataworks 全域数据汇聚模块提供了以下三种功能:同步表/文件-运行任务-查看结果。

  • 同步一个表/文件:配置数据源,配置同步任务

  • 同步多个表/文件:批量建立数据源头,批量上云

  • 运行任务、查看结果:包括测试运行、补数据运行、周期运行

02

华为云

华为云:数据接入服务(Data Ingestion Service)

IDS是为处理或分析流数据的自定义应用程序构建数据流管道,主要解决云服务外的数据实时传输到云服务内的问题。数据接入服务每小时可从数十万种数据源(如IoT数据采集、日志和定位追踪事件、网站点击流、社交媒体源等)中连续捕获、传送和存储数TB数据。


数据流向

DIS实时从多种数据源采集数据。

DIS连续传输数据,自动将数据传输至MRS,DLI,DWS和OBS等服务做计算,分析和存储。


05

后语


那你一定会问,数据产品经理在数据接入这个过程中担当什么角色?

  • 为数据平台的目标服务(这个目标可能是提高研发的效率、接入格式统一、接入规范流程化等等)

  • 把工具变为产品,把产品变为平台

  • 在平台中加入场景化和一体化设计

选型是技术的事情,为哪些数据源提供同步功能也是技术的事情,作为一个产品,是如何把用户操作接入的过程抽象出来,进行产品化的过程。

相信,你在和用户交谈、理解用户需求的过程中,会得到下一步的答案。

点赞(3604) 打赏

评论列表 共有 0 条评论

暂无评论
立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部