从数据从业者的角度看《大数据实践之路》一书

4893 阅读 0 评论 254 点赞

作者介绍

@Albert

就职于某知名大数据服务公司；

专注于数据产品、数据埋点和用户行为数据分析；

“数据人创作者联盟”成员。

0 导语

非常荣幸能够在发售的第一时间拿到这本书，这是本人在关注了 “一个数据人的自留地” 公众号以来最期待的书籍之一。它浓缩了各领域的精华，包括大数据底层技术、数据分析和数据产品的应用。恰巧这段时间读到了凯东老师在公众号中对两本热门书籍的书评，本人便突发奇想，在品读完《大数据实践之路》一书后撰写了该篇书评，从而让更多热爱大数据的小伙伴们了解这本书。

1 整体评价

如果满分是 100 分，我会给这本书打 90 分。

这本书整体结构清晰，虽然是由不同行业内的专家共同撰写，但是读起来并无割裂感，能够看出来每一部分都是各位专家倾尽心血撰写的行业经验和案例。这些 “干货” 令我受益匪浅，并且在我实际工作中遇到瓶颈时给予我一些启发。

该书中每一部分都模拟了现实的工作场景，讲述了在某种场景下遇到了什么问题，出现问题的原因是什么，以及相应的解决方案。通过这种 “讲述故事” 的方法将零散的知识点进行串联，既能传授知识，又不失趣味性。

另外，这本书的整体风格较为简洁易懂，即使涉及了很多技术细节，语言上也不会枯燥乏味，给人以疏远的感觉。相反，在大多数时候遇到专业术语时，该书的作者会给予生动的例子帮助理解。本人并不是纯技术背景出身，但是在读到涉及技术的部分，尤其是在书的前半部分讲述大数据底层技术时，也能够在短时间内消化该部分的内容，并进行一些思考与总结。在我阅读了大量通篇都在讲枯燥术语的书籍，但仍然不知其所以然时，该书作者生动且易懂的叙述方式让我眼前一亮、茅塞顿开。

但是，100. 分之所以被扣了 10 分，是因为该书仍有可以提升的地方：偶尔出现逻辑错误和逻辑不严谨的问题，有时叙述过于笼统而让读者难以理解等。笔者能够理解该书的作者们需要在工作之余挤出大量时间撰写，难免会有错误出现，以及受篇幅限制，不能将所有的知识点都讲透。期待在该书之后的改版过程中能将问题进行修正，并用更加通俗易懂的方式将看似枯燥的知识解释清楚。

2 分章节评价

第一章在全书中起到了 “引子” 的作用，通过列举数据质量、数据获取效率和数据应用中出现的问题，引起读者的好奇与思考。本人在工作实践中也遇到过类似的问题，诸如数据口径不一致、采集上来的数据与实际误差较大、数据查询时间长、业务部门对于应用数据驱动决策的价值一无所知等。作者在这里列出的问题能够引起我的共鸣，也为接下来的各个具体工作场景埋下伏笔。

第二章到第六章为偏技术应用的 “数据中台篇” ，讲述了数据的来源以及数据是如何被高效地存储和流转的。“数据中台” 的出现，源于企业想要解决 “供给” 和 “需求” 不平衡的问题，即由于数据提取效率低、数据口径不一致等问题导致的数据 “供给” 无法满足因为数据爆炸式增长、业务范围扩大导致的各部门逐渐复杂化的 “需求”。“数据中台” 的建设包括 “元数据中心”、“数据指标中心”、“数仓模型中心”、“数据资产中心”、“数据服务中心”。

“元数据中心” - 俗称 “数据的数据”，是描述数据的基本信息，例如某表的基本信息，下游表的血缘信息等，“元数据中心”也是建设其他中台系统的基础。
“数据指标中心” - 存储数据指标的系统，建设它是为了统一指标口径，规范管理并维护各项数据指标，定义的 “原子指标” 能像乐高积木一样被重新组合，变成业务部门能够理解并使用的 “派生指标”。
“数仓模型中心” - 规范开发流程，防止从原始表处理数据的低效操作，提升数据提取效率。这一部分涉及到很多缩写和 “层” 的定义，尽管该部分作者已经尽量用通俗易懂的语言解释，但是读者仍需要花一些时间去理解。
“数据资产中心” - 数据是企业无形的 “资产”，需要有系统保障这一 “资产” 的质量，并且在存储和性能消耗上控制成本。
“数据服务中心” - 很多时候制作数据看板时需要技术人员从底层数据开始个性化开发各类数据接口供前端调用，形成一个个独立的 “烟囱”。对这些 “烟囱” 的需求往往是重复的，这也导致了重复开发的情况；另外，大量的底层数据暴露对于数据安全是不利的。“数据服务中心” 能够将数据源表通过配置化的方式生成可以直接被调用的数据接口，既提升了数据提取效率，又将源数据与数据接口使用者隔离。

“数据中台篇” 适合对于大数据底层技术感兴趣的同学，即使是非技术出身也不会觉得非常枯燥。

第七章到第八章为 “数据分析篇”，从 “理论” 和 “实操” 两部分入手。“理论” 部分着重讲解业务与数据的结合，数据分析师的工作模式、需要的能力，以及数据分析师是如何与其他角色合作的；“实操” 部分则关注各类分析方法（预测性分析、描述性分析、诊断性分析）的目的、方法与案例以及如何撰写一份好的数据分析报告。

“数据分析篇” 个人认为更像是数据分析的 “ABC”，从数据分析的行业视角进行整体的初步的介绍，适合对数据分析感兴趣、但是不知道数据分析为何物的同学，看完这一部分后就会明白数据分析究竟在做什么，以及是否适合自己。

第九章到第十三章为 “数据应用篇”，着重讲解数据在被处理加工完成后是如何被展示和应用的。

第九章为 “ BI 系统”，笔者在工作中也会大量接触到 BI 系统，本章整体从数据产品的角度出发，讲述 BI 系统的定义、特点、背后的技术原理（数仓、数据处理等）、如何从 0 到 1 搭建 BI 系统以及如何评估 BI 系统的效果。

第十章为 “用户画像”，也是本篇占比最大的章节，主要讲述用户画像的定义、建设用户画像的原因、如何规划用户画像体系以及用户 ID 体系、如何对标签进行分类和分级以及用户画像系统的组成部分。其中用户 ID 体系（也就是我们常说的 id-mapping）是将不同端（app、小程序、h5 等）的用户行为统计在一个人身上，从而打破数据孤岛；这一部分基本讲透了用户 ID 体系的原理，但结合笔者的工作经验，笔者认为把用户 ID 体系放在用户画像部分才讲有些晚了，这一部分应该在数据基础建设环节（比如书的前半部分）就进行讲解，毕竟用户 ID 体系的打通是保证数据准确的关键环节，是一切系统建设的基础。

第十一章为 “电商反作弊体系”，该章讲述了电商黑产的分类、场景、作弊方式以及反黑产的实践案例。这一章是笔者认为最 “有趣” 的一章，原因是笔者在工作中也遇到过 “识别薅羊毛用户” 的场景，从发现问题到逐层抽丝剥茧到最终成功识别羊毛党/黑产用户是非常有成就感的，而且如何保证企业花重金投入的营销预算能够真正惠及有需求的用户而不是被羊毛党/黑产扫得一干二净，是很多企业都在解决的问题。

第十二章为 “资讯个性化推荐”，着重讲解如何分类资讯以及从资讯获取、加工到资讯召回、排序、重排的整条链路。

第十三章为 “电商个性化推送”，这一主题贴合时下非常流行的 MA（Markting Automation - 营销自动化）进行阐述，重点讲述其中 push 发送的本质、优化方向和推荐案例。可能受篇幅限制，笔者认为，虽然这两章的主题非常新颖，但是讲解略微仓促，有些术语没有很好地进行解释，并且阅读这两章需要读者有一定的机器学习、自然语言处理、数理统计等知识储备，否则读起来会略为困难。

3 总结

读完这本书后，我愿意把这本书推荐给周围在大数据领域工作或者对这一领域感兴趣的小伙伴们。当然，本篇书评中的所有观点都是基于笔者的个人经验，如本书的其他读者有不同的想法，欢迎交流。

点赞(254) 打赏

本文分类：数据产品
本文标签：无
浏览次数：4893 次浏览
发布日期：2021-10-27 20:51:39
本文链接：http://sjrzld.com/a/cong-shu-ju-cong-ye-zhe-de-jiao-du-kan-da-shu-ju-shi-jian-zhi-lu-yi-shu.html

从数据从业者的角度看《大数据实践之路》一书

评论列表共有 0 条评论

发表评论取消回复

从数据从业者的角度看《大数据实践之路》一书

数据分析之统计学速查表（上）

数据中台产品，如何进行联合项目推动？

如何搭建一款BI系统

2023，给数据打工人的5条建议

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复