大数据测试技术与实践 评分 4.0
评分
4.0
3次评价
作者: 艾辉
出版社: 人民邮电出版社
发行年月: 2021-10
装帧: 精装
版次: 2021-10第一版第一次印刷
页数: 275
定价: 118元
ISBN: 9787115571861
评价:
点个赞,支持一下吧~
作者介绍

艾辉 (八喜爱)
目录

第1章 认识大数据/1
1.1 大数据概述/1
1.2 大数据的发展/2
1.3 大数据的应用/4
1.3.1 互联网领域/4
1.3.2 物流领域/5
1.3.3 教育领域/6
1.3.4 金融领域/7
1.3.5 电信领域/7
1.4 本章小结/8

第2章 大数据技术生态/9
2.1 大数据技术生态总览/9
2.2 大数据采集技术/10
2.3 大数据存储技术/10
2.3.1 分布式文件系统:HDFS/10
2.3.2 海量数据列式存储: HBase/13
2.3.3 其他数据存储技术/18
2.4 大数据计算分析技术/19
2.4.1 批处理计算的基石:MapReduce/19
2.4.2 流计算的代表:Storm、Spark Streaming和Flink/21
2.4.3 OLAP引擎:Hive、Impala和Presto/24
2.5 大数据管理调度技术/30
2.5.1 分布式集群资源调度框架:YARN/30
2.5.2 容器集群管理系统:Kubernetes/32
2.5.3 大数据的“动物园管理员”:ZooKeeper/33
2.5.4 常用的工作流调度平台:Azkaban、Oozie和Airflow/34
2.6 大数据商业产品/36
2.7 本章小结/38

第3章 数据仓库的设计与构建/39
3.1 数据仓库概述/39
3.1.1 什么是数据仓库/39
3.1.2 数据仓库的发展过程/41
3.1.3 数据仓库与数据集市、数据湖、数据中台的区别/43
3.2 数据仓库设计/44
3.2.1 架构分层设计/44
3.2.2 数据模型设计/46
3.3 数据仓库构建/50
3.3.1 数据仓库的构建方法与评价标准/50
3.3.2 数据仓库实例/51
3.4 本章小结/58

第4章 大数据项目开发流程/59
4.1 大数据项目开发概览/59
4.2 数据的采集与存储/60
4.2.1 服务端日志采集/61
4.2.2 客户端日志采集/62
4.2.3 数据同步/64
4.2.4 大数据存储/66
4.3 大数据计算/67
4.4 大数据监控/71
4.4.1 数据监控/71
4.4.2 运维监控/72
4.5 大数据项目开发案例/73
4.5.1 项目背景介绍/74
4.5.2 项目需求分析/74
4.5.3 项目开发流程/76
4.6 本章小结/83

第5章 大数据测试方法/84
5.1 大数据测试概述/84
5.1.1 什么是大数据测试/84
5.1.2 大数据测试与传统数据测试/84
5.2 大数据测试类型/85
5.2.1 功能测试/85
5.2.2 性能测试/89
5.2.3 其他非功能性测试/93
5.3 大数据测试流程/94
5.4 大数据基准测试/96
5.4.1 大数据基准测试简介/97
5.4.2 大数据基准测试的步骤/97
5.4.3 大数据基准测试工具/98
5.5 大数据ETL测试/100
5.5.1 大数据ETL测试类型/100
5.5.2 大数据ETL测试场景/103
5.5.3 大数据ETL测试工具/107
5.6 大数据测试总结/108
5.6.1 大数据测试中的典型问题/108
5.6.2 大数据测试经验总结/112
5.6.3 大数据测试面临的挑战/113
5.7 本章小结/113

第6章 大数据测试实践/114
6.1 BI报表测试/114
6.1.1 BI工具简介/114
6.1.2 Tableau简介/115
6.1.3 BI报表测试实践/120
6.2 数据挖掘产品测试/128
6.2.1 数据挖掘的定义和流程/128
6.2.2 数据挖掘产品简介/129
6.2.3 数据挖掘产品测试实践/130
6.3 用户行为分析平台测试/139
6.3.1 用户行为分析平台测试概览/139
6.3.2 数据采集阶段测试/140
6.3.3 实时数据处理阶段测试/140
6.3.4 离线数据处理阶段测试/153
6.3.5 数据查询展示阶段测试/153
6.4 本章小结/156

第7章 数据质量管理/157
7.1 数据质量管理概述/157
7.2 数据质量管理流程/158
7.2.1 建立数据质量管理办法/159
7.2.2 制定数据标准/161
7.2.3 数据质量自查评估/162
7.2.4 数据质量问题修复/170
7.3 本章小结/173

第8章 大数据测试平台实践/174
8.1 大数据测试平台背景/174
8.2 大数据测试的开源技术调研/175
8.2.1 great_expectations/176
8.2.2 WeBankFinTech Qualitis/178
8.3 大数据测试的商业方案分析/181
8.3.1 QuerySurge/182
8.3.2 RightData/184
8.4 从零开始搭建大数据测试平台/186
8.4.1 需求分析/187
8.4.2 架构设计/187
8.4.3 功能实现/189
8.4.4 页面演示/196
8.4.5 总结和展望/201
8.5 本章小结/203

第9章 数据治理平台建设/204
9.1 数据治理概述/204
9.1.1 数据治理的基本概念/204
9.1.2 数据治理的重要意义/205
9.1.3 数据治理面临的主要挑战/206
9.1.4 如何开展数据治理/206
9.2 数据治理平台体系/207
9.3 元数据管理平台/208
9.3.1 平台产生背景/208
9.3.2 平台架构/208
9.3.3 模块设计:数据采集/209
9.3.4 模块设计:数据查询/212
9.3.5 模块设计:数据分析/214
9.4 数据质量监控平台/219
9.4.1 平台产生背景/219
9.4.2 平台架构/220
9.4.3 模块设计:规则引擎/221
9.4.4 模块设计:任务中心/230
9.4.5 模块设计:报警系统 /230
9.5 本章小结/232

第10章 DataOps的理念与实践/233
10.1 DataOps概述/233
10.1.1 什么是DataOps/233
10.1.2 为什么需要DataOps/235
10.1.3 DataOps与DevOps、MLOps的联系和区别/237
10.2 DataOps的能力与特性/239
10.2.1 数据工程/239
10.2.2 数据集成/240
10.2.3 数据安全和数据隐私保护/241
10.2.4 数据质量/242
10.2.5 DataOps的4个特性/243
10.3 DataOps技术实践/244
10.3.1 DataOps技术工具/245
10.3.2 数据管道技术示例/246
10.4 本章小结/253

第11章 大数据测试的学习路线和发展趋势/254
11.1 为什么学习大数据测试/254
11.2 如何学习大数据测试/255
11.2.1 大数据测试的学习路线/255
11.2.2 大数据测试的技能图谱/259
11.3 大数据测试的发展趋势/269
11.4 本章小结/270

附录 大数据技术经典面试题/271
参考文献/276

内容介绍

本书全面系统地介绍了大数据的测试技术与质量体系建设。本书共11章,第1~4章涵盖认识大数据,大数据技术生态,数据仓库的设计与构建,以及大数据项目开发流程;第5~7章讲解大数据测试方法、大数据测试实践和数据质量管理;第8~10章介绍大数据测试平台实践、数据治理平台建设,以及DataOps的理念与实践;第11章提供大数据测试学习路线。附录列出了大数据技术经典面试题。

本书适合想要了解大数据技术的读者,以及想要学习和掌握大数据测试与大数据开发的从业者。通过阅读本书,测试工程师可以系统地学习大数据技术基础、大数据开发和大数据测试等知识;大数据开发工程师可以借鉴大数据质量保障的方法,拓宽数据工程实践的思路;技术专家和技术管理者可以了解大数据质量保障体系、数据治理建设和DataOps实践等内容。

书评

随着大数据技术的广泛应用,对于如何将沉淀的海量原始数据进行适当存储、加工和价值挖掘;如何在数据异构且来源多样、数据类型多样和数据量达到一定规模的情况下,解决数据仓库的设计,数据血缘关系,数据的正确性和即时性,以及指标口径一致性等方面的问题,或许你会从本书中找到答案。本书从大数据质量保障的角度介绍了如何应用测试环节提升数据质量,并深入介绍了数据仓库的设计、数据开发和数据管理平台等。本书适合大数据技术人员了解数据研发的整体流程,适合测试工程师了解其职责和价值

——邹宇,携程大数据与AI 应用研发部负责人、VP

大数据已经成为当今社会生活和经济发展的核心元素。如何在工业级产品应用中对这些宝贵的数据资源进行采集、存储、分配、管理和计算分析,已经成为一个难题。本书选择这一领域进行深入研究和探索,汇集了业界相关的Z新实践成果,从理论、方法和实操层面进行分析和总结,为有志于在人工智能和大数据领域持续钻研的产品技术人员提供了参考资料和学习指南。本书提供详细的应用背景介绍和丰富的实践案例,帮助读者快速入门大数据测试。

本书为读者提供了持续精进的路标,希望能够指引更多同路人一起前行。

——蒋凡,京东科技数字城市群数字生活产品部负责人、《智能增长》作者

大数据产品生态体系和技术体系丰富。如何围绕数据生命周期全盘地进行手工测试和自动化回归测试,这是使用大数据平台的企业面临的难题。本书介绍大数据研发和测试的原理和工具,从实际操作层面提供指导,并为数据的可感知、可管理和可使用提供实战指导。

——梁福坤,京东科技数字城市群总架构师

大数据技术相关的图书有很多,却难觅一本侧重大数据产品和应用测试的图书。本书内容翔实、案例丰富,包括大数据技术基础、大数据测试方法、大数据测试实践和数据质量管理等,针对大数据平台建设等进行了案例分析。本书通俗易懂且实用性强,适合测试工程师等进行大数据测试实操。

——杨春晖,工业和信息化部电子第五研究所副总工程师

这是一本很及时的书。大数据不是一个新鲜事物,但对于大数据测试技术,国内很少有人进行系统梳理和总结。本书基于融360 AI 测试团队丰富的大数据测试实践经验,通过系统的知识梳理,整理出一整套完整的大数据测试的理论和实践方法,适合每一个对大数据测试感兴趣并希望学习相关知识的测试工程师。

——徐琨,Testin 云测总裁

DT 时代,数据是基石。大数据测试区别于传统软件功能性测试,大数据测试需要进行大量的数据模型构造和数据核对。本书结合艾辉及其团队的实践经验,从数据的完整性、准确性、安全性和可理解性等方面总结了体系化的测试技术方法与手段,可为读者提供新的思路和启发。

——童庭坚,PerfMa 联合创始人兼首席技术官

在数据层面,如何保证存储、计算、流和智能分析等的正确性,是大数据测试需要解决的问题。本书首先从多个方面介绍了大数据的特性,并对多种相关测试工具进行了详细介绍,然后,从实战的角度,介绍了如何搭建大数据测试平台。相信本书会给测试行业的从业者带来帮助。

——师江帆,龙测科技创始人、CEO

本书的出版正逢其时。本书介绍了大数据测试的方法和技术,数据质量管理,以及如何构建大数据测试平台和数据治理平台,还提供了丰富的案例和代码示例,适合想要了解和正在从事大数据测试的读者阅读。

——朱少民,QECon 大会发起人,《全程软件测试》和《敏捷测试:以持续测试促进持续交付》作者

大数据和人工智能技术在更多领域得到广泛应用,质量是关键。如何保证数据的质量和人工智能系统的质量,成为备受关注的重要主题。本书作者将多年项目实战经验与读者共享,我相信本书一定能给读者带来实实在在的收获。

——周震漪,ISTQB/CSTQB 和TMMi 中国分会副理事长

艾辉和融360 AI 测试团队编著的《大数据测试技术与实践》出版,相信它会成为大数据测试领域的佳作。希望本书可以给数据测试人员带来新的思考和启发。

——张立华(恒温),测试开发专家、TesterHome 社区联合创始人

本书细致且详尽地总结了大数据测试体系,同时融入了自建测试平台的经验。本书可以帮助企业解决大数据测试的难题,可以有效地帮助企业快速构建大数据测试体系,是一本应运而生的佳作。

——黄延胜(思寒),霍格沃兹测试学院创始人

本书既有对大数据测试关键技术的讲解,又有实际大数据项目案例。本书采用实际需求驱动的方式进行讲解,将大数据测试的核心知识点与项目实践相结合。相信本书会帮助初学者快速入门大数据测试。

——茹炳晟,腾讯技术工程事业群基础架构部T4 级专家,腾讯研究院特约研究员,《测试工程师全栈技术进阶与实践》作者

对于智能化的效果,有两个重要的决定因素:数据的质量和模型算法的设计。如何实现大数据的质量保障,成为业界的一个难题。艾辉及其团队在本书中揭示了其成功的实践方法。本书内容翔实,相信会给读者带来启发。

——公直,阿里巴巴资深技术专家

本书从大数据技术的特点出发,深挖质量侧难点。本书结合项目案例介绍大数据测试方法,分析如何从头搭建大数据测试平台,并对DataOps 实践过程进行详细阐述。通过阅读本书,读者会对如何开展大数据测试有全新认识。

——金晖(定源),阿里巴巴淘系技术部高级测试开发专家

本人对大数据质量的关注较少,但通过阅读本书,立刻对大数据的技术生态、项目开发过程,以及DataOps 理念和质量保障体系有了全面了解与系统认识。如果你有数据治理方面的问题,或者正在思索如何定义好的数据质量,那么仔细研究和思考本书中的方法,一定会有所收获。

——林紫嫣,蚂蚁金服高级测试开发专家

由于大数据具有数据量大、数据类型多样等特点,因此需要沉淀出一套有效的大数据测试方法论。本书涵盖大数据生态,大数据开发流程,大数据测试方案与实践,以及大数据平台建设等方面的内容,阐述了大数据测试技术,适合对大数据测试感兴趣的读者阅读。

——孙远,阿里巴巴测试开发专家

大数据作为一种重要且复杂的技术,横跨多个领域。本书内容丰富,又不失前瞻性,实属难得。相信本书能够给读者带来不同的启发。

——吴骏龙,阿里巴巴本地生活前高级测试经理

如果算法是模型的“灵魂”,那么数据就是模型的“血肉”。因此,数据的质量和数量对模型的最终效果起到了决定性作用。本书介绍了大数据质量保障方面的实践方法,提供了可被参考和复用的场景解决方案,非常值得读者借鉴。

——王胜,百度资深测试开发工程师

本书系统介绍了大数据的采集、存储、计算、调度,以及数据仓库的设计等,重点讲解了大数据测试的三大典型场景:数据报表、数据挖掘和用户行为分析的测试方法。本书内容深入浅出,适合初学者了解大数据的开发和测试,同时能帮助大数据相关从业者开拓视野。

——李军亮,京东零售技术效能通道委员会会长

有些读者按照原先测试通用型系统的方法测试大数据产品,往往觉得无从下手,或者感觉测试不到位、不得法。本书介绍大数据基础知识和大数据测试技术,适合想要转型大数据测试或已经在从事相关工作的大数据测试人员阅读。

——熊志男,京东科技工具研发部高级软件开发工程师、测试窝社区联合创始人

技术的发展需要基础质量支撑。数字化技术在不断迭代,如何有效评估其实现效果、质量,显得至关重要。艾辉是一位行业内的知识内容高产者,由他主编的机器学习测试、大数据测试方面的图书,既有基础理论,又有业务实践案例分享。本书内容深入浅出,方便读者快速入门。本书能够给行业从业者带来指引。

——林立,小米集团智能硬件部质量总监、测试总监

2008 年,Hadoop 正式成为Apache 的顶级项目,大数据生态体系逐渐形成。大数据技术具有开源组件多、生产链路长等特点,另外,在大数据的及时性、准确性、一致性和完整性的要求下,出现了数据内容测试、流式计算容量评估等质量保障细分领域,这些都对质量保障相关技术提出了新的挑战。与此同时,业界缺乏大数据质量保障的相关资料。本书系统地介绍了大数据相关技术、质量保障方法和实践方法,并给出了学习路线图。本书是艾辉及其团队多年实践经验的总结,是难得的佳作。

——项旭,贝壳找房质量部高级技术总监

大数据的质量保障是测试过程中的一个难点。数据的准确性如何验证?数据处理过程中如何确认数据是否丢失?实时数据的更新是否实时?本书系统地介绍了BI、数据挖掘,以及实时数据、离线数据的测试方法,分析了如何通过大数据测试平台实践将大数据测试过程和自动化测试方法进行系统化落地。本书注重理论结合实践,是大数据技术和测试领域一本难得的好书。想要了解大数据测试方法的技术人员一定能够从本书中受益。

——张涛,网易传媒测试总监

本书梳理和总结了大数据测试相关的技术与实践经验,为初入大数据领域的学习者指明了方向。本书介绍了大数据测试与传统测试的区别,深入剖析了大数据测试中的重点和难点,是难得的佳作。

——王冬,360 技术中台质量工程部高级总监

在大数据时代,企业开始尝试通过数据进行决策和确定发展方向。数据从采集、传输、处理和存储,到计算分析展示,链路非常长。任何一个环节出错,都会导致数据不可用。而且,问题的排查和定位困难,问题修复成本高。这些会严重影响公司的决策效率和产品迭代速度。本书内容全面,系统地介绍了大数据质量保障的整体思路,提供了大量实践案例,很有指导意义和实用价值。

——郭静,知乎质量效能团队技术总监

本书介绍了大数据质量保障方面的相关技术和体系建设方法,既有丰富的理论知识支撑,又有实际的落地经验分享。无论是大数据测试的初学者,还是大数据测试方面的专家,都能从本书中有所收获。

——李志,字节跳动教育算法中台测试负责人

大数据测试和质量保障受到越来越多的公司的重视。本书系统地阐述了大数据测试的理论和方法,并结合融360 AI 测试团队的实践经验,提供落地思路。本书内容由浅入深、通俗易懂。本书是艾辉及其团队对测试技术领域所做的贡献。我向每一位想了解大数据测试的读者推荐本书!

——董沐,字节跳动Quality Lab 技术经理

本书系统地介绍了大数据的技术和测试方法,以及融360 AI 测试团队在大数据方面的探索和实践。本书针对大数据测试过程中遇到的痛点,阐述了大数据质量体系建设的过程。本书的内容由浅入深,从测试方法论到平台建设,从数据质量保障到数据治理,涵盖了大数据测试的方方面面,能够给正在从事和想要从事大数据测试的读者带来帮助与启发。

——王晶晶,货拉拉测试负责人

大数据测试是业界难点,因为大数据只告诉你它们是什么,而不告诉你它们为什么会这样;大数据并不是准确的,而是混杂的;大数据并不是抽样的,而是海量的全体。在进行大数据测试时,如何生成测试数据、如何做Oracle Checking 等,都是挑战。本书是《机器学习测试入门与实践》后的又一力作。

——丁国富,智联联盟智库专家、软件质量及测试独立咨询师、华为前6 级测试架构师

要做好大数据质量保障工作,不但要掌握大数据测试技术,而且要对大数据技术本身有所了解。本书从大数据技术和大数据测试技术两个维度入手,结合本书编著团队多年项目实践经验,系统地介绍了大数据质量保障体系建设的方方面面。希望关注大数据质量的人士认真阅读本书。

——林冰玉,Thoughtworks 首席软件质量咨询师、质量赋能专家

从数据测试到大数据测试,数据的类型、规模和复杂程度已经不可同日而语。对于从数据“海洋”中筛选出业务所需的数据,如何确保结果可靠、过程正确和响应及时,本书给出了一些实践总结。想要学习大数据测试技术的读者不应该错过本书。

——陈霁(云层),TestOps 创始人、研发效能架构师

作为《机器学习测试入门与实践》的姊妹篇,本书将大数据测试的技术、方法和实践体系化,并提供实践经验。本书内容是团队的真知灼见,是团队的价值体现。希望读者能够通过阅读本书敲开大数据测试的大门。

——陈磊,新奥集团质量总监

283.2° /2832阅读/14点赞 发表评论

登录 后发表评论
认领图书 分享图书
出版社介绍

人民邮电出版社是工业和信息化部主管的大型专业出版社,成立于1953年10月1日。人民邮电出版社坚持“立足信息产业、面向现代社会、传播科学知识、服务科教兴国”的出版宗旨,不断发展壮大,成为集图书、期刊、音像电子出版物和网络出版为一体的,在国内外有专业特色和品牌影响的综合性科技出版大社。