会员
Spark 3.0大数据分析与挖掘:基于机器学习
王晓华 罗凯靖编著更新时间:2023-09-21 10:31:02
最新章节:13.6 小结开会员,本书免费读 >
Spark作为新兴的、应用范围广泛的大数据处理开源框架,吸引了大量的大数据分析与挖掘从业人员进行相关内容的学习与开发,其中ML是Spark3.0机器学习框架使用的核心。本书用于Spark3.0ML大数据分析与挖掘入门,配套示例源码、PPT课件、数据集、思维导图、开发环境和作者答疑服务。本书共分13章,从Spark3.0大数据分析概述、基础安装和配置开始,依次介绍ML的DataFrame、ML的基本概念,以及协同过滤、线性回归、分类、决策树与随机森林、聚类、关联规则、数据降维、特征提取和转换等数据处理方法;最后通过经典的鸢尾花分析实例,回顾前面的学习内容,实现了一个完整的数据分析与挖掘过程。本书采取实例和理论相结合的方式,讲解细致直观,示例丰富,适合Spark3.0机器学习初学者、大数据分析和挖掘人员,也适合高等院校和培训机构人工智能与大数据相关专业的师生教学参考。
品牌:清华大学
上架时间:2022-03-01 00:00:00
出版社:清华大学出版社
本书数字版权由清华大学提供,并由其授权上海阅文信息技术有限公司制作发行
最新章节
王晓华 罗凯靖编著
主页
同类热门书
最新上架
- 会员
智能数据治理:基于大模型、知识图谱
本书基于我国深入实施网络强国和国家大数据战略的大背景,将“大语言模型”“知识图谱”“数据治理”相结合,阐述了大模型、知识图谱在智能数据治理中的应用实践,并以医疗、政务及降碳等行业为例,详细介绍了其数据治理流程及平台构建方法。书中首先阐述了大模型时代知识图谱和智能数据治理之间的协同关系,以儿童孤独症为例介绍了基于CiteSpace软件的医疗知识图谱的构建流程;其次详细阐述了基于神经网络模型的个人健康计算机13.1万字 - 会员
企业级大数据项目实战:用户搜索行为分析系统从0到1
《企业级大数据项目实战:用户搜索行为分析系统从0到1》基于真实业务场景,以项目导向为主线,从0到1全面介绍企业级大数据用户搜索行为分析系统的搭建过程。全书共6章,第1章讲解项目需求与架构设计,详细阐述项目数据流与系统架构;第2章介绍大数据项目开发环境配置,手把手带领读者配置操作系统、Hadoop集群与相关工具,为后续项目实施打下基础;第3~5章逐步实现项目需求,第3章讲解用户行为数据采集模块的开发计算机9万字 - 会员
SQL Server从入门到精通(第5版)
《SQLServer从入门到精通(第5版)》从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了SQLServer开发所必需的各方面技术。全书分为4篇共19章,内容包括数据库基础、SQLServer数据库环境搭建、创建与管理数据库、操作数据表、SQL基础、SQL函数的使用、SQL数据查询基础、SQL数据高级查询、视图的使用、存储过程、触发器、游标的使用、索引与数据完整性、SQL中计算机14.1万字 - 会员
剑指大数据:Flink实时数据仓库项目实战(电商版)
本书从需求规划、需求实现到可视化展示等,遵循项目开发的主要流程,全景介绍了电商行业Flink实时数据仓库的搭建过程。在整个项目的搭建过程中,介绍了主要组件的安装部署、需求实现的具体思路、问题的解决方案等,并穿插了大数据和数据仓库相关的理论知识,包括数据仓库的概念介绍、电商业务概述、数据仓库理论介绍和数据仓库建模等。最核心的内容是代码中对Flink的灵活应用,为读者展示了Flink处理数据的多种可能计算机13.1万字 - 会员
达梦数据库开发实战
达梦数据库是一款非常优秀的国产数据库。本书从实用角度,通过对达梦数据库的体系结构、运行机制的讲解,以及与其他数据库相似功能的对比,帮助读者掌握达梦数据库的基本操作。本书第1章讲解达梦数据库的安装部署;第2章讲述达梦数据库的体系结构,并与Oracle的体系结构进行对比;第3章讲解数据库中最重要的两部分redo和undo;第4章介绍用户管理,重点讲述用户创建和权限;第5章讲解表和索引,并对普通表和堆表计算机10.7万字 - 会员
数据科学技术:文本分析和知识图谱
数据科学的关键技术包括数据存储计算、数据治理、结构化数据分析、语音分析、视觉分析、文本分析和知识图谱等方面。本书的重点是详细介绍文本分析和知识图谱方面的技术。文本分析技术主要包括文本预训练模型、多语种文本分析、文本情感分析、文本机器翻译、文本智能纠错、NL2SQL问答以及ChatGPT大语言模型等。知识图谱技术主要包括知识图谱构建和知识图谱问答等。本书将理论介绍和实践相结合,详细阐述各个技术主题的计算机21.6万字 - 会员
数据库原理及应用实验:基于GaussDB的实现方法
本书是《数据库原理——GaussDB技术及应用》一书配套的辅助教材。全书共分3部分:第一部分为实验指导,共有13个综合实验,每一个实验都是根据教学目标而设计,详细讲述了每一个实验的实验目的、实验任务及实验步骤,从而培养学生掌握关系数据库管理软件技术与应用的技能;第二部分为习题集,是根据主教材各章节内容编写的习题及习题答案,内容广泛,有填空、选择、简答、设计及实验题等多种形式,利求通过对这些习题的训计算机6.9万字 - 会员
数据分析咖哥十话:从思维到实践促进运营增长
本书以案例的形式,介绍从思维模型分析到场景实践的数据分析方法。全书围绕“数据分析”与“运营增长”两大关键要素,在系统介绍数据分析思维、数据分析方法、数据采集技能、数据清洗技能等基础知识的同时,以问题为导向,解读运营与增长的关键性业务内容,在获客、激活、留存、变现、自传播循环等各个核心运营环节展开数据分析实战。本书提供案例相关数据集与源码包,适合数据分析、产品运营、市场营销等行业有数据分析具体业务需计算机12万字 - 会员
分布式数据库基础与应用
本书是一本介绍分布式数据库基础内容与应用的大数据专业类图书,力求培养读者对分布式数据库的应用技能。本书共11章,采用原理+代码实例+综合案例的编写形式,清晰明了地介绍分布式数据库的原理、基础应用、进阶应用及主流工具的使用方法、应用场景,以理实结合为编写要求,让读者能够轻松学习和掌握分布式数据库的内容。本书可以作为高等院校计算机、网络技术等相关专业的教材,也可以作为数据库相关工作的从业人员的参考用书计算机14万字
同类书籍最近更新