当前位置:万古网校 > 职业培训 > 大数据培训哪些内容?大数据培训课程大纲

大数据培训哪些内容?大数据培训课程大纲


  随着IT互联网大数据在市场上十分火热,不少大数据培训机构如雨后春笋般活跃在各大头条,很多朋友或许因为本行业前景不好想转行大数据,或者因为了解大数据的前景想转行大数据等等各种原因。下面字母网小编为大家讲解下大数据培训哪些内容?大数据培训课程大纲。

  一、大数据处理技术-基于Hadoop/Yarn的实战(含Spark、Storm和Docker应用介绍 )

  本课程从大数据技术以及Hadoop/Yarn实战的角度,结合理论和实践,全方位地介绍Hadoop/Yarn这一高性能处理大数据工具的开发技巧。本课程涉及的主题包括:Hadoop/Yarn分布式文件系统DFS;MapReduce的的工作机制、类型和格式;如何构建和管理Hadoop/Yarn集群;Pig Latin语言的使用技巧;Hive数据仓库工具介绍;HBase和Zookeeper工具的使用和管理;开源数据采集工具sqoop。

  本课程教学过程中还提供了案例分析来帮助学员了解如何用Hadoop/Yarn系列工具来解决具体的问题,并介绍了从大数据中挖掘出有价值的信息的关键。

  第一讲 云计算及大数据处理技术介绍

  第二讲 Google的关键技术

  第三讲 Hadoop系统及HDFS

  第四讲 MapReduce计算模型设计

  第五讲 Pig 数据流处理工具

  第六讲 云数据仓库Hive

  第七讲 HBase和NoSQL

  第八讲 数据抽取工具Sqoop

  第九讲 Hadoop与其他云数据处理技术的融合

  二、大数据实时处理–基于Spark的大数据实时处理及应用技术

  课程中结合实例,介绍图工具GraphX如何发现社交网络中的人际关系,大数据挖掘工具MLlib如何进行商品聚类和电影推荐,以及Streaming流挖掘工具,并探讨了Spark与Docker等云环境下新技术的结合,分析了其应用前景。

  本课程教学过程中还提供了案例分析来帮助学员了解如何用Spark实时大数据工具来解决业界的问题,并介绍了Spark生产环境搭建的相关知识。

  第一讲 Spark大数据实时处理技术

  第二讲 Spark安装配置及监控

  第三讲 Scala编程语言使用概述

  第四讲 Spark分布式计算框架

  第五讲 Spark内部工作机制详解

  第六讲 Spark数据读取与存储

  第七讲 Spark通信模块和容错机制

  第八讲 SQL On Spark

  第九讲 Spark流数据处理工具Streaming

  第十讲 Spark中的大数据挖掘工具MLlib

  第十一讲 Spark大规模图处理工具GraphX

  第十二讲 Spark与其他大数据技术的融合与应用

  三、Storm大数据流式处理技术

  本课程从大数据流式处理技术以及Storm实战的角度,理论和实践相结合,全方位地介绍Storm大数据流式处理工具的原理和内核。以案例分析的方式来帮助学员了解如何用BDAS系列工具来解决具体的问题,并介绍了从大数据中挖掘出有价值的信息的关键。

  第一讲 Storm大数据处理介绍

  第二讲 Storm配置和容错机制

  第三讲 Storm可靠性及消息传输

  第四讲 Storm拓扑及流分组

  第五讲 Spout和Bolt详解

  第六讲 分布式DPRC

  第七讲 Storm事务拓扑

  第八讲 Storm中的Trident

  第九讲 Trident的状态

  第十讲 Storm企业应用

  四、大数据分布式存储系统

  在大数据时代,很多企业的数据都是逐步积累的,这就要求存储系统有很好的横向扩展能力;而要对传统存储设备进行横向扩展,会带来很高的成本,但是分布式存储却能够比较好的解决这样的问题。

  第一讲 分布式存储系统概述

  第二讲 大数据集(超大文件)存储

  第三讲 海量小文件存储

  第四讲 分布式存储技术发展新动向和趋势

大数据培训哪些内容?大数据培训课程大纲

  五、大数据前沿技术分析与应用

  大数据相关技术最近几年出现了井喷的趋势,众多技术纷纷出现,典型的系统包括Hadoop、Spark、Flume、Scribe、Kafka、Storm、Mahout、MLlib、Docker等,涵盖网络数据爬取、日志采集、分布式消息订阅、大数据分析挖掘等方面,涉及离线批处理、实时处理、流式处理等多种处理方式。这些技术解决不同的应用需求,涉及面广,技术要求高,交叉知识范围广,知识内容更新频繁,要理清其中的关系,从中发现最适合本机构的技术,成为了目前各机构技术专家的一个难点。

  第一讲 大数据技术基础

  第二讲 批处理大数据平台Hadoop

  第三讲 实时大数据平台Spark

  第四讲 流式大数据平台Storm

  第五讲 Python网络爬虫

  第六讲 大数据日志采集工具Flume

  第七讲 分布式消息订阅工具Kafka

  第八讲 NoSQL云数据处理工具

  第九讲 大数据中的SQL工具

  第十讲 大数据分析挖掘工具

  第十一讲 资源虚拟化工具Docker

  第十二讲 大数据技术展望

  六、数据仓库与数据挖掘(结合SPSS和WEKA)

  本课程重在突出数据仓库与数据挖掘决策支持的本质,介绍数据挖掘的各种方法、技术实现手段,通过对实例的深入剖析解释它们的原理。

  第一讲 数据仓库原理及联机分析技术介绍

  第二讲 数据仓库设计与开发

  第三讲 基于数据仓库的决策支持系统

  第四讲 数据仓库案例剖析

  第五讲 数据挖掘与知识发现

  第六讲 关联分析算法及其案例

  第七讲 聚类分析算法及其案例

  第八讲 其它数据挖掘算法介绍

  七、Python和R数据挖掘技术-基于Python和R语言的数据挖掘和统计分析技术

  本课程将对基于Python和R语言进行数据处理、数据探索的基本方法,利用R语言实现模型选择、Logistic回归及决策树算法,以及贝叶斯算法及支持向量机、神经网络等算法原理及实现进行讲解。

  第一讲 数据挖掘,Python和R简介

  第二讲 数据的导入与导出

  第三讲 数据可视化展现

  第四讲 决策树与随机森林

  第五讲 回归分析

  第六讲 聚类分析

  第七讲 离群点检测

  第八讲 时间序列分析

  第九讲 关联规则

  第十讲 社交网络分析

  八、大数据分析挖掘-基于Hadoop/Mahout/MLlib的大数据挖掘(含Spark、Storm和Docker应用介绍 )

  本课程从大数据挖掘分析技术实战的角度,结合理论和实践,全方位地介绍Mahout和 MLlib等大数据挖掘工具的开发技巧。本课程涉及的主题包括:大数据挖掘及其背景,Mahout和 MLlib大数据挖掘工具,推荐系统及电影推荐案例,分类技术及聚类分析,以及与流挖掘和Docker技术的结合,分析了大数据挖掘前景分析。

  本课程教学过程中还提供了案例分析来帮助学员了解如何用Mahout和 MLlib挖掘工具来解决具体的问题,并介绍了从大数据中挖掘出有价值的信息的关键。

  第一讲 大数据挖掘及其背景

  第二讲 MapReduce/DAG计算模式

  第三讲 云挖掘工具Mahout/MLib

  第四讲 推荐系统及其应用开发

  第五讲 分类技术及其应用

  第六讲 聚类技术及其应用

  第七讲 关联规则和相似项发现

  第八讲 流数据挖掘相关技术

  第九讲 云环境下大数据挖掘应用

  九、Spark大数据挖掘工具MLlib实战(机器学习)

  本课程主要讲解Spark MLlib,Spark MLlib是一种高效、快速、可扩展的分布式计算框架,实现了常用的机器学习,如:聚类、分类、回归等算法。讲解各个算法的理论、详细展示Spark源码实现,最后均会通过实例进行解析实战,帮助大家真正从理论到实践全面掌握Spark MLlib分布式机器学习和大数据挖掘方法。

  第一讲 Spark大数据实时处理技术

  第二讲 Spark安装配置及监控

  第三讲 Scala编程语言和分布式计算模型

  第四讲 Spark MLlib线性回归和逻辑回归算法

  第五讲 Spark MLlib贝叶斯分类算法

  第六讲 Spark MLlib决策树算法

  第七讲 Spark MLlib聚类算法

  第八讲 Spark MLlib关联规则算法

  第九讲 Spark MLlib个性化推荐算法

  第十讲 Spark MLlib神经网络算法

  十、Python语言基础及数据分析技术

  Python语法简洁清晰,Python具有丰富和强大的库。能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。 Python包括一套完整的数据处理、计算和制图软件系统;简便而强大的编程语言:可操纵数据的输入和输入,可实现分支、循环,用户可自定义功能。

  本课程将对基于Python语言进行数据处理、数据探索的基本方法,并对Python语言算法原理及实现进行讲解。

  第一讲 基础知识

  第二讲 Python数据结构

  第三讲 选择与循环

  第四讲 字符串与正则表达式

  第五讲 函数设计与使用

  第六讲 面向对象程序设计

  第七讲 文件操作

  第八讲GUI编程

  第九讲 数据库编程

  第十讲 科学计算与可视化

  第十一讲 大数据处理

  十一、大数据可视化技术与应用

  本课程立足于可视化的本质问题,从设计的角度讲述数据可视化技术,而非可视化实现算法。

  课程通过演绎可视化设计的基本流程、常用工具和方法,加上针对典型数据类型可视化方法的案例分析,以启发学员思考,达到以更加丰富的可视化方法,运用各种交互设计手段进行可视化分析与探索,深入挖掘自身现有业务数据价值的目的。

  第一讲 数据可视化概述

  第二讲 可视化设计基础

  第三讲 可视化编码基础

  第四讲 地理空间数据可视化方法

  第五讲 时变数据可视化方法

  第六讲 关系数据可视化方法

  第七讲 高维数据可视化方法

  第八讲 文本数据可视化方法

  第九讲 可视化交互设计方法

  十二、云计算与大数据处理技术

  本课程分别从多个角度分析在面对海量数据处理的困难时,不同的应用体系是如何解决问题并获得成功的。研究这些已有的体系不是目的,而是希望学员能够通过学习这些解决问题的方法和思路,通过归纳整理深入理解,再根据自己所面对的领域特征,形成解决具体实际问题的方案。通过本课程学习,希望推动国内云计算项目开发上升到一个新水平。

  第一讲 云计算的概念与现状

  第二讲 从Google云计算体系,理解海量数据处理的方法

  第三讲 从Hadoop云计算项目,进一步研究云数据处理方法

  第四讲 从Windows Azure,理解平台即服务的本质

  第五讲 从Amazon云计算,讨论如何提供云服务

  第六讲 实施云计算的关键点:安全策略

  第七讲 当前数据中心如何向云计算环境转变?

  第八讲 基础设施即服务(IaaS)关键实现技术

  第九讲 软件即服务(SaaS)关键实现技术

  以上就是关于“大数据培训哪些内容?大数据培训课程大纲”的内容分享,如果您对选择大数据培训机构感兴趣的话,就点击这里吧!http://www.zhaozimu.com/zhiye/data/62.html



-->

联系我们

17621386012

在线咨询: 点击这里给我发消息

邮件:1260585560@qq.com

时间:周一至周五,8:30-20:30,节假日休息

扫一扫,关注微信