北京尚学堂大数据1903期全套视频教程（视频、源码、课件）

北京尚学堂大数据1903期全套视频教程（视频、源码、课件），五个阶段从零开始，hadoop，分布式，机器学习，数据挖掘，大数据项目实战。

课程目录

├─01_第一阶段 linux和高并发
│ ├─01_LINUX
│ │ ├─01linux_系统安装
│ │ └─02linux_使用和脚本编程
│ │
│ ├─02_高并发负载均衡_LVS
│ │ 01高并发负载均衡-lvs-介绍
│ │ 02高并发负载均衡-网络介绍
│ │ 03高并发负载均衡-lvs-模式
│ │ 04高并发负载均衡-lvs-DR-install
│ │
│ └─03_高并发负载均衡_nginx
│ 05高并发负载均衡-ha
│ 06高并发负载均衡-keepalived
│ 07高并发负载均衡-介绍
│ 08高并发负载均衡-nginx-conf
│ 09高并发负载均衡-nginx-proxy
│ 10高并发负载均衡-session一致性
│
├─02_第二阶段 hadoop体系之离线计算（最新更新Hadoop3）
│ ├─01_hadoop
│ │ ├─01hadoop历史、hadoop存储模型、架构模型、读写流程、伪分布式安装
│ │ ├─02全分布式安装、hadoop 高可用
│ │ ├─03hdfs api使用,MAPREDUCE框架
│ │ ├─04单词统计项目，源码解释
│ │ ├─05mapreduce案例一，二，三
│ │ └─06mapreduce案例四，五，六
│ ├─02_ hive数据仓库
│ │ ├─1. hive架构、搭建、sql语法、函数
│ │ └─2. hive分区、分桶、安全认证、优化
│ ├─03_hbase-NOSQL
│ │ ├─1. hbase介绍、搭建及Java api
│ │ └─2. hbase表设计、protobuffer、MR整合、优化
│ ├─04_zookeeper
│ ├─05_redi-内存数据
│ ├─06_cdh
│ │ ├─01CDH_clouderaManager使用_hue
│ │ └─02CDH_clouderaManager使用_impala_oozie
│ │
│ ├─07_es-搜索引擎
│ │ └─lucene与倒排索引引擎安装 curl命令项目案例
│ └─08_总结
├─03_第三阶段 spark体系之分布式计算
│ ├─01_storm
│ │ ├─01 应用场景架构模型伪分布式与全分布式搭建
│ │ ├─02 异步与同步时时分析框架与源码和实例
│ │ └─03容错事务和项目案例
│ │
│ ├─02_Scala
│ │ ├─1.Scala语言特点,基础用法,类型推断，函数式编程，特质特性,模式匹配，样例类，偏函数
│ │ └─2.Scala隐式转换类型，Actor通信模型，Actor通信模型案例，Scala版本Spark-WordCount
│ └─03_Spark
│ ├─1.初识Spark,Spark编程核心RDD,Spark算子类别详解，Spark算子Java+Scala 版本实现
│ ├─2.Spark持久化算子，Spark集群搭建，Spark基于Yarn任务提交，Spark基于Standalone+Yarn任务提交流程详解
│ ├─3.SparkRDD的宽窄依赖，pipeline计算模型,资源调度与任务调度过程，PVUV案例，Spark任务提交参数详解
│ ├─4.Spark源码之Master启动、Driver注册、Application注册、Master划分资源、Executor启动、任务调度
│ ├─5.广播变量，累加器原理，SparkWEBUI,SparkMasterHA搭建，Spark日志管理配置，SparkShuffle详解
│ ├─6.初识SparkSQL，SparkSQL加载DataFrame方式，Spark on Hive配置，UDF函数
│ ├─7.SparkSQL之UDAF函数详解，开窗函数，初始SparkStreaming，SparkStreaming读取数据详细过程原理及算子操作
│ └─8.Kafka分布式消息系统原理，SparkStreaming与Kafka整合的问题及策略，手动维护kafka 消费者offset
│
├─04_第四阶段机器学习与数据挖掘
│ ├─01_python
│ │ ├─01. python介绍、安装、基础知识、函数、文件操作
│ │ └─02. Python类与对象、设计模式、异常、模块安装、numpy
│ │
│ └─02_机器学习
│ ├─1.线性回归原理及使用，贝叶斯原理使用，KNN算法及案例，KMeans原理及案例
│ │
│ ├─2.KMeans数字聚类案例，KMeans微博聚类案例，逻辑回归算法原理，音乐分类案例及道路预测案例介绍
│ │
│ ├─3.道路预测数据原理，数据集准备，逻辑回归损失函数公式推导，逻辑回归优化，ROC曲线与AUC面积
│ │
│ ├─4.推荐系统之协同过滤，App推荐原理，App推荐系统架构及数据清洗
│ │
│ └─5.构建推荐系统训练集，Dubbo服务生成推荐列表，决策树和随机森林算法原理
│
└─05_第五阶段大数据项目实战
│
├─01_某大型网站日志分析系统
│ ├─1. 数据源讲解及数据收集
│ ├─2. flume、数据存储及ETL
│ ├─3. 利用MapReduce进行模块设计1
│ ├─4. 利用MapReduce进行模块设计2
│ └─5. sqoop讲解、hive进行模块设计、项目优化
│
└─02_Spark项目
├─1.交通项目介绍，数据处理方式，数据模拟，卡扣监控业务分析,自定义累加器实现
├─2.项目任务优化，车辆速度top10,卡扣车辆数top5,车辆轨迹，随机抽取车辆实现
├─3.Spark 调优之资源、代码、并行度、数据本地化、堆外内存调优，Spark解决数据倾斜的对策
└─4.项目业务之区域道路车流量top3,实时道路拥堵统计，PySpark开发环境准备与业务开发

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

北京尚学堂大数据1903期全套视频教程（视频、源码、课件）

课程目录

评论(0)

提示：请文明发言取消回复

北京尚学堂大数据1903期全套视频教程（视频、源码、课件）

课程目录

评论(0)

提示：请文明发言 取消回复

相关文章

2021年最新 Elasticsearch7.8X 入门到精通

八斗大数据培训第六期

八斗大数据培训第五期

提示：请文明发言取消回复