北京尚学堂大数据1903期全套视频教程(视频、源码、课件),五个阶段从零开始,hadoop,分布式,机器学习,数据挖掘,大数据项目实战。

课程目录

├─01_第一阶段 linux和高并发
│ ├─01_LINUX
│ │ ├─01linux_系统安装
│ │ └─02linux_使用和脚本编程
│ │
│ ├─02_高并发负载均衡_LVS
│ │ 01高并发负载均衡-lvs-介绍
│ │ 02高并发负载均衡-网络介绍
│ │ 03高并发负载均衡-lvs-模式
│ │ 04高并发负载均衡-lvs-DR-install
│ │
│ └─03_高并发负载均衡_nginx
│ 05高并发负载均衡-ha
│ 06高并发负载均衡-keepalived
│ 07高并发负载均衡-介绍
│ 08高并发负载均衡-nginx-conf
│ 09高并发负载均衡-nginx-proxy
│ 10高并发负载均衡-session一致性

├─02_第二阶段 hadoop体系之离线计算(最新更新Hadoop3)
│ ├─01_hadoop
│ │ ├─01hadoop历史、hadoop存储模型、架构模型、读写流程、伪分布式安装
│ │ ├─02全分布式安装、hadoop 高可用
│ │ ├─03hdfs api使用,MAPREDUCE框架
│ │ ├─04单词统计项目,源码解释
│ │ ├─05mapreduce案例一,二,三
│ │ └─06mapreduce案例四,五,六
│ ├─02_ hive数据仓库
│ │ ├─1. hive架构、搭建、sql语法、函数
│ │ └─2. hive分区、分桶、安全认证、优化
│ ├─03_hbase-NOSQL
│ │ ├─1. hbase介绍、搭建及Java api
│ │ └─2. hbase表设计、protobuffer、MR整合、优化
│ ├─04_zookeeper
│ ├─05_redi-内存数据
│ ├─06_cdh
│ │ ├─01CDH_clouderaManager使用_hue
│ │ └─02CDH_clouderaManager使用_impala_oozie
│ │
│ ├─07_es-搜索引擎
│ │ └─lucene与倒排索引 引擎安装 curl命令 项目案例
│ └─08_总结
├─03_第三阶段 spark体系之分布式计算
│ ├─01_storm
│ │ ├─01 应用场景 架构模型 伪分布式与全分布式搭建
│ │ ├─02 异步与同步时时分析框架与源码和实例
│ │ └─03容错 事务和项目案例
│ │
│ ├─02_Scala
│ │ ├─1.Scala语言特点,基础用法,类型推断,函数式编程,特质特性,模式匹配,样例类,偏函数
│ │ └─2.Scala隐式转换类型,Actor通信模型,Actor通信模型案例,Scala版本Spark-WordCount
│ └─03_Spark
│ ├─1.初识Spark,Spark编程核心RDD,Spark算子类别详解,Spark算子Java+Scala 版本实现
│ ├─2.Spark持久化算子,Spark集群搭建,Spark基于Yarn任务提交,Spark基于Standalone+Yarn任务提交流程详解
│ ├─3.SparkRDD的宽窄依赖,pipeline计算模型,资源调度与任务调度过程,PVUV案例,Spark任务提交参数详解
│ ├─4.Spark源码之Master启动、Driver注册、Application注册、Master划分资源、Executor启动、任务调度
│ ├─5.广播变量,累加器原理,SparkWEBUI,SparkMasterHA搭建,Spark日志管理配置,SparkShuffle详解
│ ├─6.初识SparkSQL,SparkSQL加载DataFrame方式,Spark on Hive配置,UDF函数
│ ├─7.SparkSQL之UDAF函数详解,开窗函数,初始SparkStreaming,SparkStreaming读取数据详细过程原理及算子操作
│ └─8.Kafka分布式消息系统原理,SparkStreaming与Kafka整合的问题及策略,手动维护kafka 消费者offset

├─04_第四阶段 机器学习与数据挖掘
│ ├─01_python
│ │ ├─01. python介绍、安装、基础知识、函数、文件操作
│ │ └─02. Python类与对象、设计模式、异常、模块安装、numpy
│ │
│ └─02_机器学习
│ ├─1.线性回归原理及使用,贝叶斯原理使用,KNN算法及案例,KMeans原理及案例
│ │
│ ├─2.KMeans数字聚类案例,KMeans微博聚类案例,逻辑回归算法原理,音乐分类案例及道路预测案例介绍
│ │
│ ├─3.道路预测数据原理,数据集准备,逻辑回归损失函数公式推导,逻辑回归优化,ROC曲线与AUC面积
│ │
│ ├─4.推荐系统之协同过滤,App推荐原理,App推荐系统架构及数据清洗
│ │
│ └─5.构建推荐系统训练集,Dubbo服务生成推荐列表,决策树和随机森林算法原理

└─05_第五阶段 大数据项目实战

├─01_某大型网站日志分析系统
│ ├─1. 数据源讲解及数据收集
│ ├─2. flume、数据存储及ETL
│ ├─3. 利用MapReduce进行模块设计1
│ ├─4. 利用MapReduce进行模块设计2
│ └─5. sqoop讲解、hive进行模块设计、项目优化

└─02_Spark项目
├─1.交通项目介绍,数据处理方式,数据模拟,卡扣监控业务分析,自定义累加器实现
├─2.项目任务优化,车辆速度top10,卡扣车辆数top5,车辆轨迹,随机抽取车辆实现
├─3.Spark 调优之资源、代码、并行度、数据本地化、堆外内存调优,Spark解决数据倾斜的对策
└─4.项目业务之区域道路车流量top3,实时道路拥堵统计,PySpark开发环境准备与业务开发

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。