课程背景: 数据和算法在支持企业精细化运营、生产制造、营销、用户体验、供应链、物流等场景得到广泛的应用。 本课程将为学员梳理数据算法在不同领域的实际案例,帮助学员掌握常用的数据模型原理和应用方法。 对高价值用户筛选、反作弊、供需预估和物流配送、成本优化等方向的案例进行现场解析。 对于计划转行数据算法方向的学员,提供理论和实践的综合课程。
培训收益: ◇ 帮助非数据算法专业的团队leader快速理解数据算法的应用场景与脉络。 ◇ 为计划转行数据算法的同学提供实际项目建模经验和解析。 ◇ 了解常用的数据分析模型和经典算法原理与应用落地的流程。 ◇ 学习如何构造营销用户、流失用户、高价值用户的筛选模型。 ◇ 学习如何利用规则和模型构建 反作弊、异常值监控系统。 ◇ 了解如何构建需求预估模型。针对周、天、小时等粒度的未来需求进行预测。 ◇ 了解如何利用运筹优化算法支持相关项目落地。优化项目的建模思想与实际案例。
课程大纲:
第一部分、数据分析探索与应用流程 ◇ 商业数据分析 数据挖掘Road Maps R、python简单介绍 ◇ 数据探索 数据预处理 构建新的变量 异常值处理 数据可视化 ◇ 数据分析应用流程
第二部分、经典预测和分类方法 ◇ 回归分析 相关性 线性回归与拟合 最小二乘法的几何解释 线性回归中的变量选择 回归算法的评估与选择 ◇ KNN 分类器 确定相邻的样本数据 分类规则 参数K的选择 算法优缺点 案例分析:如何选择相似用户? ◇ 逻辑回归 逻辑回归模型 分类算法的评估 案例分析:用户借贷能力判定 ◇ 决策树 迭代分割 纯度的计算 决策树的使用效果 如何避免过拟合 剪枝与终止条件 案例分析:如何利用决策树的提取出业务规则? ◇ (补充)树模型应用——随机森林 案例分析:如何帮助业务方筛选出重要的业务变量?
第三部分、经典聚类算法 ◇ 聚类问题介绍 ◇ 两条数据之间的距离 欧式距离 数值型数据处理与距离函数 类别型数据的距离计算 混合类型数据的距离计算 两个类别之间的距离 最大距离、最小聚类、中心距离 ◇ K-means 如何选择参数K ◇ 层次聚类 案例分析:如何选择相似用户?
第四部分、异常检测与反欺诈 ◇ 异常值检测 异常团体识别 案例分析:无监督反欺诈方案应用 业务思考:如何构建一个反欺诈系统?
第五部分、时间序列预测 ◇ 时间序列回归模型 预测变量筛选 回归预测 非线性回归 相关、因果和预测 ◇ 时间序列分解 时间序列成分 移动平均 经典时间序列分解 STL分解法 趋势性、季节性判定 业务思考:如何对时间序列进行聚类? 分解法预测 时间序列类异常值检测 业务思考:如何评估促销活动效果? ◇ ARIMA模型 平稳性和差分 延迟算子 自回归与移动平均 非季节性arima 参数估计与选择 季节性arima ◇ 高级预测方法 复杂的季节性 向量自回归 神经网络 ◇ 实际预测问题 周数据、天粒度数据以及小时数据预测 预测组合 长序列与短序列预测 训练集与测试集 缺失值与异常值 案例分享:共享单车Daily天粒度需求预测
第六部分、决策优化 ◇ 开源决策优化工具介绍 google or-tools 运筹优化方法介绍 优化算法应用流程 ◇ 案例分享(可选) 电商促销优惠券发放优化:给定用户补贴的预算,如何选择合适的补贴用户。 工厂布局优化:考虑如何减少物料搬运成本(运量和距离)。 仓库选址问题:如何选择服务点,满足服务能力和降低运输成本。 物流配送、车辆路径调度:配送问题综合建模与分析。
讲师介绍:Eddie hou 工作经历 同济工业工程背景,数据算法专家, 具有需求预测、收益管理、反作弊、物流配送路径优化系统等丰富的数据算法实战经验。 在外资企业中享有很高的知名度。 接受咨询或培训的单位包括上海大众汽车、长春西门子汽车电子、联合汽车电子、三维制药等等有限公司以及其他来自全国各地的合资企业。 |