大數據建模應用實戰培訓課程-企業內訓-上海威才企業管理咨詢有限公司

課程背景 COURSE BACKGROUND

本課程專注于大數據建模課程，面向數據分析部等專門負責數據分析與建模的人士。主要內容包括數據建模的過程和步驟，以及建模涉及到的分析方法、分析模型，以及模型優化等。

本課程從實際的業務需求出發，對數據分析及數據挖掘技術進行了全面的介紹，通過大量的操作演練，幫助學員掌握數據分析和數據挖掘的思路、方法、工具，從大量的企業經營數據中進行分析，發現業務運作規律，進行客戶洞察，挖掘客戶行為特點，消費行為，實現精準營銷，幫助運營團隊深入理解業務運作，以達到提升學員的數據綜合分析能力，支撐運營決策的目的。

課程收益 PROGRAM BENEFITS

掌握數據建模的基本過程和步驟。
掌握數據建模前的屬性篩選的系統方法，為建模打下基礎。
掌握常用的數值預測模型，包括回歸預測和時序預測，以及其適用場景。
掌握常用的分類預測模型，包括邏輯回歸、決策樹、神經網絡、判別分析等等，以及分類模型的優化。
掌握數據挖掘常用的專題模型。

課程大綱 COURSE OUTLINE

數據建?；具^程
預測建模六步法
選擇模型：基于業務選擇恰當的數據模型
屬性篩選：選擇對目標變量有顯著影響的屬性來建模
訓練模型：采用合適的算法對模型進行訓練，尋找到最合適的模型參數
評估模型：進行評估模型的質量，判斷模型是否可用
優化模型：如果評估結果不理想，則需要對模型進行優化
應用模型：如果評估結果滿足要求，則可應用模型于業務場景
數據挖掘常用的模型
數值預測模型：回歸預測、時序預測等
分類預測模型：邏輯回歸、決策樹、神經網絡、支持向量機等
市場細分：聚類、RFM、PCA等
產品推薦：關聯分析、協同過濾等
產品優化：回歸、隨機效用等
產品定價：定價策略/最優定價等
屬性篩選/特征選擇/變量降維
基于變量本身特征
基于相關性判斷
因子合并（PCA等）
IV值篩選（評分卡使用）
基于信息增益判斷（決策樹使用）
模型評估
模型質量評估指標：R^2、正確率/查全率/查準率/特異性等
預測值評估指標：MAD、MSE/RMSE、MAPE、概率等
模型評估方法：留出法、K拆交叉驗證、自助法等
其它評估：過擬合評估
模型優化
優化模型：選擇新模型/修改模型
優化數據：新增顯著自變量
優化公式：采用新的計算公式
模型實現算法（暫略）
好模型是優化出來的
案例：通信客戶流失分析及預警模型

屬性篩選方法
問題：如何選擇合適的屬性來進行建模預測？
比如：價格是否可用于產品銷量的預測？套餐的合理性是否會影響客戶流失？在欺詐風險中有哪些數據會有異常表現？

屬性篩選/變量降維的常用方法
基于變量本身特征來選擇屬性
基于數據間的相關性來選擇屬性
基于因子合并（如PCA分析）實現變量的合并
利用IV值篩選
基于信息增益來選擇屬性
相關分析（衡量變量間的線性相關性）
問題：這兩個屬性是否會相互影響？影響程度大嗎？
相關分析簡介
相關分析的三個種類
簡單相關分析
偏相關分析
距離相關分析
相關系數的三種計算公式
Pearson相關系數
Spearman相關系數
Kendall相關系數
相關分析的假設檢驗
相關分析的四個基本步驟
演練：體重與腰圍的關系
演練：營銷費用會影響銷售額嗎
演練：哪些因素與汽車銷量有相關性
演練：通信費用與開通月數的相關分析
偏相關分析
偏相關原理：排除不可控因素后的兩變量的相關性
偏相關系數的計算公式
偏相關分析的適用場景
距離相關分析
方差分析(衡量類別變量與數據變量的相關性)
問題：哪些才是影響銷量的關鍵因素？
方差分析的應用場景
方差分析的三個種類
單因素方差分析
多因素方差分析
協方差分析
方差分析的原理
方差分析的四個步驟
解讀方差分析結果的兩個要點
演練：終端擺放位置與終端銷量有關嗎
演練：開通月數對客戶流失的影響分析
演練：客戶學歷對消費水平的影響分析
演練：廣告和價格是影響終端銷量的關鍵因素嗎
演練：營業員的性別、技能級別對產品銷量有影響嗎
演練：尋找影響產品銷量的關鍵因素
多因素方差分析原理
多因素方差分析的作用
多因素方差結果的解讀
演練：廣告形式、地區對銷量的影響因素分析（多因素）
協方差分析原理
協方差分析的適用場景
演練：飼料對生豬體重的影響分析（協方差分析）
列聯分析/卡方檢驗（兩類別變量的相關性分析）
交叉表與列聯表
卡方檢驗的原理
卡方檢驗的幾個計算公式
列聯表分析的適用場景
案例：套餐類型對客戶流失的影響分析
案例：學歷對業務套餐偏好的影響分析
案例：行業/規模對風控的影響分析
相關性分析各種方法的適用場景
主成份分析（PCA）
因子分析的原理
因子個數如何選擇
如何解讀因子含義
案例：提取影響電信客戶流失的主成分分析

回歸預測模型篇
問題：如何預測產品的銷量/銷售金額？如果產品跟隨季節性變動，該如何預測？新產品上市，如果評估銷量上限及銷售增速？
常用的數值預測模型
回歸預測
時序預測
回歸預測/回歸分析
問題：如何預測未來的銷售量（定量分析）？
回歸分析的基本原理和應用場景
回歸分析的種類（一元/多元、線性/曲線）
得到回歸方程的四種常用方法
Excel函數
散點圖+趨勢線
線性回歸工具
規范求解
線性回歸分析的五個步驟
回歸方程結果的解讀要點
評估回歸模型質量的常用指標
評估預測值的準確度的常用指標
演練：散點圖找推廣費用與銷售額的關系（一元線性回歸）
演練：推廣費用、辦公費用與銷售額的關系（多元線性回歸）
演練：讓你的營銷費用預算更準確
演練：如何選擇最佳的回歸預測模型（曲線回歸）
帶分類變量的回歸預測
演練：汽車季度銷量預測
演練：工齡、性別與終端銷量的關系
演練：如何評估銷售目標與資源配置（營業廳）
自動篩選不顯著自變量

回歸預測模型優化篇
回歸分析的基本原理
三個基本概念：總變差、回歸變差、剩余變差
方程的顯著性檢驗：是否可以做回歸分析？
因素的顯著性檢驗：自變量是否可用？
擬合優度檢驗：回歸模型的質量評估？
理解標準誤差的含義：預測的準確性？
回歸模型優化思路：尋找最佳回歸擬合線
如何處理預測離群值（剔除離群值）
如何剔除非顯著因素（剔除不顯著因素）
如何進行非線性關系檢驗（增加非線性自變量）
如何進行相互作用檢驗（增加相互作用自變量）
如何進行多重共線性檢驗（剔除共線性自變量）
如何檢驗誤差項（修改因變量）
如何判斷模型過擬合（模型過擬合判斷）
案例：模型優化案例
規劃求解工具簡介
自定義回歸模型（如何利用規劃求解進行自定義模型）
案例：如何對餐廳客流量進行建模及模型優化
好模型都是優化出來的
時序預測模型
問題：無法找到影響因素，無法回歸建模，怎么辦？隨著業務受季節性因素影響，未來的銷量如何預測？
時序序列簡介
時序分析的原理及應用場景
常見時序預測模型
評估預測值的準確度指標
平均絕對誤差MAD
均方差MSE/RMSE
平均誤差率MAPE
移動平均
應用場景及原理
移動平均種類
一次移動平均
二次移動平均
加權移動平均
移動平均比率法
移動平均關鍵問題
最佳期數N的選擇原則
最優權重系數的選取原則
演練：平板電腦銷量預測及評估
演練：快銷產品季節銷量預測及評估
指數平滑
應用場景及原理
最優平滑系數的選取原則
指數平滑種類
一次指數平滑
二次指數平滑（Brown線性、Holt線性、Holt指數、阻尼線性、阻尼指數）
三次指數平滑
演練：煤炭產量預測
演練：航空旅客量預測及評估
溫特期季節性預測模型
適用場景及原理
Holt-Winters加法模型
Holt-Winters乘法模型
演練：汽車銷量預測及評估
回歸季節預測模型
季節性回歸模型的參數
基于時期t的相加模型
基于時期t的相乘模型
怎樣解讀模型的含義
案例：美國航空旅客里程的季節性趨勢分析
新產品預測模型與S曲線
新產品累計銷量的S曲線模型
如何評估銷量增長的上限以及拐點
珀爾曲線與龔鉑茲曲線
案例：如何預測產品的銷售增長拐點，以及銷量上限
演戲：預測IPad產品的銷量
分類預測模型
問題：如何評估客戶購買產品的可能性？或者說，影響客戶購買意向的產品關鍵特性是什么？
分類預測模型概述
常見分類預測模型
評估分類模型的常用指標
正確率、查全率/查準率、特異性等
邏輯回歸分析模型（LR）
問題：如果評估用戶是否購買產品的概率？
邏輯回歸模型原理及適用場景
邏輯回歸的種類
二項邏輯回歸
多項邏輯回歸
如何解讀邏輯回歸方程
帶分類自變量的邏輯回歸分析
多項邏輯回歸
案例：如何評估用戶是否會購買某產品（二項邏輯回歸）
案例：多品牌選擇模型分析（多項邏輯回歸）
決策樹分類（DT）
問題：如何提取客戶流失者、拖欠貨款者的特征？如何預測其流失的概率？
決策樹分類的原理
決策樹的三個關鍵問題
如何選擇最佳屬性來構建節點
如何分裂變量
如何修剪決策樹
選擇最優屬性
熵、基尼索引、分類錯誤
屬性劃分增益
如何分裂變量
多元劃分與二元劃分
連續變量離散化（最優劃分點）
修剪決策樹
剪枝原則
預剪枝與后剪枝
構建決策樹的四個算法
C5.0、CHAID、CART、QUEST
各種算法的比較
如何選擇最優分類模型？
案例：識別銀行欠貨風險，提取欠貨者的特征
案例：客戶流失預警與客戶挽留模型
人工神經網絡（ANN）
神經網絡概述
神經網絡基本原理
神經網絡的結構
神經網絡的建立步驟
神經網絡的關鍵問題
BP反向傳播網絡（MLP）
徑向基網絡（RBF）
案例：評估銀行用戶拖欠貨款的概率
判別分析（DA）
判別分析原理
距離判別法
典型判別法
貝葉斯判別法
案例：MBA學生錄取判別分析
案例：上市公司類別評估
最近鄰分類（KNN）
基本原理
關鍵問題
貝葉斯分類（NBN）
貝葉斯分類原理
計算類別屬性的條件概率
估計連續屬性的條件概率
貝葉斯網絡種類：TAN/馬爾科夫毯
預測分類概率（計算概率）
案例：評估銀行用戶拖欠貨款的概率

分類模型優化篇（集成方法）
集成方法的基本原理：利用弱分類器構建強分類模型
選取多個數據集，構建多個弱分類器
多個弱分類器投票決定
集成方法/元算法的種類
Bagging算法
Boosting算法
Bagging原理
如何選擇數據集
如何進行投票
隨機森林
Boosting的原理
AdaBoost算法流程
樣本選擇權重計算公式
分類器投票權重計算公式

銀行信用評分卡模型
信用評分卡模型簡介
評分卡的關鍵問題
信用評分卡建立過程
篩選重要屬性
數據集轉化
建立分類模型
計算屬性分值
確定審批閾值
篩選重要屬性
屬性分段
基本概念：WOE、IV
屬性重要性評估
數據集轉化
連續屬性最優分段
計算屬性取值的WOE
建立分類模型
訓練邏輯回歸模型
評估模型
得到字段系數
計算屬性分值
計算補償與刻度值
計算各字段得分
生成評分卡
確定審批閾值
畫K-S曲線
計算K-S值
獲取最優閾值

結束：課程總結與問題答疑。