咨詢熱線 400-001-5729

CDA數(shù)據(jù)分析師怎么挖掘數(shù)據(jù)

發(fā)布時(shí)間:2023-03-01 13:48:39

數(shù)據(jù)分析師培訓(xùn)班

    數(shù)據(jù)分析
    探索性數(shù)據(jù)分析(ExploratoryDataAnalysis,EDA)是指對(duì)已有數(shù)據(jù)在盡量少的先驗(yàn)假設(shè)下通過(guò)作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。
    圖片
    常用的第三方庫(kù)
    數(shù)據(jù)科學(xué)庫(kù)
    pandas:用于分組、過(guò)濾和組合數(shù)據(jù),還提供了時(shí)間序列功能。
    numpy:處理大型的多維數(shù)組和矩陣
    scipy:用于解決線性代數(shù)、概率論、積分計(jì)算等任務(wù)
    數(shù)據(jù)可視化庫(kù)
    matplotlib:構(gòu)建各種圖表,從直方圖和散點(diǎn)圖到非笛卡爾坐標(biāo)圖等
    seaborn:提供了豐富的可視化圖庫(kù),包括時(shí)間序列、聯(lián)合圖和小提琴圖等復(fù)雜的類型。
    常用函數(shù)
    數(shù)據(jù)簡(jiǎn)略觀測(cè)
    head():觀察數(shù)據(jù)讀取是否準(zhǔn)確,常讀取前5行數(shù)據(jù)。
    shape:讀取數(shù)據(jù)集的維度。
    數(shù)據(jù)總覽
    describe():包含每列的統(tǒng)計(jì)量,個(gè)數(shù)、平均值、方差、最小值、中位數(shù)、最大值等。
    數(shù)據(jù)類型info():了解數(shù)據(jù)每列的type,了解是否存在除了nan以外的特殊符號(hào)異常。
    數(shù)據(jù)檢測(cè)
    缺失值檢測(cè)
    查看每列的存在nan情況
    排序函數(shù)sort_values():將數(shù)據(jù)集依照某個(gè)字段中的數(shù)據(jù)進(jìn)行排序,該函數(shù)即可根據(jù)指定列數(shù)據(jù)也可根據(jù)指定行的
    可視化nan值與缺失值
    異常值檢測(cè)
    3σ原則:拉依達(dá)準(zhǔn)則,該準(zhǔn)則具體來(lái)說(shuō),就是先假設(shè)一組檢測(cè)數(shù)據(jù)只含有隨機(jī)誤差,對(duì)原始數(shù)據(jù)進(jìn)行計(jì)算處理得到標(biāo)準(zhǔn)差,然后按一定的概率確定一個(gè)區(qū)間,認(rèn)為誤差超過(guò)這個(gè)區(qū)間的就屬于異常值。
    箱線圖:依據(jù)實(shí)際數(shù)據(jù)繪制,真實(shí)、直觀地表現(xiàn)出了數(shù)據(jù)分布的本來(lái)面貌,且沒(méi)有對(duì)數(shù)據(jù)作任何限制性要求(3σ原則要求數(shù)據(jù)服從正態(tài)分布或近似服從正態(tài)分布),其判斷異常值的標(biāo)準(zhǔn)以四分位數(shù)和四分位距為基礎(chǔ)。
    預(yù)測(cè)分布
    總體分布概況:
    無(wú)接觸約翰遜分布:
    正態(tài)分布
    圖片
    很多模型假設(shè)數(shù)據(jù)服從正態(tài)分布,數(shù)據(jù)整體服從正態(tài)分布,樣本均值和方差則相互獨(dú)立。當(dāng)樣本不服從正態(tài)分布時(shí),可以做如下轉(zhuǎn)換:
    線性變化z-scores:基于原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standarddeviation)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化。將A的原始值x使用z-score標(biāo)準(zhǔn)化到x’
    Boxcox變換:一種廣義冪變換方法,是統(tǒng)計(jì)建模中常用的一種數(shù)據(jù)變換,用于連續(xù)的響應(yīng)變量不滿足正態(tài)分布的情況。
    yeo-johnson變換:是冪變換(powertransformation)的方法之一,通過(guò)構(gòu)建一組單調(diào)函數(shù)對(duì)隨機(jī)變量進(jìn)行數(shù)據(jù)變換。
    查看skeness和kurtosis
    skeness:衡量隨機(jī)變量概率分布的不對(duì)稱性,是相對(duì)于平均值不對(duì)稱程度的度量,通過(guò)對(duì)偏度系數(shù)的測(cè)量,我們能夠判定數(shù)據(jù)分布的不對(duì)稱程度以及方向。
    kurtosis:研究數(shù)據(jù)分布陡峭或平滑的統(tǒng)計(jì)量,通過(guò)對(duì)峰度系數(shù)的測(cè)量,我們能夠判定數(shù)據(jù)相對(duì)于正態(tài)分布而言是更陡峭/平緩。
    圖片
    預(yù)測(cè)值的具體頻數(shù)
    當(dāng)某范圍預(yù)測(cè)值很少時(shí),可將其當(dāng)作異常值處理填充或刪除。若頻數(shù)很失常,需對(duì)數(shù)據(jù)進(jìn)行處理,例如進(jìn)行l(wèi)og變換,使數(shù)據(jù)分布較均勻,可據(jù)處理后的數(shù)據(jù)進(jìn)行預(yù)測(cè),這也是預(yù)測(cè)問(wèn)題常用的技巧。
    特征分析
    數(shù)字特征
    相關(guān)性分析:對(duì)兩個(gè)或多個(gè)具備相關(guān)性的變量元素進(jìn)行分析,從而衡量?jī)蓚(gè)變量因素之間的相關(guān)密切程度。
    特征的偏度和峰度
    數(shù)字特征分布可視化
    pd.melt():處理數(shù)據(jù),透視表格,可將寬數(shù)據(jù)轉(zhuǎn)化為長(zhǎng)數(shù)據(jù),以便于后續(xù)分析。形成的數(shù)據(jù)即為,鍵:各特征名稱,值:特征對(duì)應(yīng)的值
    sns.FacetGrid():先sns.FacetGrid()畫(huà)出輪廓,再map()填充內(nèi)容
    sns.pairplot():展示變量?jī)蓛芍g的關(guān)系(線性或非線性,有無(wú)較為明顯的相關(guān)關(guān)系)。
    類別特征
    unique分布:對(duì)于一維數(shù)組或者列表,unique函數(shù)去除其中重復(fù)的元素,并按元素由大到小返回一個(gè)新的無(wú)元素重復(fù)的元組或者列表。
    可視化:
    箱型圖可視化:直觀識(shí)別數(shù)據(jù)中的離群點(diǎn),判斷數(shù)據(jù)離散分布情況,了解數(shù)據(jù)分布狀態(tài)。
    小提琴圖可視化:用于顯示數(shù)據(jù)分布及概率密度,這種圖表結(jié)合了箱形圖和密度圖的特征,主要用來(lái)顯示數(shù)據(jù)的分布形狀
    柱形圖可視化類別
    每個(gè)類別頻數(shù)可視化
    數(shù)據(jù)清洗
    數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限而已。俗話說(shuō):garbagein,garbageout。分析完數(shù)據(jù)后,特征工程前,必不可少的步驟是對(duì)數(shù)據(jù)進(jìn)行清洗。
    數(shù)據(jù)清洗作用是利用有關(guān)技術(shù)如數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘或預(yù)定義的清理規(guī)則將臟數(shù)據(jù)轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。主要包括缺失值處理、異常值處理、數(shù)據(jù)分桶、特征歸一化/標(biāo)準(zhǔn)化等流程。
    圖片
    缺失值處理
    關(guān)于缺失值處理的方式,有幾種情況:
    不處理:針對(duì)xgboost等樹(shù)模型,有些模型有處理缺失的機(jī)制,所以可以不處理;
    如果缺失的太多,可以考慮刪除該列;
    插值補(bǔ)全(均值,中位數(shù),眾數(shù),建模預(yù)測(cè),多重插補(bǔ)等);
    分箱處理,缺失值一個(gè)箱。
    異常值處理
    常用的異常值處理操作包括BOX-COX轉(zhuǎn)換(處理有偏分布),箱線圖分析刪除異常值,長(zhǎng)尾截?cái)嗟确绞,?dāng)然這些操作一般都是處理數(shù)值型的數(shù)據(jù)。
    BOX-COX轉(zhuǎn)換:用于連續(xù)的變量不滿足正態(tài)的時(shí)候,在做線性回歸的過(guò)程中,一般需要做線性模型假定。
    箱線圖分析:依據(jù)實(shí)際數(shù)據(jù)繪制,真實(shí)、直觀地表現(xiàn)出了數(shù)據(jù)分布的本來(lái)面貌,其判斷異常值的標(biāo)準(zhǔn)以四分位數(shù)和四分位距為基礎(chǔ)。
    數(shù)據(jù)分桶
    連續(xù)值經(jīng)常離散化或者分離成“箱子”進(jìn)行分析,為什么要做數(shù)據(jù)分桶呢?
    離散后稀疏向量?jī)?nèi)積乘法運(yùn)算速度更快,計(jì)算結(jié)果也方便存儲(chǔ),容易擴(kuò)展;
    離散后的特征對(duì)異常值更具魯棒性,如age>30為1否則為0,對(duì)于年齡為200的也不會(huì)對(duì)模型造成很大的干擾;
    LR屬于廣義線性模型,表達(dá)能力有限,經(jīng)過(guò)離散化后,每個(gè)變量有單獨(dú)的權(quán)重,這相當(dāng)于引入了非線性,能夠提升模型的表達(dá)能力,加大擬合;
    離散后特征可以進(jìn)行特征交叉,提升表達(dá)能力,由M+N個(gè)變量編程M*N個(gè)變量,進(jìn)一步引入非線形,提升了表達(dá)能力;
    特征離散后模型更穩(wěn)定,如用戶年齡區(qū)間,不會(huì)因?yàn)橛脩裟挲g長(zhǎng)了一歲就變化
    當(dāng)然還有很多原因,LightGBM在改進(jìn)XGBoost時(shí)就增加了數(shù)據(jù)分桶,增強(qiáng)了模型的泛化性,F(xiàn)在介紹數(shù)據(jù)分桶的方式有:
    等頻分桶:區(qū)間的邊界值要經(jīng)過(guò)選擇,使得每個(gè)區(qū)間包含大致相等的實(shí)例數(shù)量。比如說(shuō)N=10,每個(gè)區(qū)間應(yīng)該包含大約10%的實(shí)例。
    等距分桶:從最小值到最大值之間,均分為N等份;
    Best-KS分桶:類似利用基尼指數(shù)進(jìn)行二分類;
    卡方分桶:自底向上的(即基于合并的)數(shù)據(jù)離散化方法。它依賴于卡方檢驗(yàn):具有最小卡方值的相鄰區(qū)間合并在一起,直到滿足確定的停止準(zhǔn)則。
    數(shù)據(jù)轉(zhuǎn)換
    數(shù)據(jù)轉(zhuǎn)換的方式有:
    數(shù)據(jù)歸一化(MinMaxScaler);
    標(biāo)準(zhǔn)化(StandardScaler);
    對(duì)數(shù)變換(log1p);
    轉(zhuǎn)換數(shù)據(jù)類型(astype);
    獨(dú)熱編碼(OneHotEncoder);
    標(biāo)簽編碼(LabelEncoder);
    修復(fù)偏斜特征(boxcox1p)等。

以上文章由成都CDA數(shù)據(jù)分析師培訓(xùn)機(jī)構(gòu)課程顧問(wèn)整理編輯發(fā)布,部分文章來(lái)自網(wǎng)絡(luò)內(nèi)容真實(shí)性請(qǐng)自行核實(shí)或聯(lián)系我們,了解相關(guān)專業(yè)課程信息您可在線咨詢也可免費(fèi)申請(qǐng)?jiān)囌n。關(guān)注官方微信了解更多:150 3333 6050

免 費(fèi) 申 請(qǐng) 試 課