win7系統下載
當前位置: 首頁 > 硬件軟件教程 > 詳細頁面

如何應用SPSS探索性區分(SPSS迅速檢查數據異常值)

發布時間:2025-05-04 文章來源:xp下載站 瀏覽:

SPSS由IBM公司出品,它提供了包括描述性統計、推斷性統計、因子分析、聚類分析、回歸分析等多種統計分析功能,并包括文本分析、機器學習算法、數據分析模型等。SPSS的界面友好,易于操作,能夠快速從數據中提取有用的洞察和分析,廣泛應用于教育、心理、醫學、市場、人口、保險等多個研究領域,也用于產品質量控制、人事檔案管理和日常統計報表等。

探索性分析中比較常用的功能是,通過數據過濾的功能,如分析數據中的極值、平均值、方差等,識別數據中的異常值;或使用檢驗的方法,判斷后續使用的統計分析方法是否合適等,比如數據的正態分布假設是否成立。

一、示例數據

本文中,我們將會分析一組包含性別、客單價的數據。

通過探索性分析,查看數據中是否存在一些異常值,以及檢驗不同性別的客單價數據是否符合正態分布。

為什么要檢驗數據是否正態分布?這是因為在一些相關性分析(或其他分析)中,是以數據正態分布為前提進行統計分析的,如果數據不滿足正態分布的假設,分析得出的結果就會不準確。

示例數據

圖1:示例數據

二、應用探索性分析

如圖2所示,我們先打開IBM SPSS Statistics的探索分析選項(分析-描述統計-探索),然后再逐步演示操作。

探索性分析

圖2:探索性分析

1、選擇變量

如圖3所示,探索分析設置面板中的選項含義如下:

1. 因變量列表,即隨自變量變化的數值,本例中選取客單價作為因變量

2. 因子列表,用于定義個案組,可選擇一個或多個因子變量,本例中選取性別

3. 個案標注依據,用于標記個案,本例中選取賬號

通過以上的設置,我們將會獲取到不同性別客單價的探索性分析結果。

頻率分析中的圖表功能

圖3:頻率分析中的圖表功能

2、應用統計分析

完成變量的選擇后,單擊右側的統計,開啟如圖4所示的統計面板,其中的數值應用如下:

1. 描述,提供了平均值、中位數、方差、最大值、偏度等統計數值,可設置平均值的置信區間

2. M-估計量,為每個個案的數值應用權重,有助于減少極端值、異常值對平均值和中位數的影響

3. 離群值,即極值的分析,包含最大值、最小值

4. 百分位數,可將排序后的數據進行指定百分位值分組

本例中,我們選取了描述、M-估計值與離群值的數值。

探索性統計分析選項

圖4:探索性統計分析選項

3、解讀統計分析結果

從分析結果來看,如圖5所示,當前數據包含了50個男性客單價個案,以及49個女性客單價個案。

頻數統計

圖5:頻數統計

如圖6所示,從描述數據可以看到,男性的客單價平均值為100.8,而女性客單價平均值僅為47.6

而男性客單價平均值的95%置信區間上限中,平均值達到188,說明存在一些極端值,進一步查看最大值數據,發現最大值達到2000。

描述性數值

圖6:描述性數值

這個最大值2000是單個個案,還是多個個案呢?另外,除了最大值外,是否存在其他極端值。為了解答以上問題,我們可以進一步查看極值分析。

如圖7所示,可以看到,男性客單價中,賬號77與賬號85的客單價都屬于極端值。

極值分析

圖7:極值分析

為了避免這些極值的影響,我們可以查看M估計量。如圖8所示,經過M估計量的加權后,男性客單價平均值就變得比較正常了。

M估計值

圖8:M估計值

綜上所示,通過IBM SPSS Statistics探索性分析的描述性統計數值,可獲取到數據的平均值、極值等統計數值,有助于檢查數據中的異常值情況。


世界上許多有影響的報刊雜志就SPSS給予了高度的評價。
久久亚洲国产的中文