สถิติ one-sample t-test independent t-test/paired t-test การวิเคราะห์ทางสถิติด้วยโปรแกรม STATA

การวิเคราะห์ทางสถิติดว้ ยโปรแกรม STATA
สถิติ one-sample t-test
independent t-test/paired t-test
ผศ. นิคม ถนอมเสียง
ภาควิชาชีวสถิติและประชากรศาสตร์
คณะสาธารณสุขศาสตร์ มหาวิทยาลัยขอนแก่น
Email: [email protected]
WebPage: http://home.kku.ac.th/nikom
ปัญหาการวิจัย
ทบทวนเอกสาร/วิจัย
รายงานผล
กําหนดตัวแปรทีเ$ กีย$ วข้ อง
วัตถประสงค์
/สมมติุ ฐาน
ุ
การแปลผลข้ อมลู
การวิเคราะห์ ข้อมลู
กระบวนการวิจัย
รปแบบการวิ
จัย
ู
Research Process
ประชากร/ตัวอย่ าง
การรวบรวมข้ อมลู
1
การพิจารณาใช้ สถิติเพือ$ ทดสอบสมมติุ ฐาน
1. คําถามหรือวัตถประสงค์
ของการวิจัย
ุ
(objective) หรือสมมติุ ฐานการวิจัย
2. รปแบบของการวิ
จัย (study design)
ู
พิจารณาขนาดตัวอย่ าง
3. พิจารณา Assumption เช่ น
-ระดับการวัดของตัวแปร -ความแปรปรวน
-ลักษณะการแจกแจงข้ อมลู
การทดสอบความแตกต่างของค่าเฉลีKย 1 กลุ่ม
-ไม่ทราบค่าความแปรปรวนของประชากร
One Sample t-test
t=
x−µ
s/ n
95 %CI = x ± t α/ 2 , df (s/
n)
Assumption
-ข้ อมูลมีการแจกแจงแบบปกติ
-มีระดับการวัด interval หรือ ratio scale
2
ทดสอบความแตกต่างของค่าเฉลีKย 1 กลุ่ม
เมืKอไม่ทราบค่าความแปรปรวนของประชากร
One Sample t-test t = x − µ ; df = n − 1
s/ n
กรณี ละเมิด Assumption ใช้ Wilcoxon Sign Rank Test
- ศึกษาประชากรกลุ่มเดียว
- เช่นค่าเฉลี7 ยความ sysBP ของชายกลุ่มอายุมากกว่า 40 ปี มี
bmi 20-25 มีค่ามากกว่าเกณฑ์ปกติ 120 mmHg
คําถามการวิจัย: ค่าเฉลี7 ยของ sysbp ในผู้ชายอายุมากกว่า
40 ปี มีค่าเท่ากับ 120 mmHg หรือไม่
ข้ อมูล 120 130 130 140 140 140 150 150 160
ทดสอบการแจกแจงแบบปกติ
. swilk sysbp
Shapiro-Wilk W test for normal data
Variable |
Obs
W
V
z
Prob>z
-------------+------------------------------------------------sysbp |
9
0.99549
0.066
-3.538 0.99980
3
คําถาม ค่าเฉลีย$ sysbp ในกล่มุ ผ้ชู ายสงอายมากกว่
า 40 ปี
ู ุ
bmi 20-25 มีค่าแตกต่ างกับ 120 mmHg หรือไม่
1. สมมุติฐาน
H0 : µ = 120
HA : µ ≠ 120
2. กําหนดระดับนัยสําคัญ 0.05
3. เลือกวิธกี ารทางสถิติและคํานวณค่าสถิติ
x−µ
t=
s/ n
3.
เลือกวิธกี ารทางสถิตแิ ละคํานวณค่าสถิติ
t=
x−µ
=
s/ n
140 −120
12 . 25 / 9
= 4 . 899
ข้อมูล 120 130 130 140 140 140 150 150 160
. su
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------sysbp |
9
140
12.24745
120
160
95 %CI = x ± t α/ 2 , df (s/
n)
( t.05 / 2 ,9 )
95 %CI = 140 ± 2 . 26 ( 12 . 25 /
9)
4
. ttest sysbp == 120
One-sample t test
-----------------------------------------------------------------------------Variable |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf. Interval]
---------+-------------------------------------------------------------------sysbp |
9
140
4.082483
12.24745
130.5858
149.4142
-----------------------------------------------------------------------------mean = mean(sysbp)
t =
4.8990
Ho: mean = 120
degrees of freedom =
8
Ha: mean < 120
Pr(T < t) = 0.9994
Ha: mean != 120
Pr(|T| > |t|) = 0.0012
Ha: mean > 120
Pr(T > t) = 0.0006
หาค่า P-value เปิ ดตาราง T=4.8990 ;df=9-1 ;p-value = ?
5. ตัดสินใจและสรุปผล
4.
่ ย sysBP ของชายกลุ่มอายุมากกวา่ 40 ปี มี bmi 20-25 มีแตกตางก
่
คาเฉลี
ั
่ นยั สําคัญทางสถิติ 95% ci มีคา่
กบเกณฑ์
ปกติ 120 mmHg อยางมี
่ ั 130.59-149.41 mm.Hg
เทากบ
่ %CI กบการทดสอบสมมุ
ั
ความสัมพันธ์ระหวาง
ติฐาน
่ กาหนดในสมมุ
ํ
คาที
ติฐาน H0
1
2
3
CI
่ ํ
่ อมัน = non-significant
เมือ คากาหนด
(2) ใน H0 อยูใ่ นชวงเชื
่ ํ
่ อมัน = significant
คากาหนด
(1,3) ใน H0 อยูน่ อกชวงเชื
5
่ %CI กบการทดสอบสมมุ
ั
ความสัมพันธ์ระหวาง
ติฐาน
่ กาหนดในสมมุ
ํ
คาที
ติฐาน H0 : µ = 120
120
130.59
149.41
CI
่ ่ ั 130.59-149.41 mm.Hg
ตัวอย่ าง 95% ci มีคาเทากบ
ดังนั7 น คา่ H0 = 120 อยู่นอกช่ วงเชื$อมัน$ = significant
คําสั$ ง
ttest varname , mu= #
varname = ตัวแปรทีKตอ้ งการทดสอบ
#
= ค่าเฉลีKยตามสมมุติฐานหรือทีKตอ้ งการทดสอบ
เมนู
6
sysbp
. ttest sysbp == 120
One-sample t test
-----------------------------------------------------------------------------Variable |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf. Interval]
---------+-------------------------------------------------------------------sysbp |
9
140
4.082483
12.24745
130.5858
149.4142
-----------------------------------------------------------------------------mean = mean(sysbp)
t =
4.8990
Ho: mean = 120
degrees of freedom =
8
Ha: mean < 120
Pr(T < t) = 0.9994
Ha: mean != 120
Pr(|T| > |t|) = 0.0012
Ha: mean > 120
Pr(T > t) = 0.0006
ค่าเฉลี7 ย sysBP ของชายกลุ่มอายุมากกว่า 40 ปี มี bmi 20-25
มีแตกต่าง กับเกณฑ์ปกติ 120 mmHg อย่างมีนัยสําคัญทางสถิติ
95% ci มีค่าเท่ากับ 130.59-149.41 mm.Hg
7
ทดสอบความแตกต่ างของค่ าเฉลีย$ 2 กล่ มุ ที$เป็ นอิสระต่ อกัน
เมื$อไม่ ทราบค่ าความแปรปรวนของประชากร
-Independent t-test
่ ั
ความแปรปรวนของข้อมูล 2 กลุ่มเทากน
่ ่ ั
ความแปรปรวนของข้อมูล 2 กลุ่มไมเทากน
่
่ ั อไมใช้
่ F-Test
-การทดสอบวาความแปรวนเทากนหรื
ทดสอบความแตกต่างของค่าเฉลีKย 2 กลุ่มทีKเป็ นอิสระต่อกัน
เมืKอความแปรปรวนเท่ากัน
(independent t-test แบบ pooled variance)
ความแปรปรวนเท่ ากัน
x −x
1 2
t=
1 1
S
+
p n n
1 2
Standard error
n s2 + n s2
2 2
S = 11
n +n −2
1
2
2
p
2
(x
−
x
)
n
S 2i = ∑ i
i = 1 n −1
df = n + n − 2
1 2
8
ทดสอบความแตกต่างของค่าเฉลีKย 2 กลุ่มทีKเป็ นอิสระต่อกัน
เมืKอความแปรปรวนไม่เท่ากัน
(Independent t-test แบบ unequal variance)
ความแปรปรวนไม่ เท่ ากัน
Standard error
x −x
t= 1 2
s12 s 22
+
n n
1 2
df =
(
s12
n1
n (x − x) 2
Si = ∑ i
i = 1 n −1
2
)
2
+
s 22
n2
+
 s22 
 n2 
 
n2 −1
2
 s12 
 n1 
 
n1 −1
2
95%CI = ( x1 − x2 ) ± tα/ 2,df (se)
df = n + n − 2
1 2
df =
(
s12
n1
2
s12 
n1 




n1 −1
+
+
s 22
n2
)
ความแปรปรวนเท่ ากัน
2
ความแปรปรวนไม่ เท่ ากัน
2
 s22 
 n2 
 
n2 −1
9
ํ
ข้อกาหนด
(Assumption)
-ข้ อมลแต่
ู ละชดุ มีการแจกแจงแบบปกติ
กรณี ละเมิด Assumption ใช้ Wilcoxon Rank Sum Test
หรือ Mann-Whitney Test
่ ั อไมใช้
่ F-Test
การทดสอบความแปรปรวนเทากนหรื
สมมุติฐาน
H 0 : σ12 = σ 22 , H A : σ12 ≠ σ 22
ํ
กาหนดระดั
บนัยสําคัญทางสถิติ 0.05
่ ติ 2
คํานวณคาสถิ
s1 2 2
F = 2 ; s1 > s2 ; df1= n1−1,df2 = n2 −1
s2
70.447762
F=
= 3.011
2
40.5984
่ ั
สรุ ปผล ข้อมูล 2 ชุดมีความแปรปรวนเทากน
10
่ ยของ chol ในผูช้ ายอายุมากกวา่ 40 ปี ไมออกกาลั
่
ํ งกาย
คําถามการวิจยั : คาเฉลี
ํ งกายสมําเสมอ (กลุ่ม 2 )แตกตางกนหรื
่ ั อไม่
(กลุ่ม 1) และออกกาลั
idno
gr
chol
1
1
154
2
1
262
3
0
299
4
0
438
5
1
176
6
1
193
7
1
193
8
0
336
9
0
336
10
0
245
่ ยของ chol ในผูช้ ายอายุมากกวา่ 40 ปี
คําถาม คาเฉลี
่
ํ งกาย (กลุ่ม 1) และออกกาลั
ํ งกายสมําเสมอ
ไมออกกาลั
่ ั อไม่
(กลุ่ม 2 )แตกตางกนหรื
1.ตั7 งสมมุติฐาน
H0 : µ 1 = µ 2
H 0 : µ1 − µ 2 = 0
HA :
µ1 ≠ µ 2
หรื อ
H A : µ1 − µ 2 ≠ 0
2. กําหนดระดับนัยสําคัญ 0.05
11
่ ติ
3. เลือกวิธีการทางสถิติและคํานวณคาสถิ
่ ั อไม่
ให้ทดสอบวา่ variance เทากนหรื
. sdtest chol, by(gr)
Variance ratio test
-----------------------------------------------------------------------------Group |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf. Interval]
---------+-------------------------------------------------------------------0 |
5
330.8
31.55852
70.56699
243.1795
418.4205
1 |
5
195.6
18.07927
40.42648
145.4039
245.7961
---------+-------------------------------------------------------------------combined |
10
263.2
28.31443
89.53807
199.1483
327.2517
-----------------------------------------------------------------------------ratio = sd(0) / sd(1)
f =
3.0470
Ho: ratio = 1
degrees of freedom =
4, 4
Ha: ratio < 1
Pr(F < f) = 0.8470
Ha: ratio != 1
2*Pr(F > f) = 0.3060
Ha: ratio > 1
Pr(F > f) = 0.1530
พบว่าความแปรปรวนของสองกลุ่มเท่ากันใช้
independent t-test แบบ pooled variance
ความแปรปรวนเท่ ากัน
x −x
1 2
t=
1 1
S
+
p n n
1 2
Standard error
2 + n s2
n
s
2 2
S2p = 1 1
n +n −2
1 2
2
(x
−
x
)
n
S 2i = ∑ i
i = 1 n −1
df = n + n − 2
1 2
12
วิธีคํานวณด้วย Manual เมืKอความแปรปรวนเท่ากัน
. su chol if gr==1
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------chol |
5
195.6296
40.5984
153.9819
262.3016
. su chol if gr==0
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------chol |
5
330.8275
70.44776
245.3274
437.8791
t=
330.8 − 195.6
= 3.7
1 1
S
+
p 5 5
4. หาคา่ P-value กรณี เปิ ดตาราง t-value = 3.7 ;df = 5+5-1
;p-value <.05
5. ตัดสิ นใจและสรุ ปผล
่ ยของ chol ในผูช้ ายอายุมากกวา่ 40 ปี กลุ่มไมออกกาลั
่
ํ ง
คาเฉลี
ํ งกายสมําเสมอ แตกตางกน
่ ั
กายและกลุ่มออกกาลั
่ นยั สําคัญทางสถิติ
อยางมี
13
ทดสอบข้อมูลแต่ละชุดมีการแจกแจงแบบปกติ
. swilk chol if gr==0
Shapiro-Wilk W test for normal data
Variable |
Obs
W
V
z
Prob>z
-------------+------------------------------------------------chol |
5
0.97679
0.274
-1.383 0.91674
. swilk chol if gr==1
Shapiro-Wilk W test for normal data
Variable |
Obs
W
V
z
Prob>z
-------------+------------------------------------------------chol |
5
0.91232
1.035
0.046 0.48164
ทดสอบ variance เท่ากันหรือไม่ โดยใช้ F-TEST
คําสั7ง sdtest varname , by(groupvar)
14
chol
gr
. sdtest chol, by(gr)
Variance ratio test
-----------------------------------------------------------------------------Group |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf. Interval]
---------+-------------------------------------------------------------------0 |
5
330.8
31.55852
70.56699
243.1795
418.4205
1 |
5
195.6
18.07927
40.42648
145.4039
245.7961
---------+-------------------------------------------------------------------combined |
10
263.2
28.31443
89.53807
199.1483
327.2517
-----------------------------------------------------------------------------ratio = sd(0) / sd(1)
f =
3.0470
Ho: ratio = 1
degrees of freedom =
4, 4
Ha: ratio < 1
Pr(F < f) = 0.8470
Ha: ratio != 1
2*Pr(F > f) = 0.3060
Ha: ratio > 1
Pr(F > f) = 0.1530
ข้ อมูล 2 ชุดมีความแปรปรวนเท่ากัน อย่างมีนัยสําคัญทางสถิติ
15
คําสั$ ง
ttest varname1 == varname2 , unpaired [unequal]
ttest varname , by(groupvar)
เมนู
16
. ttest
chol, by(gr)
Two-sample t test with equal variances
-----------------------------------------------------------------------------Group |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf. Interval]
---------+-------------------------------------------------------------------0 |
5
330.8
31.55852
70.56699
243.1795
418.4205
1 |
5
195.6
18.07927
40.42648
145.4039
245.7961
---------+-------------------------------------------------------------------combined |
10
263.2
28.31443
89.53807
199.1483
327.2517
---------+-------------------------------------------------------------------diff |
135.2
36.37032
51.3299
219.0701
-----------------------------------------------------------------------------diff = mean(0) - mean(1)
t =
3.7173
Ho: diff = 0
degrees of freedom =
8
Ha: diff < 0
Pr(T < t) = 0.9971
H 0 : µ1 = µ 2
Ha: diff != 0
Pr(|T| > |t|) = 0.0059
Ha: diff > 0
Pr(T > t) = 0.0029
H A : µ1 ≠ µ 2
95 %CI = ( x1 − x 2 ) ± t α/ 2 , df (se)
่ %CI กบการทดสอบสมมุ
ั
ความสัมพันธ์ระหวาง
ติฐาน
่ กาหนดในสมมุ
ํ
คาที
ติฐาน H0 : µ 1 = µ 2 หรื อ
0
H 0 : µ1 − µ 2 = 0
51.33
219.07
CI
่ ่ ั 51.33-219.07 mm.Hg
ตัวอย่ าง 95% ci มีคาเทากบ
ดังนั7 น คา่ H0 = 0 อยู่นอกช่ วงเชื$อมั$น = significant
17
ทดสอบความแตกต่างของค่าเฉลีKย 2 กลุ่ม
ทีKไม่เป็ นอิสระต่อกัน
เมืKอไม่ทราบค่าความแปรปรวนของประชากร paired t-test
t=
Standard error
di
2
(d
−
d
)
n
S 2i = ∑ i
i = 1 n −1
sd
n
df = n - 1
95 %CI = d ± t α/ 2 , df (se)
ข้ อกําหนด (Assumption)
่
-ความแตกตางของข้
อมูลสองชุด (di)
มีการแจกแจงแบบปกติ
cho1
cho2
d
300
240
-60
320
300
-20
330
330
0
330
300
-30
340
312
-28
กรณี ละเมิด Assumption ใช้ Wilcoxon match pair sign rank
18
คําถามการวิจัย: ระดับของ chol ในผู้ชายอายุมากกว่า 40 ปี ก่อน
และหลังออกกําลังกาย 3 เดือน แตกต่างกันหรือไม่
cho1
cho2
d
300
240
-60
320
300
-20
330
330
0
330
300
-30
340
312
-28
คําถาม ระดับของ chol ในผู้ชายอายุมากกว่า 40 ปี ก่อนและหลัง
ออกกําลังกายแตกต่างกันหรือไม่
1. ตั`งสมมุติฐาน
H0 : µ d = 0
HA :
µd ≠ 0
2. กําหนดระดับนัยสําคัญ 0.05
19
3. เลือกวิธกี ารทางสถิติและคํานวณค่าสถิติ
. swilk d
Shapiro-Wilk W test for normal data
Variable |
Obs
W
V
z
Prob>z
-------------+------------------------------------------------d |
5
0.95382
0.545
-0.721 0.76445
. su d
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+----------------------------------------------------d |
5
-27.6
21.65179
-60
0
t =
di
sd
n
=
− 27.6
21.7
5
= − 2.9
4. หาค่า P-value เปิ ดตาราง T=-2.9 ;df=5-1;p-value <.025
5. ตัดสินใจและสรุปผล
ระดับของ chol ในผู้ชายอายุมากกว่า 40 ปี ก่อนและหลัง
ออกกําลังกายแตกต่างกันอย่างมีนัยสําคัญทางสถิติ
คําสั$ ง
ttest varname1 == varname2
เมนู
20
. ttest cho1 == cho2
Paired t test
-----------------------------------------------------------------------------Variable |
Obs
Mean
Std. Err.
Std. Dev.
[95% Conf. Interval]
---------+-------------------------------------------------------------------cho1 |
5
324
6.78233
15.16575
305.1692
342.8308
cho2 |
5
296.4
15.13142
33.83489
254.3884
338.4116
---------+-------------------------------------------------------------------diff |
5
27.6
9.682975
21.65179
.7157522
54.48425
-----------------------------------------------------------------------------mean(diff) = mean(cho1 - cho2)
t =
2.8504
Ho: mean(diff) = 0
degrees of freedom =
4
Ha: mean(diff) < 0
Pr(T < t) = 0.9768
Ha: mean(diff) != 0
Pr(|T| > |t|) = 0.0464
Ha: mean(diff) > 0
Pr(T > t) = 0.0232
95 %CI = d ± t α/ 2 , df (se)
สรุปผล ระดับของ chol ในผู้ชายอายุมากกว่า 40 ปี ก่อนและหลัง
ออกกําลังกายแตกต่างกันอย่างมีนัยสําคัญทางสถิติ
โดยที7 95% CI เท่ากับของความแตกต่างเท่ากับ 0.72-54.48
21
่ %CI กบการทดสอบสมมุ
ั
ความสัมพันธ์ระหวาง
ติฐาน
่ กาหนดในสมมุ
ํ
คาที
ติฐาน H0 : µ d = 0 หรื อ
0
.72
54.48
CI
่ ่ ั .72-54.48
ตัวอย่ าง 95% ci มีคาเทากบ
ดังนั7 น คา่ H0 = 0 อยู่นอกช่ วงเชื$อมั$น = significant
่ %CI กบการทดสอบสมมุ
ั
ความสัมพันธ์ระหวาง
ติฐาน
่ กาหนดในสมมุ
ํ
คาที
ติฐาน H0 : µ d = 0 หรื อ
0
-54.48
-.72
CI
่ ่ ั -54.48 ถึง -.72
ตัวอย่ าง 95% ci มีคาเทากบ
ดังนั7 น คา่ H0 = 0 อยู่นอกช่ วงเชื$อมั$น = significant
22