Sample size calculation and how to prepare for analysis?

Sample size calculation and how to prepare for analysis?
รุงทิวา หมืน่ ปา
กลุมงานเภสัชกรม โรงพยาบาลลําปาง
…………………………………………………………………………………………………………………
ประชากร (Population) หมายถึง สิง่ ตางๆ ทัง้ หมดที่ผวู ิจัยสนใจ ซึง่ อาจเปนกลุมของสิ่งของ คน หรือ
เหตุการณตางๆ
หนวยวิเคราะห (Unit of Analysis) หนวยของประชาการที่จะศึกษา ที่ใชสําหรับคํานวณขนาดตัวอยาง
เชน จํานวนผูปวย จํานวนใบสั่งยา จํานวนครั้งที่สั่งใชยา จํานวนครั้งที่ฉีดยา จํานวนแผลผาตัด
ตัวอยาง (Sample) หมายถึง หนวยของขอมูลบางสวนที่ผูวิจัยเลือกมาเพื่อใชเปนตัวแทนของประชากรที่
นํามาศึกษา โดยกลุมตัวอยางที่ดีประกอบไปดวย การเปนตัวแทนที่ดีมีลักษณะตางๆที่สําคัญครบถวน
เหมือนประชากร มีขนาดและวิธีการสุมตัวอยางที่เหมาะสม
การคํานวณขนาดตัวอยาง (Sample size calculation)
การคํานวณขนาดตัวอยางเปนขั้นตอนที่สําคัญในการศึกษาวิจัย เนื่องจากถาขนาดตัวอยางนอยไป
จะทําใหสรุปผลการวิจัยไมได ถามากไปก็จะสิ้นเปลืองโดยใชเหตุ ขนาดตัวอยางยังมีผลโดยตรงตอความ
นาเชื่อถือของการสรุปผลงานวิจัย การคํานวณขนาดตัวอยางลวงหนากอนทําวิจัยจะชวยใหผูวิจัยสามารถ
ตัดสินใจและเตรียมการตางๆไดลวงหนาไวกอนลงมือ องคประกอบสําคัญที่ใชประกอบการกําหนดขนาด
ตัวอยาง โดยสรุปคือ
1. ตองทราบวา end point หรือ คําตอบที่ผูวิจัยตองการ คืออะไร เชน ตองการทราบคาเฉลี่ย หรือ
คารอยละ (สัดสวน หรือ อัตรา)
2.
ลั ก ษณะประชากร ความเป น เอกพั น ธ (Homogenous) และความเป น เอนกพั น ธ
(Heterogenous) ของประชากร ทราบขนาดประชากรหรือไม ขนาดเล็ก หรือ ขนาดใหญ
3. สถิติที่ใชวิเคราะหขอมูล
4. ประเภทการวิจัยหรือแบบแผนงานวิจัย เชน กรณีที่เปนแบบแผนการวิจัยแบบไมทดลอง กลุม
ตัวอยางตองมีขนาดใหญกวาแบบแผนการวิจัยแบบทดลองหรือแบบกึ่งทดลอง
5. ระดับนัยสําคัญของสมมติฐานที่ทดสอบ type I error, คา confident interval
6. ประเภทสมมติฐานที่ทดสอบ one tailed หรือ two -tailed
7. ขนาดอิทธิพล (Effect Size) หมายถึง ขนาดความแตกตางของผลลัพธที่คาดวาจะเกิดขึ้น
ระหวางกลุม ควบคุม และกลุมทดลอง
8. อํานาจการทดสอบ (Power), type II error
9. ทรัพยากรสนับสนุนการวิจัย ไดแก งบประมาณและกําลังคน
การประชุม R2R 2552 ครั้งที่ 1 เรื่อง การพัฒนางานประจําเปนงานวิจัย วันที่ 14 พฤศจิกายน 2551 ณ หองประชุมศูนยแพทยศาสตรศึกษา
โรงพยาบาลลําปาง
แนวทางการคํานวณขนาดตัวอยาง
I ประมาณการคราวๆ จากขนาดประชากร เชน
- จํานวนประชากรหลักรอยใชกลุมตัวอยาง 15 – 30%
- จํานวนประชากรหลักพันใชกลุมตัวอยาง 10 – 15%
- จํานวนประชากรหลักหมืน่ ใชกลุมตัวอยาง 5 – 10 %
II คํานวณโดยใชสูตรคํานวณ
2.1 งานวิจัยเชิงสํารวจ (Survey)
ก. กรณีไมทราบจํานวนปะชากร
ใชสูตรของ W.G.cochran
n=
P(1 − P)Z 2
d2
เมื่อ
n คือ จํานวนกลุมตัวอยางที่ตองการ
P คือ สัดสวนของประชากรที่ผูวิจยั ตองการสุม (โดยทัว่ ไปนิยมใชสัดสวน 30% หรือ 0.30)
Z คือ ระดับความมัน่ ใจทีก่ ําหนด หรือระดับนัยสําคัญทางสถิติ เชน
Z ที่ระดับนัยสําคัญ 0.10 เทากับ 1.65 (ความเชื่อมัน่ 90%) >> Z = 1.65
Z ที่ระดับนัยสําคัญ 0.05 เทากับ 1.96 (ความเชื่อมัน่ 95%) >> Z = 1.96
Z ที่ระดับนัยสําคัญ 0.01 เทากับ 2.58 (ความเชื่อมัน่ 99%) >> Z = 2.58
d คือ สัดสวนความคลาดเคลื่อนที่ยอมใหเกิดขึ้นได (จะตองสอดคลองกับคา Z ที่ระดับความ
เชื่อมัน่ นัน้ ๆ) เชน
ระดับความเชือ่ มั่น 90% สัดสวนความคลาดเคลื่อนเทากับ 0.10
ระดับความเชือ่ มั่น 95% สัดสวนความคลาดเคลื่อนเทากับ 0.05
ระดับความเชือ่ มั่น 99% สัดสวนความคลาดเคลื่อนเทากับ 0.01
ข. กรณีทราบจํานวนประชากร แตประชากรไมมาก (ตาราง Morgan)
ใชสูตร
n=
เมื่อ
P(1 − P)
E
P(1 − P)
+
2
N
Z
2
n คือ จํานวนกลุมตัวอยางที่ตองการ
N คือ ขนาดประชากร
P คือ สัดสวนของประชากรที่ผูวิจยั ตองการสุม (โดยทัว่ ไปนิยมใชสัดสวน 30% หรือ 0.30)
Z คือ ระดับความมัน่ ใจทีก่ ําหนด หรือระดับนัยสําคัญทางสถิติ เชน
Z ที่ระดับนัยสําคัญ 0.10 เทากับ 1.65 (ความเชื่อมัน่ 90%) >> Z = 1.65
2
Z ที่ระดับนัยสําคัญ 0.05 เทากับ 1.96 (ความเชื่อมัน่ 95%) >> Z = 1.96 (ปกตินิยม
ระดับความเชื่อมั่น 95%)
Z ที่ระดับนัยสําคัญ 0.01 เทากับ 2.58 (ความเชื่อมัน่ 99%) >> Z = 2.58
E คือ คลาดคลาดเคลื่อนของกลุมตัวอยาง เชน
ระดับความเชือ่ มั่น90% สัดสวนความคลาดเคลื่อนเทากับ 0.10
ระดับความเชือ่ มั่น95% สัดสวนความคลาดเคลื่อนเทากับ 0.05 (ปกตินิยมระดับความ
เชื่อมัน่ 95%)
ระดับความเชือ่ มั่น99% สัดสวนความคลาดเคลื่อนเทากับ 0.01
ค. กรณีทราบจํานวนประชากร และประชากรจํานวนมาก (ตาราง Yamane)
ใชสูตรของ Taro Yamane
n=
เมื่อ
N
1 + Ne 2
n คือ ขนาดกลุมตัวอยาง
N คือ ขนาดประชากร
e คือ คลาดคลาดเคลื่อนของกลุมตัวอยาง เชน
ระดับความเชือ่ มั่น 90% สัดสวนความคลาดเคลื่อนเทากับ 0.10
ระดับความเชือ่ มั่น 95% สัดสวนความคลาดเคลื่อนเทากับ 0.05 (ปกตินิยมระดับความ
เชื่อมัน่ 95%)
ระดับความเชือ่ มั่น 99% สัดสวนความคลาดเคลื่อนเทากับ 0.01
2.2 งานวิจัยเชิงวิเคราะห
ก. วัตถุประสงคของงานวิจัยตองการหา Incidence หรือ Prevalence
ใชสูตร
N = Z2α/2 PQ
e2
เมื่อ n คือ ขนาดกลุมตัวอยาง
Z α/2 คือ The reliability coefficient (= 1.96)
P คือ Incidence หรือ Prevalence ของกลุมอางอิง
Q คือ 1-P
e คือ The margin of error (นิยมใช 0.05)
3
ข. วัตถุประสงคของงานวิจัยตองการเปรียบเทียบคาเฉลี่ย
ใชสูตร
n=
2 ( Z α Zβ ) 2 S 2
( X1 − X 2 ) 2
เมื่อ n = ขนาดตัวอยางตอกลุม
X 1 แทน คาเฉลี่ยตัวอยางกลุม
 ที่ 1
X 2 แทน คาเฉลี่ยตัวอยางกลุม
 ที่ 2
Zα เมื่อ α = 0.05 จะเทากับ 1.96
Zβ เมื่อ β = 0.2 จะเทากับ 0.84
S2 คํานวณจากสูตร
S2 =
( n 1 − 1) 2 S12 + ( n 2 − 1)S 22
n1 + n 2 − 2
ค. วัตถุประสงคของงานวิจัยตองการเปรียบเทียบคาสัดสวน
ใชสูตร
n=
( Z α 2 P1 Q 1 + Z β P2 Q 2 + P1 ( Q 1 ) 2
( P1 − P2 ) 2
เมื่อ n = ขนาดตัวอยางตอกลุม
P1 แทน สัดสวนการเกิดเหตุการณทสี่ นใจในกลุม ที่ 1
P2 แทน สัดสวนการเกิดเหตุการณทสี่ นใจในกลุม ที่ 2
Q1 และ Q2 เทากับ 1- P1 และ 1- P2 ตามลําดับ
Zα เมื่อ α = 0.05 จะเทากับ 1.96
Zβ เมื่อ β = 0.2 จะเทากับ 0.84
III คํานวณขนาดตัวอยางโดยใชโปรแกรมสําเร็จรูป
3.1 ใชโปรแกรม Stata
ก. Two-sample comparison of mean1 to mean2. Compute sample sizes with n2/n1 = 2
ปอนคําสั่ง sampsi 132.86 127.44, p(0.8) r(2) sd1(15.34) sd2(18.23)
สิ่งที่ได
Estimated sample size for two-sample comparison of means
Test Ho: m1 = m2, where m1 is the mean in population 1 and m2 is the mean in population 2
Assumptions:
4
alpha = 0.0500 (two-sided)
power = 0.8000
m1 = 132.86
m2 = 127.44
sd1 = 15.34
sd2 = 18.23
n2/n1 = 2.00
Estimated required sample sizes:
n1 = 108
n2 = 216
ข. One-sample comparison of mean to hypothesized value = 180. Compute sample size
ปอนคําสั่ง sampsi 180 211, sd(46) onesam
สิ่งที่ได
Estimated sample size for one-sample comparison of mean to hypothesized value
Test Ho: m = 180, where m is the mean in the population
Assumptions:
alpha = 0.0500 (two-sided)
power = 0.9000
alternative m = 211
sd = 46
Estimated required sample size:
n = 24
ค. Two-sample comparison of proportions. Compute sample size with n1 = n2 (i.e.,
ratio = 1, the default) and power = 0.9 (the default)
ปอนคําสั่ง sampsi 0.25 0.4
สิ่งที่ได
Estimated sample size for two-sample comparison of proportions
Test Ho: p1 = p2, where p1 is the proportion in population 1 and p2 is the proportion in
population 2
Assumptions:
alpha = 0.0500 (two-sided)
power = 0.9000
5
p1 = 0.2500
p2 = 0.4000
n2/n1 = 1.00
Estimated required sample sizes:
n1 = 216
n2 = 216
ง. One-sample comparison of proportion to hypothesized value = 0.5
ปอนคําสั่ง sampsi 0.5 0.75, power(0.8) onesample
สิ่งที่ได
Estimated sample size for one-sample comparison of proportion to hypothesized value
Test Ho: p = 0.5000, where p is the proportion in the population
Assumptions:
alpha = 0.0500 (two-sided)
power = 0.8000
alternative p = 0.7500
Estimated required sample size:
n = 29
3.2 ใชโปรแกรม PS
การไดมาซึ่งกลุมตัวอยาง มักไดจากการสุมตัวอยางจากกลุมประชากร ซึ่งมีวธิ ีสุมได 2 แบบ
1. สุมโดยไมคํานึงถึงความนาจะเปน
การเลือกกลุม ตัวอยางแบบนี้จะมีลกั ษณะเปนอัตวิสยั (subjective) ซึ่งมักจะทําใหการประมาณ
คาพารามิเตอรขาดความแมนยํา จะเลือกใชเมื่อไมตองการอางอิงถึงลักษณะประชากร สวนใหญจะใชกับ
งานวิจยั สํารวจขอเท็จจริง (Exploration research) กับกลุมที่มีลกั ษณะเฉพาะและไมตองการเปรียบเทียบ
กับกลุมอืน่ ๆ มีขอจํากัดเรื่องคาใชจายและเวลา เพราะการเลือกตัวอยางแบบนี้จะมีคาใชจายและใชเวลา
นอยกวาการเลือกแบบอาศัยความนาจะเปน สามารถทําการสุมแบบนี้ ได 5 วิธี คือ
1.1 การสุมโดยบังเอิญ (Accidental sampling) เปนการสุมจากสมาชิกของประชากรเปาหมายที่
เปนใครก็ไดทสี่ ามารถใหขอมูลไดครบถวน การสุมโดยวิธีนี้ไมสามารถรับประกันความแมนยําได ซึ่งการ
เลือกวิธนี ี้เปนวิธีที่ดอยที่สุด เพราะเปนการเลือกตัวอยางที่มีลักษณะสอดคลองกับนิยามของประชากรที่
สามารถพบไดและใชเปนตัวอยางไดทนั ที
1.2 การสุมแบบโควตา (Quota sampling) เปนการสุมตัวอยางโดยจําแนกประชากรออกเปนสวนๆ
กอน (strata) โดยมีหลักจําแนกวาตัวแปรที่ใชในการจําแนกนัน้ ควรจะมีความสัมพันธกับตัวแปรที่จะ
6
รวบรวม หรือตัวแปรที่สนใจ และสมาชิกทีอ่ ยูแตละสวนมีความเปนเอกพันธ ในการสุมแบบโควตา นี้มี
ขั้นตอนการดําเนินการดังนี้
1.2.1 พิจารณาตัวแปรที่สัมพันธกับลักษณะของประชากรที่คําถามการวิจัยตองการที่จะ
ศึกษา เชน เพศ ระดับการศึกษา
1.2.2 พิจารณาขนาดของแตละสวน (segment) ของประชากรตามตามตัวแปร
1.2.3 คํานวณคาอัตราสวนของแตละสวนของประชากร กําหนดเปนโควตาของตัวอยางแต
ละกลุมที่จะเลือก
1.2.4. เลือกตัวอยางในแตละสวนของประชากรใหไดจํานวนตามโควตา
1.3 การสุมตัวอยางเฉพาะเจาะจง (purposive sampling) หรือบางครั้งเรียกวาการสุม แบบ
พิจารณา (judgment sampling) เปนการสุมตัวอยางโดยใชดุลพินิจของผูวิจัยในการกําหนดสมาชิกของ
ประชากรทีจ่ ะมาเปนสมาชิกในกลุมตัวอยาง วามีลักษณะสอดคลองหรือเปนตัวแทนที่จะศึกษาหรือไม
ขอจํากัดของการสุมตัวอยางแบบนี้คือไมสามารถระบุไดวาตัวอยางที่เลือก จะยังคงลักษณะดังกลาวหรือไม
เมื่อเวลาเปลี่ยนไป
1.4 การสุมกลุม ตัวอยางตามสะดวก (convenience sampling) การเลือกกลุม
ตัวอยางโดยถือเอาความสะดวกหรือความงายตอการรวบรวมขอมูล ขอจํากัดของการสุมแบบนี้จะมี
ลักษณะเหมือนกับการสุมโดยบังเอิญ
1.5 การสุมตัวอยางแบบสโนวบอลล (snowball sampling) เปนการเลือกตัวอยางในลักษณะการ
สรางเครือขายขอมูล เรียกวา snowball sampling โดยเลือกจากหนวยตัวอยางกลุม แรก (จะใชหรือไมใช
ความนาจะเปนก็ได) และตัวอยางกลุมนี้เสนอบุคคลอื่นทีม่ ีลักษณะใกลเคียงตอๆไป
ขอจํากัดของการสุมโดยไมอาศัยความนาจะเปน
1. ผลการวิจยั ไมสามารถอางอิงไปสูประชากรทั้งหมดได จะสรุปอยูในขอบเขตของกลุมตัวอยาง
เทานัน้ ขอสรุปนั้นจะสรุปไปหาประชากรไดตอเมื่อกลุมตัวอยางมีลักษณะตางๆที่สาํ คัญๆ
เหมือนกับประชากร
2. กลุมตัวอยางที่ไดนั้นขึน้ อยูก ับการตัดสินใจของผูวิจัยและองคประกอบบางตัวที่ไมสามารถควบคุม
ได และไมมีวิธกี ารทางสถิติอยางไรทีจ่ ะมาคํานวณความคลาดเคลื่อนที่เกิดจากการสุม (sampling
error)
2. สุมโดยคํานึงถึงความนาจะเปน (probability sampling)
หลักการเลือกกลุมตัวอยางเพื่อใหเปนตัวแทนที่ดีของประชากร ทําได 5 วิธี คือ
2.1 การสุมตัวอยางอยางงาย (Simple random sampling) เปนการสุม ตัวอยางทีเ่ ปดโอกาสใหแต
ละตัวอยางมีโอกาสถูกเลือกเทาๆกันนั่นแสดงวา ลักษณะของประชากรมีการกระจายกันดีอยูแลว การที่จะ
สุมโดยปกติกจ็ ะไดตัวแทนของประชากรอยูแลว
7
2.2 การสุมตัวอยางแบบมีระบบ (Systematic random sampling) ใชในกรณีกลุมประชากรที่จะ
ทําการสุม ไดถูกจัดไวเปนระบบอยูแลว เชน เรียงตาม HN เรียงลําดับตามบัญชีรายชื่อในการเขารับการ
รักษา หรือ ครัวเรือนตามบานเลขที่ เราสามารถจัดระบบโดยนําทุกๆลําดับที่ 5 หรือ 10 มาเปนตัวอยาง โดย
พื้นฐานความเชื่อที่วา ประชากรคละกันอยูในระบบทีถ่ ูกจัดไวอยูแลว
2.3 การสุมตัวอยางแบบกลุม (Cluster random sampling) โดยสุมตัวอยางจากแตละกลุม เพราะ
เชื่อวาแตละกลุมเปนตัวแทนของประชากรอยูแลว เชน จะสุมตัวอยางจากแตละหอผูปวย สุม ตามหนวย
บริการ เชื่อไดวาผูปว ยในแตละหอนาจะเปนตัวแทนของประชากรไดโดยตรงอยูแลว แตแบง
ออกเปนกลุม เพื่อใหกระจายจํานวนตัวอยางออกไปตามหนวยตางๆ ใหครอบคลุมลักษณะประชากร
2.4 การสุมตัวอยางแบบแบงชั้น (Stratify random sampling) โดยแบงออกเปนชัน้ (strata)
เสียกอนเพราะมีความเชื่อวาประชากร มีความแตกตางกันมากตามตัวแปรคุณลักษณะ ไดแก เพศ อายุ
ระดับการศึกษา ระดับความรุนแรงของโรค ฯลฯ ดังนัน้ การแยกตัวแปรเหลานี้ออกมาเปนชัน้ เพื่อกระจายให
ตัวอยางที่ไดรับเลือกมีโอกาสเปนตัวแทนของทุกชัน้ ก็จะทําใหไดตัวแทนที่ดียงิ่ ขึ้น
2.5 การสุมตัวอยางแบบหลายขัน้ (Multi-stage random sampling) เปนการนําเอาวิธกี ารสุม
ตัวอยางทุกแบบมาประยุกตใชโดยแบงการสุมตัวอยางออกเปนหลายขั้นตอนตางๆ เชน
ขั้นตอนที่ 1 การสุมตัวอยางแบบแบงชั้น
ขั้นตอนที่ 2 การสุมตัวอยางอยางงาย
ขั้นตอนที่ 3 การสุมตัวอยางแบบกลุม
ขั้นตอนที่ 4 การสุมตัวอยางแบบมีระบบ
ในการสุม ตัวอยางแบบหลายขั้นไมจําเปนจะตองใชการสุมตัวอยางทุกวิธีเพียงแตหมายความวา
ใชวิธีการสุมเปนขั้นหลายครั้งตั้งแต 2 ขั้นขึ้นไป และในแตละขั้นจะใชวิธีการสุมแบบใด ๆ ก็ได
การเตรียมการวิเคราะห (Prepare for analysis)
1. เตรียมขอมูล (Data) อาศัยขอมูลจากแบบเก็บขอมูล แลวนําตัวแปรตางๆ มาจัดทํารหัสสําหรับการ
วิเคราะห
2. การลงขอมูลในโปรแกรมวิเคราะห (Data filling) ขึ้นกับการเลือกใชโปรแกรมที่นาํ มาวิเคราะห ซึง่
โปรแกรมสวนใหญ จะวิเคราะห ไดงายขึ้น ถาลงขอมูลเปนตัวเลข
3. การวิเคราะหขอมูล (Data analysis) สวนใหญอาศัยโปรแกรมสําเร็จรูปในการวิเคราะหขอมูลที่ซับซอน
(ดูตัวอยาง การเตรียมขอมูลสําหรับการวิเคราะห จากเอกสารที่แนบมาดวย)
…………………………………………………………………………………………………………………………………………………………………………………………………………………………………….
8