Distribuzioni campionarie - Università degli Studi della Basilicata

06/05/2015
Distribuzioni campionarie
Campioni casuali
Perché è necessario effettuare un campionamento?
Difficoltà nel raccogliere tutte le informazioni di una popolazione.
Costi legati alla raccolta delle informazioni.
Informazioni non replicabili.
Tempo necessario alla raccolta delle informazioni.
Adeguatezza delle tecniche statistiche nell’inferenza.
Prima fase: definire la popolazione, ossia, l’insieme di tutte le osservazioni possibili,
relativamente ad una data variabile o ad un dato fenomeno
Esempio: Variabile: altezza degli studenti che frequentano l’Università in Italia
Popolazione target: la popolazione oggetto di studio (ossia gli studenti
che frequentano l’università in Italia)
Popolazione accessibile: la popolazione dalla quale si estrae il campione
casuale (non è detto siano accessibili le altezze di tutti gli studenti che
frequentano l’università in Italia)
1
06/05/2015
Tecniche di campionamento
Non probabilistico
Di convenienza
- i primi 25 pazienti con una certa diagnosi al reparto di…
- le prime 100 persone che rispondono al telefono
A scelta ragionata
- (studi clinici: arruolamento)
- si utilizza quando l’ampiezza del campione è limitata
Per quote
- per gruppi (dati censuari o altre fonti) in base a determinate
caratteristiche (all’interno di ogni gruppo, a scelta ragionata)
A valanga
- soggetti che tendono ad occultare la loro identità
(contattato uno vengono contattati gli altri)
I risultati valgono solo per il campione.
Seguono l’orientamento dello sperimentatore.
Errori di rilevazione
Esempio: Vogliamo effettuare indagini sulle persone con alimentazione vegana.
Non potendo esaminare tutti gli individui della città in esame, decidiamo di esaminare un campione di persone. Per comodità, lo sperimentatore sceglie di svolgere l’intervista presso punti vendita che vendono anche alimenti macrobiotici.
I risultati dell’indagine hanno una validità limitata, poiché danno preferenza a
coloro che usano cibi macrobiotici.
Esempio: Il rapporto tra massa corporea e pressione arteriosa è influenzato dall’
età. Se gli intervistati hanno un’età media inferiore a quella nazionale, le conclusioni tratte non possono essere applicate alla comunità nazionale.
Bias o distorsione nella selezione
Quando la scelta degli individui che compongono il campione è dettata dal caso, è possibile
prevedere e calcolare la differenza tra campione e popolazione.
Altri errori: nella definizione della popolazione, nello strumento di rilevazione, nelle mancate
risposte, nella codifica o elaborazione dei dati…
2
06/05/2015
Tecniche di campionamento
Probabilistico
Non probabilistico
Si attribuisce ad ogni unità della popolazione una determinata probabilità positiva di essere
selezionata.
Si utilizzano tecniche per la selezione casuale del campione.
Sistematico
Partendo dal numero 2
si seleziona l’unità con
passo 3.
Casuale semplice
Ogni elemento della popolazione è etichettato da un
numero.
Si estraggono 5 numeri a caso da 1 a 16, ad esempio 11,
5, 16, 3, 13.
5
16
11
13
3
Con reimmissione
Ogni elemento ha la stessa probabilità di
occorrenza di essere estratto
Ogni elemento ha probabilità
di estrazione pari a ⁄.
Senza reimmissione
Gli elementi estratti sono tutti diversi.
Ad ogni estrazione la probabilità
di estrazione viene decrementa di
una unità al denominatore.
Popolazione infinita
Fattore di correzione:
~1
3
06/05/2015
Stratificato
La popolazione viene suddivisa in strati.
4
10
13
Per cilindrata
11
3
Da ogni strato viene prelevato un numero k di elementi con un campionamento casuale
semplice.
A grappolo
Si estraggono a caso dei sottogruppi.
Ad esempio B e C.
B
A
B
C
C
Da ogni sottogruppo si estrae
un campionamento semplice
D
Distribuzione della media campionaria
E’ la distribuzione di probabilità associata alle medie campionarie calcolate
su campioni casuali.
Esempio: Uno studio di associati ha 5 partners. A fine settimana ognuno di loro comunica il
numero di ore che sono state fatturate.
Si seleziona un campione casuale di
taglia 2. Determinare la distribuzione di
probabilità del numero di ore lavorate in
media per settimana.
Labels
Partner
Ore
1
Rossi
22
2
Bianchi
26
3
Neri
30
4
Esposito
26
5
Bruno
22
Ad esempio, se sono selezionati Rossi ed Esposito:
22
+
26 = 48
La media è 24
4
06/05/2015
Partners Totale Media
1,2
1,3
1,4
1,5
2,3
2,4
2,5
3,4
3,5
4,5
48
24
52
26
48
24
44
22
56
28
52
26
48
24
56
28
52
26
48
24
La media della popolazione è:
22 + 26 + 30 + 26 + 22
5
= 25,2
=
Raggruppiamo le
medie così ottenute
in tabella
Valori
Freq.ass.
Freq.rel.
22
1
0,1
24
4
0,4
26
3
0,3
28
2
0,2
Totale
10
1
Distribuzione della media campionaria
[ ] = 22 × 0,1 + 24 × 0,4 + 26 × 0,3 + 28 × 0,2
= 25,2
Popolazione
Partners
Ore
Rossi
22
Bianchi
26
Neri
30
Esposito
26
Bruno
22
La media della
popolazione coincide
con la media della
media campionaria.
Un po’ di terminologia…
22,26)
Campione casuale semplice:
Rossi
Esposito
22 + 26
= 24 rappresenta una stima (=approssimazione)
2
puntuale (=numerica) della media della popolazione, che è in genere incognita.
Stima puntuale: il valore
Il valore 24 appartiene al range di = 22,24,26,28
Cambiando campione casuale, il valore della stima puntuale della media della popolazione
cambia.
Quanto è variabile
Neri
Esposito
questa stima puntuale?
30,26)
30 + 26
= 28
2
5
06/05/2015
La varianza della popolazione è:
=
2 × 22 − 25,2) +2 × 26 − 25,2) +30 − 25,2) = 8,96
Distribuzione media campionaria
Popolazione
Partners
Ore
Valori
Freq.ass.
Freq.rel.
Rossi
22
22
1
0,1
Bianchi
26
24
4
0,4
Neri
30
26
3
0,3
Esposito
26
28
2
0,2
Bruno
22
Totale
10
1
)= 22 − 25,2 × 0,1 + 24 − 25,2
26 − 25,2 × 0,2 = 3,36
Osserviamo che
Quando " → ∞ la quantità
× 0,4 + 26 − 25,2
!
×
= ) =
"−%
→1
"−1
Si ha
!
× 0,3 +
&,'( × = )
Quando " → ∞, si effettua un campionamento da una popolazione infinita che equivale
ad una estrazione con reimmissione.
Distribuzione della media campionaria
Si assuma di effettuare un campionamento di 2 unità statistiche da una popolazione di cardinalità 1000. L’esperimento consiste nel chiedere alla persona selezionata il numero di mesi trascorsi
prima di trovare un acquirente per il proprio garage. Si assuma che il numero di mesi varia da 1
a 4 e che abbiano la stessa percentuale di occorrenza nella popolazione.
Determinare la distribuzione della media campionaria.
Sia X il numero di mesi necessari.
La distribuzione risulta
X
1
2
3
4
Prob.
0,25
0,25
0,25
0,25
I possibili campioni (con ordinamento) sono:
= 0,25 × 1 + 2 + 3 + 4 = 2,5
= 0,25 × [1 − 2,5) +
2 − 2,5) +3 − 2,5)
+4 − 2,5) ]=1,25
Per ogni coppia, valutiamo
le frequenze assolute
6
06/05/2015
La distribuzione di probabilità della media campionaria risulta essere:
= 2,5) = 0,625 =
1,25
2
Per una estrazione senza reimmissione si ha
Per questa seconda tabella la distribuzione di probabilità della media campionaria risulta essere:
= 2,5) = 0,41 =
1,25 2
×
2
3
La deviazione standard della media campionaria si dice anche precisione della
media campionaria.
!
= )
Popolazione gaussiana standard
Popolazione infinita
Estrazione con reimmissione
!
×
= )
Popolazione finita
Estrazione senza reimmissione
Al crescere di n, la deviazione standard
della media campionaria diminuisce.
7
06/05/2015
Con quale distribuzione di probabilità?
Esempio: Si consideri la seguente v.a. uniforme discreta sui valori 1,2,3
X
1
2
3
Prob.
1/3
1/3
1/3
Distribuzione di probabilità
Si consideri la somma di due copie indipendenti di X:
X_1+X_2
2
3
4
5
Prob.
1/9
2/9
3/9
6
Somma dei Punteggi
2/9 1/9
La forma del grafico non
cambia se si considera la
media campionaria
Distribuzione di probabilità
(X_1+X_2)/2
1
1,5
2
Prob.
1/9
2/9
3/9
2,5
Media campionaria
3
2/9 1/9
Si consideri la somma di tre copie indipendenti di X:
X_1+X_2+X_3
3
4
5
6
7
8
9
Prob.
1/27
3/27
6/27
7/27
6/27
3/27
1/27
La forma del grafico non
cambia se si considera la
media campionaria
Distribuzione di probabilità
Il profilo comincia a
diventare gaussiano.
Somma di 1000
copie di X
8
06/05/2015
Questo è quello che accade lanciando più di un dado:
~)+,-./0%1,.
+ + 2 + 3
+ + 2 + 3 + + + + … + (
+ + 2
Teorema del limite centrale: Se si considerano n copie indipendenti di una v.a. , ossia
, ,…, ), la loro somma + + … + al crescere di n si distribuisce secondo
una legge gaussiana.
Con quale media?
Con quale varianza?
+ + … + = + + ⋯ + = %
506 + + … + = 506 + 506 + ⋯ + 506 = % Se si considerano le medie (ossia le somme vengono divise per le taglie) il profilo della
distribuzione di frequenza ottenuta non cambia così come la media:
Cambia invece la varianza, che
si riduce essendo normalizzata
alla taglia.
9
06/05/2015
Teorema del limite centrale
Come nel caso della somma di v.a., qualsiasi sia la distribuzione della popolazione, quando si
costruisce la distribuzione della media campionaria, al crescere della taglia, si ottiene una
distribuzione gaussiana
Regola empirica: Si assume valida
la approssimazione per n> 30
Con quale media? Se la popolazione ha media µ allora la media campionaria ha la stessa
media: =
Con quale varianza? Se la popolazione ha deviazione standard σ allora la deviazione della media campionaria è pari alla deviazione σ diviso la radice quadrata della
taglia % : D = 8 http://vis.supstat.com/2013/04/central-limit-theorem/
Esempi
Distribuzione uniforme
Distribuzione a parabola
Distribuzione triangolare
Distribuzione inversa di una gaussiana
(dal sito web: Charles Annis, P.E.)
10
06/05/2015
Esempio: Il tempo di attesa ad uno sportello presso un ufficio postale può
essere rappresentato da una variabile aleatoria con media 176 sec e varianza 256 sec^2. Qual è la probabilità che la media campionaria calcolata
su un campione casuale di 100 clienti sia compresa tra 175 sec e 178 sec?
In tal caso non si conosce la distribuzione della popolazione.
Essendo la taglia superiore a 30, per il teorema del limite centrale ~" 176,
; 175 < < 178
==
− 176
256/100
? =
mediante standardizzazione:
175 − 176
256/100
= −0,063
? =
178 − 176
256/100
(
::
.
= 1,25
ossia bisogna calcolare ; −0,06 < = < 1,25
; −0,06 < = < 0,13 = 0,8944-0,4761
Esempio: Il contenuto di Coca-Cola in una singola bottiglia può subire piccole variazioni. I dati
indicano che il contenuto delle bottiglie segue una legge gaussiana con media 33cc e deviazione standard 1,5cc. Oggi, alle 8am, il responsabile del controllo di qualità ha selezionato 16 bottiglie, trovando una media campionaria di 32,87cc.
i) Quanto vale la precisione della media campionaria?
ii) Selezionando un nuovo campione di 30 bottiglie, quale risulta essere la probabilità che la
media campionaria differisca da quella vera meno di 0,1?
i) La precisione della media campionaria è
,
(
ii) Si tratta di calcolare ; − < 0,1 . Ricordando che −A < A < A si ha
; − < 0,1 = ; −0,1 < − < 0,1
=; −
0,1
1,5/ 30
<
− 1,5/ 30
= ; −0,37 < = < 0,37
<
0,1
1,5/ 30
=; −
= 0,6443 − 0,3557
0,1
1,5/ 30
<=<
0,1
1,5/ 30
11
06/05/2015
iii) Se si richiede che la media campionaria differisca da quella vera per meno di 0,1 con
probabilità 95%, quante bottiglie bisogna selezionare?
Si tratta di determinare il valore di n tale che ; − < 0,1 = 0,95.
Come nel caso precedente
; − < 0,1 = ; −0,1 < − < 0,1 = 0,95
0,1
− 0,1
= 0,95
Quando si passa alla standardizzazione, si ha ; −
<
<
1,5/ % 1,5/ % 1,5/ %
e quindi bisogna determinare i quantili della gaussiana standard tali che B = 0,05
; = D ?:,: = 0,025
0,95
e ; = D ?:,'C = 0,975
Per determinare la taglia è necessario calcolare
0,1
= 1,96
1,5/ %
?:,: = −1,96
?:,'C = 1,96
1,96
%
=
0,1
1,5
1,5
0,1
=
%
1,96
% = 29,4
% = 865
Variabile aleatoria binomiale
G = 0,5
Una distribuzione binomiale può essere
approssimata da una distribuzione gaussiana.
Diretta conseguenza del teorema del
limite centrale.
0
1
Distribuzione di frequenza (assoluta) del numero
di volte in cui si è verificata Testa (0 o 1) nel
lancio (simulato) di una moneta, N=10.000 volte
~E1; 0,5)
Una v.a. binomiale di parametro 1 viene anche detta variabile aleatoria di Bernoulli:
X
0
1
P(X=x)
q
p
12
06/05/2015
0
1
2
Distribuzione di frequenza (assoluta) del numero di volte in cui si è verificata Testa lanciando
N=10.000 volte 2 monete:
0 volte (per due Croci);
1 volta (una Testa e una Croce);
2 volte (due Teste)
H~E2; 0,5) = + 1
2
3
1
2
3
Distribuzione di frequenza (assoluta) del numero di volte in cui si è verificata Testa lanciando
N=10.000 volte 3 monete:
0 volte (per tre Croci);
1 volta (una Testa e due Croci);
2 volte (due Teste e una Croce);
3 volte (tre Teste)
H~E3; 0,5) = + + 2
, ~E1; 0,5)
0
0
, , 2 ~E1; 0,5)
4
5
0 1 2 3 4 5 6 7 8 9 10
Distribuzione di frequenza (assoluta) del nume- Distribuzione di frequenza (assoluta) del numero di volte in cui si verifica Testa lanciando
ro di volte in cui si verifica Testa lanciando
N=10.000 volte 5 monete:
N=10.000 volte 10 monete:
5 Croci (somma 0); 4 Croci e 1 Testa (somma 1); 10 Croci (somma 0); 9 Croci e 1 Testa (somma 1);
3 Croci e 2 Teste (somma 2); 2 Croci e 3 Teste
8 Croci e 2 Teste (somma 2); …; 1 Croce e 9 Teste
(somma 3); 1 Croci e 4 Teste (somma 4);
(somma 9); 0 Croci e 10 Teste (somma 10)
5 Teste (somma 5)
H~E10; 0,5) = + + ⋯ + :
H~E5; 0,5) = + + 2 +3 +
, , 2 , 3 , … , : ~E1; 0,5)
, , 2 , 3 , ~E1; 0,5)
13
06/05/2015
Distribuzione di frequenza
(assoluta) del numero di volte in
cui, lanciando N=10.000 volte 100
monete, si ottengono 0 Teste, 1
Testa, …, 50 Teste.
H~E100; 0,5) = + + ⋯ + ::
, , 2 , 3 , … , :: ~E1; 0,5)
Quando una v.a. binomiale è
normalizzata al numero dei lanci si
ottiene una media campionaria
0
H
+ ⋯ + ::
~
100
100
50
%JK. L,-)+-)
= G6.M. -)+-0
%JK. L,/0%1,
Al crescere
di n la varianza
diminuisce
La distribuzione
si concentra
attorno al
valore medio
NO P⋯PNQ
→G
14
06/05/2015
Nel lancio simulato di una moneta al computer
Questo risultato è noto come
legge dei grandi numeri
Al crescere del numero delle prove
la frequenza relativa converge alla
probabilità di occorrenza dell’evento
Proporzioni/Frequenze relative
Esempio: Alle ultime elezioni politiche, in un certo seggio hanno votato 1000 persone.
Si sa che nelle precedenti elezioni, il partito A aveva ricevuto il 51% delle preferenze.
Basandosi sul dato precedente, calcolare la probabilità che alle ultime elezioni il partito abbia
avuto una percentuale di preferenze tra il 48% e il 53%.
Il numero di voti ricevuti dal partito A è una v.a. binomiale E1000; 0,51)
Il numero di voti ricevuti dal partito A normalizzato a 1000 E1000; 0,51)
rappresenta la media campionaria di un campione casuale
1000
estratto da una popolazione bernoulliana. Quale?
X
0
1
P(X=x)
0,49
0,51
R:::;:,)
:,×:,3'
~" 0,51;
:::
:::
è necessario standardizzare, ossia
Per calcolare
=-1,90
= 0,8980 – 0,0287 = 86%
=1,27
15
06/05/2015
Il problema inverso
0.020
0.025
Esempio: Alle ultime elezioni politiche, in un certo seggio hanno votato 1000 persone. Si sa che
nelle precedenti elezioni, il partito A aveva ricevuto il 51% delle preferenze. Qual è l’intervallo
in cui la percentuale di preferenze attuali ricadrà presumibilmente con una confidenza del
95%.
B8 = 0,025
1 − B = 0,95
2
B
1 − 82 = 0,975
?:,: = −1,96
; = D ?:,: = 0,025
; = D ?:,'C = 0,975
?:,'C = 1,96
0.000
0.005
0.010
y
0.015
95%
0.40
0.45
0.50
0.55
0.60
x/1000
Per determinare tale intervallo è necessario
E1000; 0,51)
trasformare Z nella v.a.
1000
e fare la stessa operazione per i quantili
La risposta al quesito si ottiene trasformando i quantili della v.a. gaussiana standard
negli estremi
G , G tali che ; G <
R:::;:,)
:::
< G = 0,95.
Il problema inverso
Esempio: Alle ultime elezioni politiche, in un certo seggio hanno votato 1000 persone. Si sa che
nelle precedenti elezioni, il partito A aveva ricevuto il 51% delle preferenze. Qual è l’intervallo
in cui la percentuale di preferenze attuali ricadrà presumibilmente con una confidenza del
95%.
G − 0,51
=-1,96
G − 0,51
=1,96
0,51 × 0,49
1000
0,51 × 0,49
1000
=0,48
=0,54
Con una probabilità del 95%, alle nuove elezioni, il partito A riceverà una percentuale di preferenze tra il 48% e il 54%.
16
06/05/2015
Esempio: Nell’esempio esaminato, si conosce la percentuale di preferenze alle precedenti
elezioni. Cosa accade se tale percentuale non è nota? E’ possibile determinare l’intervallo in cui
la percentuale di preferenze attuali ricadrà presumibilmente con una confidenza del 95%?
Exit Pool: A 100 cittadini all’uscita dal seggio elettorale viene chiesto per
quale partito hanno votato.
Ad esempio, il partito A ha ricevuto il 52,3% delle preferenze.
52,3% rappresenta una stima puntuale del valore p (la percentuale di preferenze effettiva)
e può essere usato come valore «storico» per il calcolo dell’intervallo,
ossia negli estremi calcolati nell’esercizio precedente si sostituisce a 0,51 il valore 0,523
0,523
Al posto di 0,49 si inserisce 1-0,523=0,477
=0,425
[42,5%; 62,1%]
=0,621
Intervalli di confidenza per proporzioni
L’intervallo
G ; G con
si dice intervallo di confidenza al 95% per la percentuale p dell’evento etichettabile come successo.
Cambiando campione casuale, cambia tale intervallo. Ad esempio per il 51%, l’intervallo
è [41,2%;60,8%]; per il 52,3% l’intervallo risulta [42,5%;61,2%] (n=100).
17
06/05/2015
Notazioni:
G = Ĝ − 1,96 ×
Ĝ × 1 − Ĝ )
%
Ĝ × 1 − Ĝ )
%
G = Ĝ + 1,96 ×
G = Ĝ + ?:,: ×
Ĝ × 1 − Ĝ )
%
G = Ĝ + ?:,'C ×
Ĝ × 1 − Ĝ )
%
G = Ĝ − ?:,'C ×
Ĝ × 1 − Ĝ )
%
G = Ĝ + ?:,'C ×
Ĝ × 1 − Ĝ )
%
Al crescere del livello di confidenza
l’intervallo si allarga
Quale valore viene modificato al crescere del livello di confidenza?
Esempio: Qual è l’intervallo in cui la percentuale di preferenze attuali ricadrà presumibilmente
con una confidenza del 90%?
1 − B = 0,90
B8 = 0,05
2
; = D ?:,' = 0,95
1 − B82 = 0,95
?:,' = 1,64
1,64
1,64
0,51 × 0,49
G = 0,51 − ?:,' ×
=48,4%
1000
G = 0,51 + ?:,' ×
0,51 × 0,49
=53,6%
1000
Esempio: Qual è l’intervallo in cui la percentuale di preferenze attuali ricadrà presumibilmente
con una confidenza del 99%?
1 − B = 0,99
B8 = 0,005
2
; = D ?:,'' = 0,995
2,57
1 − B82 = 0,995
?:,'' = 2,57
0,51 × 0,49
=46,9%
G = 0,51 − ?:,'' ×
1000
2,57
G = 0,51 + ?:,'' ×
0,51 × 0,49
=55,1%
1000
18
06/05/2015
Sample size: i telefilm Pilota
L'episodio pilota è un singolo episodio di una serie o di un serial
televisivo trasmesso prima del primo episodio regolare.
Di solito viene prodotto, e trasmesso, per valutare il primo responso
del pubblico e per vendere il programma ad una rete televisiva.
Spesso viene effettuata una proiezione in anteprima dell'episodio pilota a un pubblico
selezionato per analizzarne preventivamente le reazioni e valutare il target commerciale.
Quante persone selezionare?
Determinare il valore di n tale che la percentuale di gradimento Ĝ stimata differisca da quella
vera G per meno di, ad esempio 0,01, con probabilità 95%.
R,U)
(frequenza relativa = media
campionaria popolazione di Bernoulli)
; Ĝ − G < 0,01 = 0,95
Ĝ →
G (percentuale di gradimento vera)
;
E%, G)
−G
%
G × 1 − G)
%
<
0,01
G × 1 − G)
%
;
0,01
= 0,95
G × 1 − G)
%
Assegnata una v.a. di Bernoulli, si ha 506 E) G
0,25
E%, G)
− G < 0,01 = 0,95
%
= ?:,'C
Per quale valore
di p?
= G1 − G)
La funzione assume il suo valore massimo 0,25
in corrispondenza di p=0,5.
0,01
G × 1 − G)
%
= ?:,'C
0,01
0,5 × 1 − 0,5)
%
= ?:,'C
Il valore risultante è 9604.
Supponiamo che il database dal quale possano essere
estratti i nominativi delle persone disponibili alla visione del telefilm pilota sia costituito da 2000 unità.
E’ necessario decrementare 9604 secondo un fattore di proporzionalità
che tenga conto della popolazione finita.
Determinare il valore di % tale che
dove " è la taglia della popolazione (2000)
e %: è il valore determinato con l’ausilio dell’intervallo di confidenza (9604)
Nel caso esaminato,
n=1655,3 ossia 1656.
19
06/05/2015
Popolazione finita
Esempio: Un paesino conta 250 famiglie. Sono state campionate 40 famiglie, e di queste 15
leggono con assiduità il giornale locale . Determinare un intervallo di confidenza al 95%
per la percentuale di famiglie che legge il giornale locale.
La popolazione da cui viene estratto il campione casuale ha numerosità limitata. Il fattore di correzione viene usato per aggiornare la
varianza della popolazione di Bernoulli.
Ĝ ± ?V/
Ĝ =
UW×UW)
×
15
= 0,375
40
?:,'C = 1,96
G = 23,72%
Ĝ × 1 − Ĝ )
= 0,076
%
G = 51,27%
Se non fosse stato usato il
fattore di correzione di continuità, allora
G = 22,49%
G = 52,50%
= 0,91
Intervalli di confidenza per la media
L’intervallo di confidenza è un intervallo di valori plausibili che accompagna la stima puntuale
di un parametro.
E’ possibile costruire intervalli di confidenza per la media della popolazione.
Come?
Approssimazione
gaussiana
Popolazione Non
Gaussiana
Popolazione
Gaussiana
se n > 30 (TCL)
Approssimazione
gaussiana se
popolazione di
Bernoulli
Distribuzione
gaussiana
20
06/05/2015
Esempio: Il contenuto di Coca-Cola in una singola bottiglia può subire piccole variazioni. I dati
indicano che il contenuto delle bottiglie segue una legge gaussiana con media 33cc e deviazione standard 1,5cc. Oggi, alle 8am, il responsabile del controllo di qualità ha selezionato 16 bottiglie, trovando una media campionaria di 32,87cc.
Costruire un intervallo di confidenza al livello del 95% per il contenuto medio delle bottiglie.
32,87cc rappresenta una stima puntuale del contenuto medio delle bottiglie.
E’ possibile determinare un intervallo, tale che il valore del contenuto medio
delle bottiglie (teorico) appartiene a tale intervallo con probabilità 95%?
; −?:,'C < = D ?:,'C = 0,95
0,95
?:,: = −?:,'C = −1,96
− ; −?:,'C < D ?:,'C = 0,95
8 %
?:,'C = 1,96
; −?:,'C
1,5
32,87
< D + ?:,'C
= 0,95
; − ?:,'C
%
%
16
< − D ?:,'C
= 0,95
%
%
32,87 − 0,735; 32,87 + 0,735
Statistiche corrette
E%; G) 1
La v.a.
= + + ⋯ + con , , … , v.a. indipendenti ed identica%
%
mente distribuite, con legge di probabilità E) G , è un esempio di statistica.
Il vettore
: preferenza per il partito A o B
Y : Andrea
, , … , è un esempio di campione casuale
Z: [\[\]^_`\abcbabd^ed`fb
Y ) = preferenza partito di Andrea
La v.a. è tale che Y = Y ): prima unità statistica
Y : Giuseppe
Y ) = preferenza partito di Giuseppe
La v.a. è tale che Y = Y ): seconda unità statistica
La v.a. è una copia della v.a. .
La v.a. è indipendente dalla v.a. poiché la prima si riferisce ad un primo campionamento
casuale e la seconda si riferisce ad un secondo campionamento casuale.
Lo stimatore
E%; G) 1
= + + ⋯ + si dice corretto perché %
%
R;U)
= G. 21
06/05/2015
1
+ + ⋯ + con , , … , v.a. indipendenti ed identicamente
% distribuite, con legge di probabilità hN è un esempio di statistica.
La v.a. =
Il vettore , , … , è un esempio di campione casuale
Z: [\[\]^_`\abcbabd^ed`fb
: altezza studente UNIBAS
Y ) = altezza di Andrea
Y : Andrea
La v.a. è tale che Y = Y ): prima unità statistica
Y : Giuseppe
Y ) = altezza di Giuseppe
La v.a. è tale che Y = Y ): seconda unità statistica
La v.a. è una copia della v.a. .
La v.a. è indipendente dalla v.a. poiché la prima si riferisce ad un primo campionamento
casuale e la seconda si riferisce ad un secondo campionamento casuale.
La stimatore =
1
+ + ⋯ + si dice corretto perché = μ. % Varianza non nota
Parliamone davanti ad un bicchiere di birra…
In compagnia di
A Student of Statistics
William S. Gosset (1876-1937)
Quando non si conosce la varianza della popolazione
al suo posto si può usare la varianza campionaria.
In tal caso la distribuzione di è descritta dalla variabile
aleatoria T-Student.
Gradi di libertà
Ai percentili della v.a. gaussiana vanno sostituiti
quelli della variabile aleatoria T-Student → -0i./)
22
06/05/2015
Esempio: Il contenuto di Coca-Cola in una singola bottiglia può subire piccole variazioni. I dati
indicano che il contenuto delle bottiglie segue una legge gaussiana con media 33cc. Oggi, alle
8am, il responsabile del controllo di qualità ha selezionato 16 bottiglie, trovando una media
campionaria di 32,87cc e una deviazione standard campionaria di 1,5 cc .
Costruire un intervallo di confidenza al livello del 95% per il contenuto medio delle bottiglie.
32,87cc rappresenta una stima puntuale del contenuto medio delle bottiglie.
1,5cc rappresenta una stima puntuale della deviazione standard campionaria
delle bottiglie.
− = k
j8
%
− = =~"0,1)
8 %
Al posto di
si usa
gradi lib=16-1
; −-:,'C; < k D -:,'C; = 0,95
; −?:,'C < = D ?:,'C = 0,95
− j8
%
; −2,1314 < k D 2,1314 = 0,95
; −2,1314 <
− D 2,1314 = 0,95
j8
%
; −2,1314
j
j
< − D 2,1314
= 0,95
%
%
; − 2,1314
j
j
< D + 2,1314
= 0,95
%
%
23
06/05/2015
; − 2,1314
j
j
< D + 2,1314
= 0,95
%
%
Viene sostituito con la media campionaria 32,87cc
; 32,87 − 2,1314
j
j
< D 32,87 + 2,1314
= 0,95
%
%
Viene sostituito con la deviazione campionaria 1,5cc
; 32,87 − 2,1314
1,5
1,5
< D 32,87 + 2,1314
= 0,95
%
%
Viene sostituito con la taglia 16
; 32,87 − 2,1314
1,5
16
< D 32,87 + 2,1314
1,5
16
= 0,95
[32,07; 33,06]
Con probabilità pari al 95%, il contenuto medio delle bottiglie di coca cola assume un valore
compreso tra 32,07cc e 33,06cc. Cambiando campione casuale, l’intervallo cambia.
Esempio: Il contenuto di Coca-Cola in una singola bottiglia può subire piccole variazioni. I dati
indicano che il contenuto delle bottiglie segue una legge gaussiana con media 33cc. Oggi, alle
9am, il responsabile del controllo di qualità ha selezionato 16 bottiglie, trovando una media
campionaria di 32,97cc e una deviazione standard campionaria di 1,8 cc .
Costruire un intervallo di confidenza al livello del 95% per il contenuto medio delle bottiglie.
; − 2,1314
j
j
< D + 2,1314
= 0,95
%
%
Viene sostituito con la media campionaria 32,97cc
; 32,97 − 2,1314
j
j
< D 32,97 + 2,1314
= 0,95
%
%
Viene sostituito con la deviazione campionaria 1,8cc
; 32,97 − 2,1314
1,8
1,8
< D 32,97 + 2,1314
= 0,95
%
%
Viene sostituito con la taglia 16
; 32,97 − 2,1314
[32,01; 33,92]
1,8
16
< D 32,97 + 2,1314
1,8
16
= 0,95
L’intervallo precedente è [32,07; 33,06]
24
06/05/2015
Rapporto tra variabili aleatorie
La v.a. S nella definizione della T-Student è la varianza campionaria, definita come:
j =
1
− %−1
+ − + ⋯ + − E’ un esempio di statistica.
Se la popolazione è gaussiana, è possibile caratterizzare la legge di probabilità di j ?
La statistica j è uno stimatore corretto?
Di quale parametro?
Osservazione: La v.a. T-Student è il rapporto tra due v.a.:
− j8
%
dove si è posto
m=
=
− l
)
!
j
j
%
=
− 8 %
j8
=
− 8 %
j %−1
%−1
=
Qual è la legge di probabilità di
m
=
8
%−1
m ?
Distribuzione campionaria della varianza
Si consideri la v.a. X con distribuzione di probabilità:
X
1
2
3
4
f(x)
0,2
0,1
0,3
0,4
Si elenchino i possibili campioni di dimensione 2 e si ricavi
la distribuzione di probabilità della varianza campionaria.
Coppie
t
r
(1,1)
1,0
0
0,2×0,2=0,04
(3,1)
2,0 2,0
0,3×0,2=0,06
(1,2)
1,5
0,5
0,2×0,1=0,02
(3,2)
2,5 0,5
0,3×0,1=0,03
(1,3)
2,0
2,0
0,2×0,3=0,06
(3,3)
3,0 0,0
0,3×0,3=0,09
(1,4)
2,5
4,5
0,2×0,4=0,08
(3,4)
3,5 0,5
0,3×0,4=0,12
(2,1)
1,5
0,5
0,1×0,2=0,02
(4,1)
2,5 4,5
0,4×0,2=0,08
(2,2)
2,0
0
0,1×0,1=0,01
(4,2)
3,0 2,0
0,4×0,1=0,04
(2,3)
2,5
0,5
0,1×0,3=0,03
(4,3)
3,5 0,5
0,4×0,3=0,12
(2,4)
3,0
2,0
0,1×0,4=0,04
(4,4)
4,0 0,0
0,4×0,4=0,16
uo
pZq = r; Zo = s) Coppie
t
r
uo
pZq = r; Zo = s)
Ad esempio, il valore di + o=0,5 corrispondente a (1,2) si ottiene calcolando [1 − 1,5) +
2 − 1,5) ]/2 − 1) = 0,5.
25
06/05/2015
X
1
2
3
4
f(x)
0,2
0,1
0,3
0,4
Media della popolazione
= 1 × 0,2 + 2 × 0,1 + 3 × 0,3 + 4 × 0,4 = 2,9
Varianza della popolazione
506 = 1 − 2,9) × 0,2 + 2 − 2,9) × 0,1 + 3 − 2,9) × 0,3 + 4 − 2,9) × 0,4 = 1,29
vo
0,0
0,5
2,0
4,5
f(x)
0,30
0,34
0,20
0,16
j o = 506 j o = 0 × 0,3 + 0,5 × 0,34 + 2 × 0,2 + 4,5 × 0,16 = 1,29
La v.a. chi-quadrato è somma di quadrati di v.a. gaussiane standard.
=
w=1
w=3
w=2
w=5
26
06/05/2015
La variabile aleatoria
!
j dove j = − ha distribuzione chi-quadrato con gradi di libertà % − 1.
Infatti
% − 1) j =
− +
− + − − + ⋯+
+ ⋯ + − Lo stimatore j è corretto perché j = Esempio: L’osservazione della durata (in ore) della batteria per cellulare di una data marca
in 24 esemplari di prodotto ha dato luogo ai seguenti risultati:
58,7
71,5
64,9
75,4
76,9
67,3
67,8
73,0
41,7 56,7 64,5 69,7 82,1 82,5 40,8
70,4 104 82,3 90,4 86,8 72,8 71,8
74,9
54,5
La media campionaria risulta 70,9. La varianza campionaria risulta 203,45.
E’ possibile determinare un intervallo di confidenza al 95% per la varianza della
popolazione?
E’ possibile usare una v.a. chi-quadrato con gradi di libertà 23.
1 − B = 0,95
1 −B
B8 = 0,025
2
1 − B82 = 0,975
=11,68
B/2
; 11,68 <
B/2
=38,07
%−1 j D 38,07 = 0,95
% ← 24, j ← 203,45
;
;
% − 1)j % − 1)j < D
= 0,95
38,07
11,68
23 × 203,45
23 × 203,45
< D
= 0,95
38,07
11,68
27