dati standardizzati [statistica]

reye

Utente Standard
Professione: studente
Software: me stesso
Regione: puglia
ciao a tutti, nel file allegato sono riportati i dati relativi a due variabili di produzione.
La standardizzazione mostra i dati indicati con Z=(Z1t,Z2t), ottenuto con valori di media 520 (variabile 1) e 10 (variabile 2) e deviazione standard 2,5 (variabile 1) e 0,4 (variabile 2). Ho 12 campioni di dimensione 2. Facendo i calcoli sui dati standardizzati risulta una media diversa da zero e una deviazione standard diversa da 1, il che contrasta con quanto riportato sulla teoria della standardizzazione. qualcuno può aiutarmi a chiarire questa situazione?
 

Allegati

  • Immagine.png
    Immagine.png
    82.5 KB · Views : 18

Fulvio Romano

Utente Senior
Professione: Ingegnere
Software: Alcuni, ma non tutti
Regione: Emilia Romagna
Che significa standardizzati? Intendi dire normalizzati?
Da come hai posto la domanda non si capisce se vuoi sapere perché il processo risulta fuori controllo, oppure perché non ti trovi con i conti, e poi non dici come sono fatti i conti.
Teni conto che se normalizzi un processo non a distribuzione normale, il residuo può spostare sia la media, sia la varianza.

Per prima cosa vedi se nella distribuzione originale la moda coincide con la media. Se non è così l'analisi finisce lì. Usa la moda ed i residui di Weibull invece della media e la varianza e vedi che ti trovi numeri più credibili.
 

reye

Utente Standard
Professione: studente
Software: me stesso
Regione: puglia
Che significa standardizzati? Intendi dire normalizzati?
Da come hai posto la domanda non si capisce se vuoi sapere perché il processo risulta fuori controllo, oppure perché non ti trovi con i conti, e poi non dici come sono fatti i conti.
Teni conto che se normalizzi un processo non a distribuzione normale, il residuo può spostare sia la media, sia la varianza.

Per prima cosa vedi se nella distribuzione originale la moda coincide con la media. Se non è così l'analisi finisce lì. Usa la moda ed i residui di Weibull invece della media e la varianza e vedi che ti trovi numeri più credibili.

esattamente, intendo per standardizzazione la trasformazione in variabile casuale con media=0 e deviazione standard=1.
Considerati m=12 campioni, la formula usata è z=(x-M)/S, dove x indica la media di ciascun campione m, M è la media degli m campioni, S la deviazione standard campionaria. Per il calcolo devo necessariamente usare media e varianza
 

reye

Utente Standard
Professione: studente
Software: me stesso
Regione: puglia
argomento troppo inusuale? nessuno che possa dire la sua a riguardo? sulle medie standardizzate (indicate con Zt nell'immagine allegata nel primo messaggio) la matrice di covarianza è (data dal libro)

0.28 0.042
0.042 0.130,

ma con le formule utilizzate non trovo questi risultati. Qualcuno può verificare se corrisponde?

Altro dubbio è il seguente: la standardizzazione riportata nell'immagine, ottenuta dopo aver assegnato alle due variabili le medie 520 e 10 e le deviazioni standard 2.5 e 0.4 (come richiesto dal testo), non porta a media=0 e deviazione standard=1..
 

reye

Utente Standard
Professione: studente
Software: me stesso
Regione: puglia
la media, per ciascuna variabile, è 521.16 e 10.08, ma il calcolo dei dati standardizzati deve avvenire con 520 e 10. Per quanto riguarda la moda posso calcolare solo gli intervalli con frequenza maggiore
 

Fulvio Romano

Utente Senior
Professione: Ingegnere
Software: Alcuni, ma non tutti
Regione: Emilia Romagna
Forse sono stupido o disattento io, ma non riesco a capire quello che stai dicendo. Tu dice "la media è 521.16, ma deve essere 520". La media non è che "deve essere", data una distribuzione di dati, la media "è".
Dovresti spiegare meglio:
- da quali dati parti. Io lì vedo dodici campioni, che sono talmente pochi che una normalizzazione verrà certamente con dei residui importanti.
- per ogni variabile vedo una coppia di valori. E' una grandezza vettoriale?
- come fai la normalizzazione? Calcoli la media e la sottrai ai valori, o usi altri metodi?

Se prendo la prima colonna mi viene la media 520.47 e la moda 521, direi che sono abbastanza vicini, quindi è possibile che sia una distribuzione normale, ma perché i numeri che ti vengono sono diversi?

Devi spiegare nel dettaglio il tuo problema e la tua soluzione, se dai per scontate troppe cose è difficile capire cosa sta succedendo. Io non ho capito neanche qual'è il problema. Vuoi imporre una media diversa da quella che viene dai calcoli, non ti lamentare se poi non ti trovi coi calcoli.
 

reye

Utente Standard
Professione: studente
Software: me stesso
Regione: puglia
cercherò di essere il più chiaro possibile e mi scuso se ho dato molti concetti e procedure per scontati: nell'immagine allegata ho dodici campioni, di dimensione pari a 2, riferiti a due variabili.
A partire da questi dati, devo standardizzarli: da quanto ho appreso, "standardizzare" implica ottenere una variabile casuale avente media pari a zero e deviazione standard pari a 1. Detto ciò, un articolo scientifico in mio possesso IMPONE di standardizzare secondo le medie 520 (per la 1a variabile) e 10 (per la seconda variabile) e le deviazioni standard 2.5 (1a variabile) e 0.4 (2a variabile). Ottengo i dati standard seguenti:

(1a var) (2a var)
3.1084 -0.4066
0.4921 0.1945
-5.0714 1.2551
4.4915 -0.0177
1.7536 0.5127
0.1442 -0.7601
-5.2665 0.6187
4.4435 0.6718
2.4522 -0.0354
-0.2602 -0.1061
-3.9513 1.6617
5.5324 -0.0530

Prima di fare altre domande, chiedo: è normale che questi dati abbiano medie diverse da 0 e deviazioni standard diverse da 1, così come richiesto da una distribuzione normale standardizzata? Preciso ancora una volta che la standardizzazione è avvenuta con i dati forniti dal suddetto articolo.
 

Fulvio Romano

Utente Senior
Professione: Ingegnere
Software: Alcuni, ma non tutti
Regione: Emilia Romagna
Con dodici (pochissimi!) campioni è normale avere una media diversa da 0 ed una varianza diversa da 1. Per la legge dei grandi numeri più sono i campioni e più media e varianza si avvicinano a quelli teorici. Quello che non riesco a capire è:
Detto ciò, un articolo scientifico in mio possesso IMPONE di standardizzare secondo le medie 520 (per la 1a variabile) e 10 (per la seconda variabile) e le deviazioni standard 2.5 (1a variabile) e 0.4 (2a variabile).
Che vuol dire "IMPONE"? Da dove esce 520? Potrebbe:
1. essere la media "vera", mentre quei dodici campioni sono solo alcuni di quelli disponibili
2. essere la media di campioni di controllo, mentre quei dodici sono campioni di verifica (ma qui entriamo in un campo più complicato)
3. (molto più probabile) è il dato di partenza.

Il caso 3 potrebbe essere il caso in cui ho realizzato dodici pezzi lunghi 520mm e poi ho misurato la dispersione delle misure. In questo caso non ho "la media" 520, ma la "media desiderata" pari a 520. E' ovvio che con solo dodici campioni la media reale non coincide con quella teorica. Potresti avere duemila campioni e.... cosa succede? Ti avvicini a 520 se hai una distribuzione normale.

Ora io ho ipotizzato uno scenario plausibile, ma il testo dice cosa è quel 520?
 

reye

Utente Standard
Professione: studente
Software: me stesso
Regione: puglia
520 e 10 sono medie "stimate", ossia desiderate per mantenere il processo in controllo ;)
 

Fulvio Romano

Utente Senior
Professione: Ingegnere
Software: Alcuni, ma non tutti
Regione: Emilia Romagna
Ecco, vedi che piano piano la verità viene fuori con le tenaglie?

Hai un processo da controllare, usi carte di controllo? Di che tipo? Lavori su una media mobile a 12 passi? Quei numeri ti stanno dicendo che hai un processo sotto controllo (la varianza è vicina a 1) ma fuori regolazione (la media è diverrà da zero).

Le carte di controllo però devono avere delle bande limite, non puoi pretendere esattamente 0 e 1.
 

reye

Utente Standard
Professione: studente
Software: me stesso
Regione: puglia
la carta di controllo è una multivariata CUSUM.
I miei problemi riguardano il calcolo della matrice di covarianza del vettore delle medie campionarie e delle medie standardizzate.
Opero in questo modo: ad esempio, per il primo campione (dimensione campionaria n=2) si ha

512,43 e 538,56, da cui si ha media campionaria 525,5 e varianza pari a ((512,43-525,5)^2 + (538,56-525,50)^2)/(n-1)=341,39, e così via per tutti gli altri. Sommo le varianze campionarie ottenute e divido per il numero dei campioni (12), ottenendo quindi una varianza pari a 139,54, ossia deviazione standard pari a 11,81.
Tuttavia la varianza della prima variabile per il vettore delle medie campionarie è indicata (vedere testo allegato) pari a 6,25, quindi ben lontano dai calcoli di cui sopra. Dove sbaglio?
 

Allegati

  • Immagine.png
    Immagine.png
    67.2 KB · Views : 7

reye

Utente Standard
Professione: studente
Software: me stesso
Regione: puglia
le matrici di covarianza si intendono note a prescindere, sono assegnate dal progetto. per chiunque si voglia cimentare i calcoli sui 12 campioni non porteranno ai dati in allegato, ma solo perchè, ripeto, sono assegnati e non calcolati;)
 

Statistiche forum

Discussioni
57,908
Messaggi
493,391
Utenti registrati
102,282
Ultimo utente registrato
Luca1234yf

Utenti online


Top