lunedì 7 ottobre 2013

Un metodo sbagliato

Falsa significatività (Expected = 198)

Non ha risposto nessuno alla domanda che vi avevo posto nel post precedente, eppure si trattava di una domanda semplicissima. Credo che sia un tipo di domanda che non è ammessa nei tribunali, perché chiedevo di dire quale sarebbe stata la scelta di Discepolo. Però qui non siamo in un tribunale, per cui qualcuno avrebbe potuto rispondere lo stesso. Cosa avreste dovuto fare? Avreste dovuto notare che il numero di coppie presenti sulla diagonale centrale, è diverso nella tabella originale e in ciascuna delle quattro tabelle random, cosa che vi avevo già detto io, e che quindi Discepolo avrebbe scelto la tabella n.4 come termine di paragone, perché in questa tabella il numero di coppie sulla diagonale centrale è minore rispetto alle altre.

Tabella Reale:
10 + 20 + 17 + 29 + 17 + 31 + 25 + 18 + 25 + 18 + 15 + 9 = 234

Tabelle Random:
7 + 13 + 15 + 17 + 28 + 30 + 18 +16 + 27 + 11 +18 + 8 = 208

8 + 8 + 12 + 22 + 24 + 36 + 15 + 26 + 28 + 18 + 11 + 6 = 214

10 + 13 + 17 + 19 + 28 + 34 + 16 + 15 + 24 + 12 + 14 + 7 = 209

9 + 17 + 13 + 16 + 25 + 26 + 16 + 20 + 20 + 17 + 11 + 8 = 198

Se ogni volta che si mischiano le famiglie si ottiene un numero diverso è EVIDENTE che non si può utilizzare questo numero per confrontarlo con il numero trovato nella tabella con i dati reali.

E' come pretendere di prendere le misure di un mobile con un metro che a volte è lungo 120 cm, altre volte 80 cm, altre volte 90 cm ecc. ecc.

Il numero delle coppie sulla diagonale centrale della tabella con i dati reali rimane sempre lo stesso, queste coppie sono 234, ma con quale di questi 4 numeri trovati nelle tabelle random andrebbe confrontato?

Se si confronta 234 con 198, allora il risultato trovato appare essere molto significativo, ma se si confronta con gli altri tre numeri no.

Se invece calcoliamo la media tra i quattro risultati ottenuti mischiando le famiglie, otteniamo un valore più vicino al vero valore atteso.

Media = (208 + 214 + 209 + 198) / 4 = 207

In realtà anche questo valore è piuttosto lontano dal valore atteso che è 223, ma questo succede perché abbiamo usato solo quattro tabelle random, mentre ne occorrerebbero un centinaio, e perché siamo stati "sfortunati" perché il valore trovato per la quarta tabella è molto raro.

Quello che è importante sottolineare è l'assurdità del metodo di Discepolo che consisteva nel prendere come valore atteso il primo valore che otteneva mischiando le famiglie una unica volta.

Nessun professore universitario di statistica certificherebbe la validità del metodo di Discepolo, ed infatti i professori universitari non hanno mai detto che questo metodo era valido.

Io credo che i professori universitari abbiano dato per scontato che Discepolo avesse calcolato la media su un centinaio di randomizzazioni diverse, ed è per questo che hanno calcolato i valori di significatività basandosi sui numeri che gli erano stati forniti da Discepolo, altrimenti non l'avrebbero fatto.

Quando l'equivoco è stato chiarito, i professori universitari hanno detto a Discepolo che doveva calcolare la media su 100 randomizzazioni per trovare il valore atteso, ma Discepolo ha pensato di ignorare i loro consigli e di continuare con il metodo utilizzato all'inizio.

In alto vedete una immagine che indica la significatività statistica se si utilizza come valore atteso il valore più basso tra le quattro randomizzazioni. In realtà il valore del P-Value non è esatto perché le formule che ho utilizzato non sono adatte a questo tipo di problema. 

Qualche tempo fa, dicevo che il P-Value calcolato con queste formule fosse esatto, in realtà non è proprio così. Queste formule permettono di trovare con una buona approssimazione il P-Value, ma non di calcolarlo esattamente. La cosa non è importante da un punto di vista pratico, perché anche se il P-Value è leggermente diverso da quello calcolato, il risultato non cambia.  

Ad esempio nel grafico si legge che il P-Value è 0,00881 ma anche se fosse invece uguale a 0,009 o a 0,007 da un punto di vista pratico non cambierebbe nulla. Il P-Value ci dice qual è la probabilità di trovare un certo risultato per caso, e se questa probabilità è di sette casi su mille, di otto casi su mille, o di nove casi su mille, non cambia praticamente nulla, perché in tutti e tre i casi si tratta di una probabilità molto scarsa.

Credo che l'unico modo per calcolare in modo esatto il valore del P-Value in questo tipo di problema, sia proprio quello di calcolarlo per mezzo di simulazioni che facciano ricorso a dei numeri random, e sto lavorando su questo. 

Non ci provo nemmeno a spiegarvi perché il calcolo del P-Value effettuato con le mie formule sebbene fornisca una buona approssimazione non sia da considerarsi esatto, perché ho visto che non mi seguite nelle cose più semplici, e questo tanto semplice da capire non è.

Quello che invece dovrebbero capire TUTTI, è che il metodo di Discepolo di prendere come valore atteso il primo valore che si ottiene mischiando le famiglie, è un metodo assurdo, perché mischiando le famiglie si ottengono ogni volta dei risultati diversi.

Questa cosa in realtà l'ha capita lo stesso Discepolo, molto prima che fossi io a spiegargliela.

E' allo stesso Discepolo che a un certo punto è venuto in mente di controllare che cosa succedeva se invece di mischiare le famiglie una unica volta le mischiava per 100 volte.

E' lo stesso Discepolo che ha constatato che ripetendo queste randomizzazioni per 100 volte otteneva quasi sempre dei risultati diversi, per cui lui stesso si sarebbe dovuto rendere conto che il metodo utilizzato all'inizio non era valido.

Perché allora non ha corretto il suo errore?

Non significativo (expected= 223)


6 commenti:

Anonimo ha detto...

Perchè CD non ammette gli errori e quando qualcuno glielo fa notare insulta e aggredisce. Ho notato più di qualche volta questo suo atteggiamento quando qualcuno nel suo blog gli chiede spiegazione di qualcosa

Astromauh ha detto...

Non sono uno psicologo però ho notato che lui ha tutti i sintomi di una malattia che si chiama narcisismo patologico.

Astromauh ha detto...

Vorrei evitare di parlare di Discepolo. Trovo più interessante parlare delle sue statistiche. Credo che la maggior parte delle persone abbia capito che non sono valide, specialmente ora che è lui che ha dovuto ammettere che le sue statistiche non sono state certificate dai professori di statistica dell'università. Però non credo che tutti abbiano capito l'enormità di questi errori. Lui era riuscito a trasformare una statistica errata in un successo clamoroso. Come avrà fatto? Sono incuriosito dal fenomeno sociologico. Il bello è che è stato lo stesso Discepolo a spiegare il suo errore nel libro che usava per vantarsi di aver conseguito un importante risultato statistico. Come mai per 20 anni non se ne è mai accorto nessuno? Quelli del CICAP direbbero perché gli astrologi sono cretini, ma non credo che sia questa la spiegazione, perché ho segnalato questo libro sul blog di una cicappina e nessuno se ne è accorto neppure li.

Astromauh ha detto...

Che lo Zeta altissimo calcolato dai professori di statistica fosse errato, è lo stesso Discepolo a dirlo nel suo libro on line intitolato: "Osservazioni politematiche sulle ricerche Discepolo/Miele".

Lui l'ha scritto, ma nessuno dei suoi lettori è stato in grado di leggerlo.

Io ancora non sono riuscito a capire questa cosa, sono affascinato da questo mistero, perché è di un mistero che si tratta.

Anonimo ha detto...

Ma quale mistero? discepolo è stato creduto sulla parola, tutto lì. Lui le sa vendere bene le sue cianfrusaglie.

Astromauh ha detto...

Una volta un mio amico ha subito una truffa da parte di una banda di napoletani. Credo che il mio amico sia stato avvicinato da uno di questi signori nell'area di servizio di una autostrada, e che questo signore gli abbia proposto l'acquisto di un videoregistratore nuovo di pacca ad un prezzo stracciato, dandogli ad intendere che si trattasse di un oggetto di provenienza furtiva. Il mio amico, allettato dal prezzo veramente buono, quando ha visto che il videoregistratore era effettivamente nuovo e tutto bello incellophanato, ha deciso di acquistarlo. Allora questi signori, gli hanno detto: "Aspetta un attimo che te lo incartiamo meglio" e davanti ai suoi occhi glielo hanno incartato. Però poi, approfittando di un suo attimo di distrazione gli hanno consegnato un altro pacco, che evidentemente era già stato preparato in precedenza, e che invece di contenere il videoregistratore conteneva un mattone.

Naturalmente sul pacco che hanno consegnato al mio amico, non c'era una etichetta con la dicitura: "Questo pacco contiene un mattone".

Invece nel caso di Discepolo, nel libro "pacco" di cui parliamo, questa etichetta c'è.

Perché c'è scritto che il risultato straordinario che era stato trovato inizialmente, era in realtà sbagliato, perché mischiando nuovamente le famiglie per altre 100 volte, le coppie che inizialmente risultavano più numerose del previsto in modo statisticamente significativo, non presentavano più un eccesso statisticamente significativo.

Insomma, è un po' come vendere delle stecche di sigarette su cui compare la scritta: "Queste sigarette sono state fatte con la segatura".

Oppure è come vendere delle bottiglie d'acqua purissima, con sopra una etichetta, su cui c'è scritto: "Acqua di fogna".