lunedì 7 ottobre 2013

Un metodo sbagliato

Falsa significatività (Expected = 198)

Non ha risposto nessuno alla domanda che vi avevo posto nel post precedente, eppure si trattava di una domanda semplicissima. Credo che sia un tipo di domanda che non è ammessa nei tribunali, perché chiedevo di dire quale sarebbe stata la scelta di Discepolo. Però qui non siamo in un tribunale, per cui qualcuno avrebbe potuto rispondere lo stesso. Cosa avreste dovuto fare? Avreste dovuto notare che il numero di coppie presenti sulla diagonale centrale, è diverso nella tabella originale e in ciascuna delle quattro tabelle random, cosa che vi avevo già detto io, e che quindi Discepolo avrebbe scelto la tabella n.4 come termine di paragone, perché in questa tabella il numero di coppie sulla diagonale centrale è minore rispetto alle altre.

Tabella Reale:
10 + 20 + 17 + 29 + 17 + 31 + 25 + 18 + 25 + 18 + 15 + 9 = 234

Tabelle Random:
7 + 13 + 15 + 17 + 28 + 30 + 18 +16 + 27 + 11 +18 + 8 = 208

8 + 8 + 12 + 22 + 24 + 36 + 15 + 26 + 28 + 18 + 11 + 6 = 214

10 + 13 + 17 + 19 + 28 + 34 + 16 + 15 + 24 + 12 + 14 + 7 = 209

9 + 17 + 13 + 16 + 25 + 26 + 16 + 20 + 20 + 17 + 11 + 8 = 198

Se ogni volta che si mischiano le famiglie si ottiene un numero diverso è EVIDENTE che non si può utilizzare questo numero per confrontarlo con il numero trovato nella tabella con i dati reali.

E' come pretendere di prendere le misure di un mobile con un metro che a volte è lungo 120 cm, altre volte 80 cm, altre volte 90 cm ecc. ecc.

Il numero delle coppie sulla diagonale centrale della tabella con i dati reali rimane sempre lo stesso, queste coppie sono 234, ma con quale di questi 4 numeri trovati nelle tabelle random andrebbe confrontato?

Se si confronta 234 con 198, allora il risultato trovato appare essere molto significativo, ma se si confronta con gli altri tre numeri no.

Se invece calcoliamo la media tra i quattro risultati ottenuti mischiando le famiglie, otteniamo un valore più vicino al vero valore atteso.

Media = (208 + 214 + 209 + 198) / 4 = 207

In realtà anche questo valore è piuttosto lontano dal valore atteso che è 223, ma questo succede perché abbiamo usato solo quattro tabelle random, mentre ne occorrerebbero un centinaio, e perché siamo stati "sfortunati" perché il valore trovato per la quarta tabella è molto raro.

Quello che è importante sottolineare è l'assurdità del metodo di Discepolo che consisteva nel prendere come valore atteso il primo valore che otteneva mischiando le famiglie una unica volta.

Nessun professore universitario di statistica certificherebbe la validità del metodo di Discepolo, ed infatti i professori universitari non hanno mai detto che questo metodo era valido.

Io credo che i professori universitari abbiano dato per scontato che Discepolo avesse calcolato la media su un centinaio di randomizzazioni diverse, ed è per questo che hanno calcolato i valori di significatività basandosi sui numeri che gli erano stati forniti da Discepolo, altrimenti non l'avrebbero fatto.

Quando l'equivoco è stato chiarito, i professori universitari hanno detto a Discepolo che doveva calcolare la media su 100 randomizzazioni per trovare il valore atteso, ma Discepolo ha pensato di ignorare i loro consigli e di continuare con il metodo utilizzato all'inizio.

In alto vedete una immagine che indica la significatività statistica se si utilizza come valore atteso il valore più basso tra le quattro randomizzazioni. In realtà il valore del P-Value non è esatto perché le formule che ho utilizzato non sono adatte a questo tipo di problema. 

Qualche tempo fa, dicevo che il P-Value calcolato con queste formule fosse esatto, in realtà non è proprio così. Queste formule permettono di trovare con una buona approssimazione il P-Value, ma non di calcolarlo esattamente. La cosa non è importante da un punto di vista pratico, perché anche se il P-Value è leggermente diverso da quello calcolato, il risultato non cambia.  

Ad esempio nel grafico si legge che il P-Value è 0,00881 ma anche se fosse invece uguale a 0,009 o a 0,007 da un punto di vista pratico non cambierebbe nulla. Il P-Value ci dice qual è la probabilità di trovare un certo risultato per caso, e se questa probabilità è di sette casi su mille, di otto casi su mille, o di nove casi su mille, non cambia praticamente nulla, perché in tutti e tre i casi si tratta di una probabilità molto scarsa.

Credo che l'unico modo per calcolare in modo esatto il valore del P-Value in questo tipo di problema, sia proprio quello di calcolarlo per mezzo di simulazioni che facciano ricorso a dei numeri random, e sto lavorando su questo. 

Non ci provo nemmeno a spiegarvi perché il calcolo del P-Value effettuato con le mie formule sebbene fornisca una buona approssimazione non sia da considerarsi esatto, perché ho visto che non mi seguite nelle cose più semplici, e questo tanto semplice da capire non è.

Quello che invece dovrebbero capire TUTTI, è che il metodo di Discepolo di prendere come valore atteso il primo valore che si ottiene mischiando le famiglie, è un metodo assurdo, perché mischiando le famiglie si ottengono ogni volta dei risultati diversi.

Questa cosa in realtà l'ha capita lo stesso Discepolo, molto prima che fossi io a spiegargliela.

E' allo stesso Discepolo che a un certo punto è venuto in mente di controllare che cosa succedeva se invece di mischiare le famiglie una unica volta le mischiava per 100 volte.

E' lo stesso Discepolo che ha constatato che ripetendo queste randomizzazioni per 100 volte otteneva quasi sempre dei risultati diversi, per cui lui stesso si sarebbe dovuto rendere conto che il metodo utilizzato all'inizio non era valido.

Perché allora non ha corretto il suo errore?

Non significativo (expected= 223)


venerdì 4 ottobre 2013

Il metodo Discepolo

Dati Reali Paris-12



Random 1

Random 2

Random 3

Random 4


La prima di queste tabelle mostra i risultati reali estratti dal file Paris-12. Il file Paris-12 contiene le date di nascita di gruppi familiari raccolte originariamente da Michel Gauquelin in un quartiere di Parigi. Il numero totale delle date di nascita di questa statistica era di circa 8.000 soggetti. Le coppie figli/padri sono invece 2739, mentre le coppie figli/madri sono state analizzate separatamente.

Nella prima tabella, sulla diagonale evidenziata in giallo, ci sono le coppie figli/padri che sono formate da figli il cui ascendente risultava essere uguale al segno solare del padre.

Nella tabella leggiamo che delle 2739 coppie di figli e di padri, ce ne sono 10 formate da figli ascendente Ariete, che hanno un padre del segno dell'Ariete, 20 formate da figli ascendente Toro che hanno un padre del segno del Toro, ecc.

Il totale delle coppie presenti sulla diagonale è:

10 + 20 + 17 + 29 + 17 + 31 + 25 + 18 + 25 + 18 + 15 + 9 = 234

Discepolo sostiene (sosteneva?) che il numero delle coppie figli/padri presenti su questa diagonale è molto maggiore del previsto.

Ma qual è il numero delle coppie previste su questa diagonale?

Il numero di coppie previsto su questa diagonale è facilmente calcolabile moltiplicando i totali parziali in corrispondenza di ciascuna casella e dividendoli per il totale dei soggetti.

Ad esempio, se vogliamo sapere qual è il numero di coppie previste per la casella figlio ascendente Ariete/ Padre Sole in Ariete, dobbiamo moltiplicare il totale dei figli ascendente Ariete per il totale dei padri Ariete e dividere per il totale di tutte le coppie.

Ariete/Ariete= 98 * 256 / 2739 = 9.16

Proseguendo nello stesso modo calcoliamo anche le coppie previste per la combinazione Toro/Toro, Gemelli/Gemelli ecc.

Per cui le coppie previste sulla diagonale centrale risultano essere 223, undici in meno delle coppie trovate che erano 234.

Discepolo però, non adotta questo metodo, che era già stato adottato da Didier Castille in una statistica del tutto analoga, perché pensa che bisogna utilizzare una procedura random per calcolare il numero previsto per queste coppie.


Dall’insieme di questo tema, se lo sapete leggere, avete il quadro di un essere cattivo, depresso, vendicativo, ottuso, che ripete idiozie all’infinito, che vorrebbe obbligare i Professori che hanno certificato la mia ricerca a trovare i dischetti nei loro archivi per farli esaminare a lui: lo Sceriffo, il più grande ignorante di questa Terra che continua a dire che la ricerca descritta nel libro che conoscete andava fatta senza il campione random e non gl’interessa che i Professori dicano il contrario: esso (dato il nome che si è dato), che ha prodotto zero in tutta la vita, ne sa di più dei Professori di statistica coautori del libro dove è scritto che tutti i calcoli e le analisi statistiche furono rifatti in sede universitaria! 
Ciro Discepolo

Discepolo ha torto, non è vero che in questa statistica fosse necessario ricorrere ad un campione random, così come non è vero che i professori universitari abbiano certificato la sua statistica.

Comunque ho deciso di seguire anch'io il metodo di Discepolo che consisteva nel mischiare le famiglie, utilizzando la funzione random presente nei linguaggi di programmazione, facendo si che fosse il computer ad abbinare casualmente a ciascun padre un figlio qualsiasi tra i figli presenti nel database.

Ho ottenuto così quattro nuove tabelle che mostrano i risultati ottenuti mischiando le famiglie in modo casuale.

Per prima cosa notiamo che i totali parziali e il totale generale rimangono invariati anche in queste quattro tabelle random. Infatti è proprio così che deve essere, perché i soggetti della statistica sono sempre gli stessi, per cui il numero dei figli Arieti rimane invariato, così come il numero dei padri Ariete ecc.ecc..

Quello che cambia, in queste quattro tabelle, è il numero delle coppie riferito a ciascuna delle 144 caselle, per cui, di conseguenza, anche sulle diagonali centrali troviamo dei numeri diversi da quelli originali.

La somma delle coppie presenti sulla diagonale centrale, varia da tabella a tabella, come era naturale aspettarsi visto che gli abbinamenti figli/padri sono stati ottenuti in modo casuale.



Allora chiedo direttamente a Discepolo:

Signor Discepolo, tra le quattro tabelle random, quale bisogna prendere come termine di confronto con la tabella originale?

La 1, la 2, la 3, o la 4?

Discepolo, come al solito, non risponderà, però potete rispondere voi al suo posto, e quindi propongo a voi la domanda.

Quale tra queste tabelle generate in modo casuale verrà utilizzata da Discepolo?

La 1, la 2, la 3, o la 4?


giovedì 3 ottobre 2013

Falsi Successi

Giuliano Gemma nato a Roma il 2.9.1938 alle ore 3.50

Secondo Ciro Discepolo la morte di Giuliano Gemma confermerebbe le sue teorie astrologiche perché la sua ultima rivoluzione solare presentava delle configurazioni negative secondo le regole della astrologia attiva.

L'indice di pericolosità dell'anno calcolato per Cerveteri:
  • 2009.....78
  • 2010.....26
  • 2011.....78
  • 2012.....38
  • 2013.....56
Eppure l'indice di pericolosità dell'anno, calcolato sul sito di Discepolo, mostra che nel 2009 e nel 2011 l'indice di pericolosità dell'anno era molto più alto di quello del 2013.

Se qualcuno avesse chiesto a Discepolo di prevedere in quale di questi cinque anni Giuliano Gemma sarebbe potuto morire, lui che cosa avrebbe risposto? Avrebbe previsto che Giuliano Gemma sarebbe morto nel 2013? Oppure avrebbe indicato gli anni 2009 e 2011 come più probabili?