giovedì 17 ottobre 2013

Attenti a quei transiti


Clicca sull'immagine per leggere il testo

Il testo riportato nell'immagine qui sopra è tratto dal libro di Ciro Discepolo: "Osservazioni politematiche sulle ricerche Discepolo/Miele". 

Discepolo a questo punto delle sue ricerche si è reso (finalmente) conto, che utilizzando i numeri random o meglio i numeri pseudo random generati dal computer, ottiene dei risultati che variano di volta, in volta, e quindi si domanda esisterà un metodo oggettivo per scegliere quale tra questi risultati è quello giusto?

Bisognerà tener conto dei transiti del ricercatore? 

Ci rendiamo conto allora, che stiamo trattando una materia di confine tra la scienza e verità esoteriche non ancora chiaramente decifrabili. E forse questa potrebbe essere una spiegazione del fatto che occorrerebbe individuare un metodo "oggettivo" per portare avanti valori di ricerca statistica, assicurandosi che i transiti del ricercatore, in quel momento, non saranno determinanti, alla fine, per il risultato della ricerca.


Pazzesco!

Il metodo "oggettivo" cercato da Discepolo c'è, anzi di metodi ce ne sono almeno due.

Uno di questi metodi si basa proprio sull'utilizzo dei numeri casuali. Quello che probabilmente Discepolo non ha capito, è che una procedura basata sui numeri casuali può portare ad un risultato certo e per nulla casuale.

Il trucco qual è?

Invece di prendere un singolo risultato casuale ottenuto mischiando le famiglie, i risultati vanno presi TUTTI.

Quello che interessa sapere, non è quello che avviene in una singola randomizzazione, ma quello che succede in una serie di randomizzazioni, in modo da poter disegnare una curva che indica la frequenza con cui si ripetono i risultati e quindi la loro probabilità.

Se ad esempio prendiamo 100 risultati casuali ottenuti mischiando le famiglie del file paris12, e costruiamo un grafico con questi risultati, otteniamo la curva a campana che si vede sulla copertina del libro di Discepolo.


Sull'asse delle x ci sono i risultati ottenuti, mentre quello delle y indica la frequenza con cui questi risultati si ripetono.Questa curva ci dice che ci sono dei risultati che sono più frequenti e altri che sono meno frequenti.
I risultati più frequenti si trovano sull'asse delle x in corrispondenza del dosso della curva al centro dell'immagine, mentre a mano a mano che ci si allontana dal centro in una direzione o nell'altra, i risultati sono via, via, meno frequenti.

Una volta disegnata questa curva possiamo vedere il risultato ottenuto con le coppie vere in che punto del grafico si colloca. Se il risultato ottenuto con le coppie vere si trova nella zona centrale del grafico non è significativo, se invece si trova in una delle due estremità di questa curva è statisticamente significativo.

Se invece si mischiano le famiglie una sola volta, come aveva fatto inizialmente Discepolo, non è possibile disegnare la curva che si vede nel grafico, perché per disegnare questa curva, abbiamo bisogno di una serie di risultati casuali.

Forse a qualcuno la cosa potrebbe sembrare strana, ma se si procede in questo modo, utilizzando delle procedure che utilizzano i numeri random del computer, il risultato finale non è affatto random.

Perché se ad esempio ripetiamo questa procedura basata su una serie di 100 randomizzazioni per 10 volte, il risultato indicato come più probabile sarà lo stesso in ciascuna di queste 10 simulazioni. 
Se questo non dovesse accadere, allora abbiamo bisogno di aumentare il numero delle randomizzazioni, e invece di effettuarne 100 ne effettueremo 1000. 

Con un congruo numero di randomizzazioni, che non occorre definire in anticipo ma che si può stabilire sulla base dei risultati ottenuti, il risultato finale è sempre lo stesso.

Per cui questo è il metodo oggettivo auspicato da Discepolo, e che non risente affatto dei transiti che sta avendo il ricercatore in quel momento.

martedì 15 ottobre 2013

I numeri della statistica


I numeri nella tabella qui sopra riassumono i risultati totali della statistica da me condotta per verificare l'affermazione di Ciro Discepolo secondo cui nascerebbero più figli della media con l'ascendente uguale al segno solare del padre.

I dati che sono serviti per elaborare la statistica erano stati raccolti da Michel Gauquelin, e sono gli stessi dati utilizzati da Discepolo nelle sue ricerche, con l'eccezione dei dati contenuti nel file bourges, o almeno così credo, perché Discepolo scrivendo a proposito di un'altra statistica riguardante le coppie sposate, cita tutti questi file eccetto quello denominato bourges.

Nella tabella si legge il nome dei file da cui sono stati ricavati i risultati, il numero delle coppie figli/padre considerati, che ovviamente è un numero inferiore al totale dei soggetti contenuti in ciascun file, il numero delle coppie osservate in cui il figlio ha come ascendente il segno solare del padre, il numero previsto per questo tipo di coppie, e la differenza tra il numero di coppie osservate e il numero delle coppie previste.

Come si vede nell'ultima colonna della tabella, la differenza tra le coppie osservate e quelle previste è molto piccola, fatta eccezione per il file bourges che mostra però un valore negativo. Le coppie di figli e di padri con lo stesso ascendente/segno, in questo file risultano essere meno del previsto, e lo sono in maniera statisticamente significativa.

Ma, come dicevo, probabilmente Discepolo questo file non lo possedeva quando ha elaborato la sua statistica, per cui decidiamo di non considerarlo, sebbene il file bourges con 56 coppie in meno del previsto, da solo, capovolge il risultato della intera statistica, perché il totale della colonna Oss.-Pre. è di segno meno. 

Le coppie di figli e di padri con lo stesso ascendente/segno che secondo Discepolo dovrebbero essere molto più numerose del previsto, sono invece appena, appena meno del previsto.

11 + 4 + 11 + 2 + 0 - 56 + 22 =  - 6

Ma anche se non consideriamo le 56 coppie in meno trovate per bourges, la differenza tra le coppie osservate e quelle previste, è comunque una differenza molto piccola e priva di qualsiasi significatività statistica.

11 + 4 + 11 + 2 + 0 + 22 =  50

Sommiamo il totale delle coppie di ciascun file escludendo bourges:

2739 +
2311 +
3528 +
4870 +
3485 +
2935 =
------------
19868

Sommiamo le coppie osservate (bourges escluso):

234 +
196 +
303 +
404 +
287 +
261 =
-----------
1685

E sommiamo le coppie previste (bourges escluso):

223 +
192 +
292 +
402 +
287 +
239 =
----------
1635

Inseriamo questi numeri nel calcolatore di significatività:


Il risultato è che le coppie in più del previsto che sono 50, sono circa il 3,06% in più, e che questo surplus non è statisticamente significativo. Quindi, anche considerando soltanto i file che mostrano un incremento delle coppie, senza considerare il file che mostra un deficit delle coppie, cosa che non andrebbe mai fatta, perché non si possono escludere dai risultati quelli che non ci "piacciono", il risultato finale è che non è affatto dimostrato che i figli nascono più spesso della media con l'ascendente uguale al segno del padre.

Discepolo invece di pubblicare sul suo blog i miei numeri di telefono per farmi dispetto, perché non pubblica i numeri della sua statistica?

domenica 13 ottobre 2013

Il valore dello Zeta ricalcolato da Discepolo


Il valore dello Zeta calcolato per le coppie formate da figli che hanno come segno ascendente il segno solare dei padri è 2.64, ma che significa questo numero?

Per saperlo abbiamo bisogno della tabella che segue:


Da questa tabella ricaviamo che ad un valore di Zeta uguale a 2.64 corrisponde un P-value(one tailed) uguale a 0.004.

In altre parole, la probabilità che l'eccesso riscontrato per le coppie di figli e di padri considerati fosse dovuto ad un caso era uguale a 4 su mille, ovvero a 1 probabilità su 250.

Se questo valore dello Zeta fosse stato ben calcolato, si sarebbe trattato quindi di un risultato interessante, perché essendo il P-value piuttosto basso, questo ci avrebbe indotti a credere che non si trattasse di un risultato casuale, e quindi a ritenere che ci fosse qualcosa (una legge astrologica?), che facesse si, che i figli nascono più spesso della media con l'ascendente uguale al segno solare del padre. 

Solo che questo valore dello Zeta era stato calcolato in modo errato, perché si basava sul confronto tra il numero delle coppie di questo tipo trovate nel file paris12, e un numero generato mischiando le famiglie una unica volta, mentre Discepolo avrebbe dovuto mischiare le famiglie almeno un centinaio di volte e fare la media dei risultati ottenuti per ottenere il valore atteso per questo tipo di coppie.

Ma come faccio a dire che Discepolo ha commesso questo errore?

Discepolo scrive di me, che farei finta di fare dei calcoli di statistica e che di statistiche non ci capisco nulla.

Quindi potrebbe aver ragione lui e quel valore dello Zeta potrebbe essere stato ben calcolato?

No, non è questo il caso, perché è lo stesso Discepolo che nel libro on line: "Osservazioni politematiche sulle ricerche Discepolo/Miele", spiega che inizialmente aveva calcolato il valore atteso randomizzando le famiglie una unica volta, e che solo in un secondo tempo ha pensato di ripetere queste randomizzazioni per 100 volte. 



Da queste righe si evince che Discepolo aveva calcolato il valore atteso prendendo il primo risultato ottenuto mischiando le famiglie un'unica volta, e questo non andava fatto, perché come ho spiegato nel mio post precedente, mischiando le famiglie si ottiene quasi sempre un risultato diverso, e quindi non adatto ad essere usato come termine di paragone.

Però oltre a questa ammissione dell'errore iniziale, Discepolo ci fornisce un risultato perché scrive:

"Ma la cosa strana fu che nel 90 per cento dei confronti, la coppia vera era sempre più alta della coppia falsa" e poi leggete nel punto in cui scrive: "Sul fatto, poi, come detto, che il 90 per cento delle successive estrazioni ci dava un numero vero superiore a quello falso, statisticamente non aveva alcun valore.".

Discepolo non se rende conto, ma ha calcolato la vera significatività statistica per questo tipo di coppie.

Se nel 90% dei casi il valore calcolato mischiando le famiglie risultava essere inferiore al numero di coppie trovate nel file originale, questo significa che nel 10% dei casi il numero ottenuto casualmente era uguale o superiore al numero delle coppie reali.

Per cui la significatività statistica per queste coppie è pari a P(one-tailed)=0.10 e non a P(one-tailed)=0.004 come aveva inizialmente trovato.

Infatti il P-value è proprio questo che ci dice, perché ci dice quante sono le probabilità di trovare casualmente un valore uguale o maggiore a quello effettivamente trovato.

Quindi il valore del P-value calcolato dallo stesso Discepolo per queste coppie è pari a 0.10, ossia c'è una probabilità su 10 di ottenere questo stesso valore o uno superiore per puro caso.

Un valore così alto del P-value è ritenuto non significativo, per cui è lo stesso Discepolo che smentisce se stesso, sebbene lui non se ne renda conto.

Quindi è perfettamente inutile che lui insista nel dire che le tabelle delle Zeta sono state calcolate dai professori di statistica e che riportano le loro impronte digitali.

Lo Zeta corrispondente ad un P-value uguale a 0.10 si può leggere nella tabella di conversione che ho riportato.

Zeta= 1.28 (secondo i calcoli di Discepolo) NON SIGNIFICATIVO