Vai al contenuto


Foto
- - - - -

OndaStatistics


  • Please log in to reply
123 replies to this topic

#21 Ortodosso

Ortodosso

    baby even the losers

  • Administrators
  • 9078 Messaggi:
  • LocationPortola Valley, CA

Inviato 14 maggio 2013 - 12:46

Ma sei sicuro? Io sapevo il contrario, che k-fold > loo.
  • 0

Battibecco dovete domandare a Sarri, che è un razzista; e gli uomini come lui non possono stare nel mondo del calcio.


#22 debaser

debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 21869 Messaggi:

Inviato 14 maggio 2013 - 13:04

hm, allora, sì nel senso che mi pare K-fold abbia minore varianza.
quello a cui in realtà pensavo io è che, se hai pochi esempi, come credo sia il suo caso, in genere cerchi di usarne il più possibile per apprendere il modello. LOO è ovviamente parecchio più oneroso da un punto di vista computazionale
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#23 debaser

debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 21869 Messaggi:

Inviato 14 maggio 2013 - 13:15

ok ho tirato fuori la bibbia

With K = N, the cross-validation
estimator is approximately unbiased for the true (expected) prediction error,
but can have high variance because the N “training sets” are so similar
to one another. The computational burden is also considerable, requiring
N applications of the learning method. In certain special problems, this
computation can be done quickly—see Exercises 7.3 and 5.13.

[...]

To summarize, if the learning curve has a considerable slope at the given
training set size, five- or tenfold cross-validation will overestimate the true
prediction error. Whether this bias is a drawback in practice depends on
the objective. On the other hand, leave-one-out cross-validation has low
bias but can have high variance. Overall, five- or tenfold cross-validation
are recommended as a good compromise:
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#24 Ortodosso

Ortodosso

    baby even the losers

  • Administrators
  • 9078 Messaggi:
  • LocationPortola Valley, CA

Inviato 14 maggio 2013 - 13:35

Bibbia = TIbshirani Hastie e quell'altro?
  • 0

Battibecco dovete domandare a Sarri, che è un razzista; e gli uomini come lui non possono stare nel mondo del calcio.


#25 botty

botty

    mi chiamo nenzi

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 5477 Messaggi:

Inviato 14 maggio 2013 - 13:49

dio, mi hai fatto venire in mente che non ho considerato il bias analitico del sampling nella scelta del metodo di cross validation e mi sa che era proprio quella la discriminante.
in genere per questo tipo di dati dato il bias variance trade off è sempre preferibile il metodo che ti dà la varianza minore (non ho idea di come ci si comporti in generale). chiaramente se il bias analitico è basso conviene usare lo stesso la loo ma al momento non ho il dato
  • 0

I aim to misbehave


#26 mingus

mingus

    how about no

  • Members
  • StellettaStellettaStellettaStelletta
  • 771 Messaggi:

Inviato 19 settembre 2013 - 09:41

Qualcuno ha The Elements of Statistical Learning di Friedman, Hastie e Tibshirani in PDF? A quello che ho trovato io mancano delle pagine (ovviamente quelle che interessano a me).
  • 0

#27 debaser

debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 21869 Messaggi:

Inviato 19 settembre 2013 - 10:17

ce l'ho, guardo e ti ridico.
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#28 debaser

debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 21869 Messaggi:

Inviato 19 settembre 2013 - 10:19

mi sembra che abbia tutte le pagine (e non è un pdf scannerizzato, è ben fatto).
se mi dai una mail te lo mando.
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#29 mingus

mingus

    how about no

  • Members
  • StellettaStellettaStellettaStelletta
  • 771 Messaggi:

Inviato 19 settembre 2013 - 10:56

Grazie, hai un PM
  • 0

#30 grotesque

grotesque

    mainstream Star

  • Members
  • StellettaStellettaStellettaStellettaStelletta
  • 2035 Messaggi:

Inviato 02 marzo 2014 - 17:26

Che programma usate voi pro per fare grafici belli a vedersi?
Ho dato un'occhiata a Tableau ma l'interattività non mi interessa e finirei a fare degli orrendi screenshot dei grafici.
  • 0

#31 debaser

debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 21869 Messaggi:

Inviato 02 marzo 2014 - 20:27

Io uso matplotlib, ma ti diranno ggplot immagino.
  • 1

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#32 Ortodosso

Ortodosso

    baby even the losers

  • Administrators
  • 9078 Messaggi:
  • LocationPortola Valley, CA

Inviato 10 marzo 2014 - 08:36

Statici: ggplot2 (c'è un tema di matplotlib che fa un lavoro decente, ma soprattutto c'è ggplot per python da un paio di mesi a questa parte).

Dinamici: D3, meglio se con qualche astrazione sopra tipo dc.js o nvd3 o altre perché se no c'è da perdere la testa.

Grossi progressi comunque nei tools su questo fronte negli ultimi 18 mesi.
  • 1

Battibecco dovete domandare a Sarri, che è un razzista; e gli uomini come lui non possono stare nel mondo del calcio.


#33 mingus

mingus

    how about no

  • Members
  • StellettaStellettaStellettaStelletta
  • 771 Messaggi:

Inviato 09 maggio 2014 - 15:01

C'è qualcuno che usa Gauss? http://www.aptech.com/products/
Devo far girare (e poi modificare) del codice scritto da altre persone... si riesce a —ehm— recuperare?
  • 0

#34 grotesque

grotesque

    mainstream Star

  • Members
  • StellettaStellettaStellettaStellettaStelletta
  • 2035 Messaggi:

Inviato 12 maggio 2014 - 19:45

Mi vergogno un po' perchè sto per chiedere LE BASI.

Vorrei fare una regressione multivariata (minimi quadrati) ma le variabili dipendenti hanno tra di loro quasi tutte un coefficiente di correlazione >0.3, questo mi pare di capire che sia abbastanza per rendere inutilizzabili i risultati.
Se passo ad un modello univariato testando la relazione che mi interessa di più ottengo dei buoni (credo) risultati, cioè p-value = 0.0 e adj-R-squared = 0.76. Andando invece a testare la relazione tra y e le altre variabili dipendenti di prima, sempre prese singolarmente, mi vengono valori di p e R-quadro non accettabili.

La domanda é: posso prendere come buoni i risultati del modello univariato? Io dico di si ma in treno mi hanno detto di no.
  • 0

#35 Ortodosso

Ortodosso

    baby even the losers

  • Administrators
  • 9078 Messaggi:
  • LocationPortola Valley, CA

Inviato 12 maggio 2014 - 19:55

Posto che p-value (dei coefficienti immagino) e R^2 come misura della bontà di un modello hanno molti punti deboli, come è possibile che un modello:

Y ~ A

venga con un R^2 più alto di:

Y ~ A + B + C

?

È impossibile, al massimo metterebbe 0 di coefficiente alle altre due variabili ricadendo nel primo modello. Se poi l'aggiunta delle altre due valga la candela in termini di robustezza/collinearità è un altro discorso.

Morale:

- Hai normalizzato attorno alla media i dati?

- Perché non provi a fare un attimo di cross-validation? Cioè a manoni splitti i dati in due, fitti i modelli su una metà e li testi sull'altra, vedi quali funzionano meglio

- Parti con tutti quelli che vuoi mettere, poi ne togli uno a caso, vedi di quanto variano i coefficienti, se non variano tanto non sei messo male

- Usa una OLS modificata con una cost function che penalizzi i coefficienti molto larghi, tipo Ridge regression

ho scritto di merda, mi scuso
  • 0

Battibecco dovete domandare a Sarri, che è un razzista; e gli uomini come lui non possono stare nel mondo del calcio.


#36 debaser

debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 21869 Messaggi:

Inviato 12 maggio 2014 - 20:05

in treno mi hanno detto di no.


il controllore di Trenord? asd
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#37 grotesque

grotesque

    mainstream Star

  • Members
  • StellettaStellettaStellettaStellettaStelletta
  • 2035 Messaggi:

Inviato 12 maggio 2014 - 21:22

L'output (di merda perchè ho cambiato da qui i nomi alle variabili) è questo:
-------------------------Summary of Regression Analysis-------------------------
Formula: Y ~ <A> + <B> + <C> + <D> + <E> + <intercept>
Number of Observations: 26
Number of Degrees of Freedom: 6
R-squared: 0.8069
Adj R-squared: 0.7586
Rmse: 0.4461
F-stat (5, 20): 16.7134, p-value: 0.0000
Degrees of Freedom: model 5, resid 20
-----------------------Summary of Estimated Coefficients------------------------
Variable Coef	Std Err	 t-stat	p-value	CI 2.5%   CI 97.5%
--------------------------------------------------------------------------------
A	 0.3628	 0.2811	   1.29	 0.2115	-0.1881	 0.9138
B	 0.2523	 0.2278	   1.11	 0.2812	-0.1941	 0.6987
C	-2.9428	 0.4035	  -7.29	 0.0000	-3.7336	-2.1519
D	0.4662	 0.3717	   1.25	 0.2242	-0.2624	 1.1948
E	-0.7032	 0.8631	  -0.81	 0.4248	-2.3948	 0.9885
--------------------------------------------------------------------------------
	 intercept	21.1786	 5.7040	   3.71	 0.0014	 9.9988	32.3585
---------------------------------End of Summary---------------------------------
-------------------------Summary of Regression Analysis-------------------------

Formula: Y ~ <C> + <intercept>

Number of Observations: 26
Number of Degrees of Freedom: 2

R-squared: 0.7723
Adj R-squared: 0.7628

Rmse: 0.4422

F-stat (1, 24): 81.3868, p-value: 0.0000

Degrees of Freedom: model 1, resid 24

-----------------------Summary of Estimated Coefficients------------------------
Variable	   Coef	Std Err	 t-stat	p-value	CI 2.5%   CI 97.5%
--------------------------------------------------------------------------------
C			  -2.9463 0.3266	  -9.02	 0.0000	-3.5864	-2.3062
intercept	27.4726	 1.8748	  14.65	 0.0000	23.7979	31.1473
---------------------------------End of Summary---------------------------------


Gli R^2 bassi vengono quando faccio la regressione univariata tra Y e A, B, D ed E, procedimento molto probabilmente privo di senso.
Comunque:
-le osservazioni sono poche, non so quanto mi convenga fare un modello su 13 punti
-togliendo mano a mano le variabili i coefficienti rimasti non variano di più di |0.05|


in treno mi hanno detto di no.


il controllore di Trenord? asd


Ho imparato più cose in dieci minuti con lui che in triennale
  • 0

#38 Ortodosso

Ortodosso

    baby even the losers

  • Administrators
  • 9078 Messaggi:
  • LocationPortola Valley, CA

Inviato 13 maggio 2014 - 22:27

grot bella merda asd il R^2 ti viene più basso nel secondo perché è l'adjusted, che tiene conto del numero di variabili (se sono più dei records, può anche venire negativo).

Se non puoi prendere più dati, pensa almeno a qualche trasformazione o a qualche interazione tra variabili che abbia senso
  • 0

Battibecco dovete domandare a Sarri, che è un razzista; e gli uomini come lui non possono stare nel mondo del calcio.


#39 grotesque

grotesque

    mainstream Star

  • Members
  • StellettaStellettaStellettaStellettaStelletta
  • 2035 Messaggi:

Inviato 14 maggio 2014 - 08:45

Ancora non ci siamo capiti sulla questione degli R^2 ashd
Proverò con una factor analysis, che è l'unica cosa che sono in grado di fare.
  • 0

#40 Ortodosso

Ortodosso

    baby even the losers

  • Administrators
  • 9078 Messaggi:
  • LocationPortola Valley, CA

Inviato 04 ottobre 2014 - 09:49

Qualcuno fa mining of massive datasets su Coursera? Appena finito homework 1 (infatti son le 2:30 di notte asd).


  • 0

Battibecco dovete domandare a Sarri, che è un razzista; e gli uomini come lui non possono stare nel mondo del calcio.





0 utente(i) stanno leggendo questa discussione

0 utenti, 0 ospiti, 0 utenti anonimi

IPB Skin By Virteq