Vai al contenuto


Foto
- - - - -

OndaStatistics


  • Please log in to reply
125 replies to this topic

#1 strafanich

    .

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 4353 Messaggi:

Inviato 04 agosto 2012 - 18:48

Se ho capito bene qua dentro c'è qualcuno che studia/ha studiato statistica o che comunque ci ha a che fare spesso, creiamo 'sto ritrovo per problemi legati alla materia? :D

Primo quesito: vorrei fare un esercizio abbastanza stupido, niente di complesso, e analizzare dei dati di vendita per vedere se ci sono delle strutture, delle regolarità di abbinamento negli acquisti di diversi articoli. In una parola una cluster analysis.

Ho a disposizione dei dati sulla base degli ordini di vendita, esempio:

Ordine Materiale

1 A
1 B
1 C
2 A
2 B
3 B
3 C

Il dubbio che ho è sul come costruire la matrice delle distanze anzi dissimilarità visto che è un carattere qualitativo, no? da dare in input alla cluster per produrre il dendogramma finale.

L'idea era di costruire un'indice che faccia il rapporto fra il numero di ordini che due articoli hanno in comune e il numero totale di ordine che comprendono i due articoli.
Come idea:.....la dimensione dell'intersezione diviso la dimensione del'insieme unione.

Ho googlato poco e male finora, ma mi è saltato fuori il nome dell'indice di Jaccard, che non ho ancora capito se fa al caso mio o no :mellow:

Ah, come strumento principale userei R.. avete idea se esiste già un qualche pacchetto/funzione che faccia cose simili??
  • 0

#2 strafanich

    .

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 4353 Messaggi:

Inviato 04 agosto 2012 - 19:03

Buttiamo dentro altra carne al fuoco e altri termini per l'indicizzazione di Google asd

Il nome di questo tipo di esercizi statistici è Market Basket Analysis.

L'indice di Jaccard potrebbe fare al caso mio, ma se ho capito bene ha bisogno di una tabella binaria per funzionare, una riga per ogni ordina di vendita, una colonna per ogni articolo, 0 o 1 se quell'articolo è presente o meno in quell'ordine di vendita.
  • 0

#3 debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 23155 Messaggi:

Inviato 04 agosto 2012 - 20:30

In genere quando si parla di market basket analysis* si parla di regole di associazione più che di clustering, cioè si trovano le regole che siano sostenute da un certo supporto e confidenza (termini italiani orribili) che sono rispettivamente la probabilità che due item siano insieme P(A U B) e la probabilità condizionata che appaia B dato A (P(B|A)). La "confidenza" non è simmetrica ovviamente, quindi non credo si possa usare come misura di dissimilarità.


*Per quanto ne so, la mia esperienza è solo corso universitario su data mining, che non è molto.


No niente, Jaccard è come la distanza Tanimoto, direi che lo puoi usare. Identifichi un articolo come il vettore di occorrenze in ogni basket. Quindi sì, c'avrai un matricione bello sparso, di dimensione #articolo x #scontrini, che non è male

Oppure potresti usare la cosine similarity


Comunque sono un ignorante in statistica, stavo proprio pensando adesso che dovrei mettermi a studiarla per bene (non giusto le applicazioni). Ho fatto un paio di corsi ma non m'hanno lasciato troppo.
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#4 strafanich

    .

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 4353 Messaggi:

Inviato 05 agosto 2012 - 13:19

Cosine similarity è un buon input, approfondisco. Grazie.

Ora tutto sta nel costruirsi la matrice binaria, dovrebbe bastare una pivot.
  • 0

#5 Ortodosso

    baby even the losers

  • Administrators
  • 9960 Messaggi:
  • LocationPortola Valley, CA

Inviato 06 agosto 2012 - 14:53

Cosine similarity is your friend, specialmente se usi R (o qualsiasi cosa con matrici native) perchè alla fine non è che il dot product di due vettori (L2 normalized).


[color=#586E75 !important]// A matrix where the cell (i, j) is 1 iff user i is followed by user j. [/color]
[color=#93A1A1][color=#CB4B16 !important]val[/color] [color=#268BD2 !important]followerMatrix[/color] [color=#CB4B16 !important]=[/color] ... [/color][color=#93A1A1] [/color]
[color=#93A1A1][color=#586E75 !important]// A matrix where cell (i, j) holds the cosine similarity between[/color] [/color][color=#93A1A1][color=#586E75 !important]// user i and user j, when both are represented as sets of their followers.[/color] [/color]
[color=#93A1A1][color=#CB4B16 !important]val[/color] [color=#268BD2 !important]followerBasedSimilarityMatrix[/color] [color=#CB4B16 !important]=[/color] [/color][color=#93A1A1] [color=#268BD2 !important]followerMatrix[/color].[color=#268BD2 !important]rowL2Normalize[/color] * [color=#268BD2 !important]followerMatrix[/color].[color=#268BD2 !important]rowL2Normalize[/color].[color=#268BD2 !important]transpose[/color][/color]

o anche senza matrici:

[color=#93A1A1][color=#CB4B16 !important]object[/color] [color=#D33682 !important]CosineSimilarity[/color] [color=#CB4B16 !important]extends[/color] [color=#D33682 !important]SimilarityMetric[/color][[color=#2AA198 !important]Int[/color]] { [/color][color=#93A1A1] [/color]
[color=#93A1A1][color=#586E75 !important]/**[/color] [/color][color=#93A1A1][color=#586E75 !important] * Returns the cosine similarity between two sets, 0 if both are empty.[/color] [/color][color=#93A1A1][color=#586E75 !important] */[/color] [/color][color=#93A1A1] [/color]
[color=#93A1A1][color=#CB4B16 !important]def[/color] [color=#268BD2 !important]apply[/color]([color=#268BD2 !important]set1[/color][color=#CB4B16 !important]:[/color] [color=#2AA198 !important]Set[/color][[color=#2AA198 !important]Int[/color]], [color=#268BD2 !important]set2[/color][color=#CB4B16 !important]:[/color] [color=#2AA198 !important]Set[/color][[color=#2AA198 !important]Int[/color]])[color=#CB4B16 !important]:[/color] [color=#2AA198 !important]Double[/color] = { [/color][color=#93A1A1] [/color]
[color=#93A1A1][color=#CB4B16 !important]if[/color] ([color=#268BD2 !important]set1[/color].[color=#268BD2 !important]size[/color] == [color=#2AA198 !important]0[/color] && [color=#268BD2 !important]set2[/color].[color=#268BD2 !important]size[/color] == [color=#2AA198 !important]0[/color]) { [/color][color=#93A1A1] [color=#2AA198 !important]0[/color] [/color][color=#93A1A1] [/color]
[color=#93A1A1]} [color=#CB4B16 !important]else[/color] { [/color][color=#93A1A1] [/color]
[color=#93A1A1]([color=#268BD2 !important]set1[/color] & [color=#268BD2 !important]set2[/color]).[color=#268BD2 !important]size[/color].[color=#268BD2 !important]toFloat[/color] / ([color=#268BD2 !important]math[/color].[color=#268BD2 !important]sqrt[/color]([color=#268BD2 !important]set1[/color].[color=#268BD2 !important]size[/color] * [color=#268BD2 !important]set2[/color].[color=#268BD2 !important]size[/color])) [/color][color=#93A1A1] [/color]
[color=#93A1A1]} [/color][color=#93A1A1] [/color]
[color=#93A1A1]} [/color][color=#93A1A1] [/color]
[color=#93A1A1]} [/color]


E poi la puoi visualizzare alla grande così: http://bost.ocks.org/mike/miserables/
  • 0

voter negativity
Gozer il Gozeriano 119
reallytongues 112


#6 strafanich

    .

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 4353 Messaggi:

Inviato 06 agosto 2012 - 15:55

Ecco questo è una figata ma è ancora lontano dal mio livello :P

Nel frattempo vorrei fare una cosa "quick and dirty" (Poi con calma mi studio un'approccio più serio...)
Creando le combinazioni semplici all'interno di ogni ordine e contandole, una sorta di algoritmo Apriori alla buona.
Però non so come costruire l'automatismo per creare la combinazioni, tipo, il primo ordine:

1 A
1 B
1 C

dovrebbe darmi:

{A,B}
{A,C}
{C,B}
{A,B,C}

di modo che poi, avendo tutte le combinazioni, posso contarle (calcolare il supporto in sostanza)
Si può?
  • 0

#7 Ortodosso

    baby even the losers

  • Administrators
  • 9960 Messaggi:
  • LocationPortola Valley, CA

Inviato 06 agosto 2012 - 20:50

http://stat.ethz.ch/...html/combn.html
  • 0

voter negativity
Gozer il Gozeriano 119
reallytongues 112


#8 strafanich

    .

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 4353 Messaggi:

Inviato 07 agosto 2012 - 12:15

Lo metto qua come bookmark :D

Market Basket Analysis using R:

http://picksesame.bl...is-using-r.html
  • 0

#9 strafanich

    .

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 4353 Messaggi:

Inviato 24 settembre 2012 - 21:37

http://www.hilarymas...-at-my-company/

:firuli: ;D
  • 2

#10 Ortodosso

    baby even the losers

  • Administrators
  • 9960 Messaggi:
  • LocationPortola Valley, CA

Inviato 24 settembre 2012 - 22:24

Flying under the radar proprio
  • 0

voter negativity
Gozer il Gozeriano 119
reallytongues 112


#11 strafanich

    .

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 4353 Messaggi:

Inviato 16 ottobre 2012 - 21:37

Ho comprato " R for Dummies" che credo non aggiungerà nulla alle mie seppur poche conoscenze ma spero che cementi un po' le basi :D
  • 0

#12 debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 23155 Messaggi:

Inviato 16 ottobre 2012 - 21:45

Ho comprato " R for Dummies" che credo non aggiungerà nulla alle mie seppur poche conoscenze ma spero che cementi un po' le basi :D


Se vuoi ci sono un paio di corsi su Coursera che possono fare al caso tuo
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#13 strafanich

    .

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 4353 Messaggi:

Inviato 23 ottobre 2012 - 21:51

Ho letto ora (dio solo sa perché non mi è arrivata la notifica..) hai un link? :)
  • 0

#14 strafanich

    .

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 4353 Messaggi:

Inviato 23 novembre 2012 - 19:04

Alla fine immagino il corso fosse quello del tipo di simplystatistics: http://simplystatistics.org/
che purtroppo ho perso ma al prossimo giro se lo rifa mi iscrivo (anche se non ho bene idea di come funziona Coursera :P )

Altro blog che seguo da un po' è questo http://www.r-bloggers.com/ che fa da aggregatore di altre fonti per news e tutorial su R.
  • 0

#15 strafanich

    .

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 4353 Messaggi:

Inviato 14 dicembre 2012 - 14:35

http://simplystatist...alysis-returns/

:D
  • 0

#16 lasa

    mainstream Star

  • Members
  • StellettaStellettaStellettaStellettaStelletta
  • 2149 Messaggi:

Inviato 04 marzo 2013 - 10:26

[m]http://www.youtube.com/watch?v=yU2qQywUnnU[/m]
  • 0

#17 botty

    ask me about intersectionality

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 5637 Messaggi:

Inviato 14 maggio 2013 - 02:49

è sicuramente una cazzata ma non sto capendo, non diludetemi

se ho la matrice di un set e il tipo di dati richiede la regressione PLS quando devo fare il grafico delle risposte come decido se la cross validation la voglio leave one out o leave more out?
  • 0

I aim to misbehave


#18 Ortodosso

    baby even the losers

  • Administrators
  • 9960 Messaggi:
  • LocationPortola Valley, CA

Inviato 14 maggio 2013 - 03:09

C'è un buon corso in python su coursera adesso, appena iniziato: https://www.coursera.../course/datasci

bello, molto più pratico rispetto a quello di Ng.
  • 0

voter negativity
Gozer il Gozeriano 119
reallytongues 112


#19 strafanich

    .

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 4353 Messaggi:

Inviato 14 maggio 2013 - 07:50

C'è un buon corso in python su coursera adesso, appena iniziato: https://www.coursera.../course/datasci

bello, molto più pratico rispetto a quello di Ng.

Mi ero enrollato ma non riesco purtroppo a seguirlo come si deve, ma mi sto scaricando i video delle lectures almeno :)
Il problem è che senza gli assignments il corso è monco se non inutile..
  • 0

#20 debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 23155 Messaggi:

Inviato 14 maggio 2013 - 11:28

è sicuramente una cazzata ma non sto capendo, non diludetemi

se ho la matrice di un set e il tipo di dati richiede la regressione PLS quando devo fare il grafico delle risposte come decido se la cross validation la voglio leave one out o leave more out?

leave one out è il meglio che puoi fare, parlando di k-fold. se puoi farlo, i.e. hai un metodo che costa poco e/o i dati non sono troppi, fallo.
con k<n fai comunque un compromesso.
  • 1

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#21 Ortodosso

    baby even the losers

  • Administrators
  • 9960 Messaggi:
  • LocationPortola Valley, CA

Inviato 14 maggio 2013 - 12:46

Ma sei sicuro? Io sapevo il contrario, che k-fold > loo.
  • 0

voter negativity
Gozer il Gozeriano 119
reallytongues 112


#22 debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 23155 Messaggi:

Inviato 14 maggio 2013 - 13:04

hm, allora, sì nel senso che mi pare K-fold abbia minore varianza.
quello a cui in realtà pensavo io è che, se hai pochi esempi, come credo sia il suo caso, in genere cerchi di usarne il più possibile per apprendere il modello. LOO è ovviamente parecchio più oneroso da un punto di vista computazionale
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#23 debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 23155 Messaggi:

Inviato 14 maggio 2013 - 13:15

ok ho tirato fuori la bibbia

With K = N, the cross-validation
estimator is approximately unbiased for the true (expected) prediction error,
but can have high variance because the N “training sets” are so similar
to one another. The computational burden is also considerable, requiring
N applications of the learning method. In certain special problems, this
computation can be done quickly—see Exercises 7.3 and 5.13.

[...]

To summarize, if the learning curve has a considerable slope at the given
training set size, five- or tenfold cross-validation will overestimate the true
prediction error. Whether this bias is a drawback in practice depends on
the objective. On the other hand, leave-one-out cross-validation has low
bias but can have high variance. Overall, five- or tenfold cross-validation
are recommended as a good compromise:
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#24 Ortodosso

    baby even the losers

  • Administrators
  • 9960 Messaggi:
  • LocationPortola Valley, CA

Inviato 14 maggio 2013 - 13:35

Bibbia = TIbshirani Hastie e quell'altro?
  • 0

voter negativity
Gozer il Gozeriano 119
reallytongues 112


#25 botty

    ask me about intersectionality

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 5637 Messaggi:

Inviato 14 maggio 2013 - 13:49

dio, mi hai fatto venire in mente che non ho considerato il bias analitico del sampling nella scelta del metodo di cross validation e mi sa che era proprio quella la discriminante.
in genere per questo tipo di dati dato il bias variance trade off è sempre preferibile il metodo che ti dà la varianza minore (non ho idea di come ci si comporti in generale). chiaramente se il bias analitico è basso conviene usare lo stesso la loo ma al momento non ho il dato
  • 0

I aim to misbehave


#26 mingus

    how about no

  • Members
  • StellettaStellettaStellettaStelletta
  • 836 Messaggi:

Inviato 19 settembre 2013 - 09:41

Qualcuno ha The Elements of Statistical Learning di Friedman, Hastie e Tibshirani in PDF? A quello che ho trovato io mancano delle pagine (ovviamente quelle che interessano a me).
  • 0

#27 debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 23155 Messaggi:

Inviato 19 settembre 2013 - 10:17

ce l'ho, guardo e ti ridico.
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#28 debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 23155 Messaggi:

Inviato 19 settembre 2013 - 10:19

mi sembra che abbia tutte le pagine (e non è un pdf scannerizzato, è ben fatto).
se mi dai una mail te lo mando.
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#29 mingus

    how about no

  • Members
  • StellettaStellettaStellettaStelletta
  • 836 Messaggi:

Inviato 19 settembre 2013 - 10:56

Grazie, hai un PM
  • 0

#30 grotesque

    mainstream Star

  • Members
  • StellettaStellettaStellettaStellettaStelletta
  • 2035 Messaggi:

Inviato 02 marzo 2014 - 17:26

Che programma usate voi pro per fare grafici belli a vedersi?
Ho dato un'occhiata a Tableau ma l'interattività non mi interessa e finirei a fare degli orrendi screenshot dei grafici.
  • 0

#31 debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 23155 Messaggi:

Inviato 02 marzo 2014 - 20:27

Io uso matplotlib, ma ti diranno ggplot immagino.
  • 1

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#32 Ortodosso

    baby even the losers

  • Administrators
  • 9960 Messaggi:
  • LocationPortola Valley, CA

Inviato 10 marzo 2014 - 08:36

Statici: ggplot2 (c'è un tema di matplotlib che fa un lavoro decente, ma soprattutto c'è ggplot per python da un paio di mesi a questa parte).

Dinamici: D3, meglio se con qualche astrazione sopra tipo dc.js o nvd3 o altre perché se no c'è da perdere la testa.

Grossi progressi comunque nei tools su questo fronte negli ultimi 18 mesi.
  • 1

voter negativity
Gozer il Gozeriano 119
reallytongues 112


#33 mingus

    how about no

  • Members
  • StellettaStellettaStellettaStelletta
  • 836 Messaggi:

Inviato 09 maggio 2014 - 15:01

C'è qualcuno che usa Gauss? http://www.aptech.com/products/
Devo far girare (e poi modificare) del codice scritto da altre persone... si riesce a —ehm— recuperare?
  • 0

#34 grotesque

    mainstream Star

  • Members
  • StellettaStellettaStellettaStellettaStelletta
  • 2035 Messaggi:

Inviato 12 maggio 2014 - 19:45

Mi vergogno un po' perchè sto per chiedere LE BASI.

Vorrei fare una regressione multivariata (minimi quadrati) ma le variabili dipendenti hanno tra di loro quasi tutte un coefficiente di correlazione >0.3, questo mi pare di capire che sia abbastanza per rendere inutilizzabili i risultati.
Se passo ad un modello univariato testando la relazione che mi interessa di più ottengo dei buoni (credo) risultati, cioè p-value = 0.0 e adj-R-squared = 0.76. Andando invece a testare la relazione tra y e le altre variabili dipendenti di prima, sempre prese singolarmente, mi vengono valori di p e R-quadro non accettabili.

La domanda é: posso prendere come buoni i risultati del modello univariato? Io dico di si ma in treno mi hanno detto di no.
  • 0

#35 Ortodosso

    baby even the losers

  • Administrators
  • 9960 Messaggi:
  • LocationPortola Valley, CA

Inviato 12 maggio 2014 - 19:55

Posto che p-value (dei coefficienti immagino) e R^2 come misura della bontà di un modello hanno molti punti deboli, come è possibile che un modello:

Y ~ A

venga con un R^2 più alto di:

Y ~ A + B + C

?

È impossibile, al massimo metterebbe 0 di coefficiente alle altre due variabili ricadendo nel primo modello. Se poi l'aggiunta delle altre due valga la candela in termini di robustezza/collinearità è un altro discorso.

Morale:

- Hai normalizzato attorno alla media i dati?

- Perché non provi a fare un attimo di cross-validation? Cioè a manoni splitti i dati in due, fitti i modelli su una metà e li testi sull'altra, vedi quali funzionano meglio

- Parti con tutti quelli che vuoi mettere, poi ne togli uno a caso, vedi di quanto variano i coefficienti, se non variano tanto non sei messo male

- Usa una OLS modificata con una cost function che penalizzi i coefficienti molto larghi, tipo Ridge regression

ho scritto di merda, mi scuso
  • 0

voter negativity
Gozer il Gozeriano 119
reallytongues 112


#36 debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 23155 Messaggi:

Inviato 12 maggio 2014 - 20:05

in treno mi hanno detto di no.


il controllore di Trenord? asd
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#37 grotesque

    mainstream Star

  • Members
  • StellettaStellettaStellettaStellettaStelletta
  • 2035 Messaggi:

Inviato 12 maggio 2014 - 21:22

L'output (di merda perchè ho cambiato da qui i nomi alle variabili) è questo:
-------------------------Summary of Regression Analysis-------------------------
Formula: Y ~ <A> + <B> + <C> + <D> + <E> + <intercept>
Number of Observations: 26
Number of Degrees of Freedom: 6
R-squared: 0.8069
Adj R-squared: 0.7586
Rmse: 0.4461
F-stat (5, 20): 16.7134, p-value: 0.0000
Degrees of Freedom: model 5, resid 20
-----------------------Summary of Estimated Coefficients------------------------
Variable Coef	Std Err	 t-stat	p-value	CI 2.5%   CI 97.5%
--------------------------------------------------------------------------------
A	 0.3628	 0.2811	   1.29	 0.2115	-0.1881	 0.9138
B	 0.2523	 0.2278	   1.11	 0.2812	-0.1941	 0.6987
C	-2.9428	 0.4035	  -7.29	 0.0000	-3.7336	-2.1519
D	0.4662	 0.3717	   1.25	 0.2242	-0.2624	 1.1948
E	-0.7032	 0.8631	  -0.81	 0.4248	-2.3948	 0.9885
--------------------------------------------------------------------------------
	 intercept	21.1786	 5.7040	   3.71	 0.0014	 9.9988	32.3585
---------------------------------End of Summary---------------------------------
-------------------------Summary of Regression Analysis-------------------------

Formula: Y ~ <C> + <intercept>

Number of Observations: 26
Number of Degrees of Freedom: 2

R-squared: 0.7723
Adj R-squared: 0.7628

Rmse: 0.4422

F-stat (1, 24): 81.3868, p-value: 0.0000

Degrees of Freedom: model 1, resid 24

-----------------------Summary of Estimated Coefficients------------------------
Variable	   Coef	Std Err	 t-stat	p-value	CI 2.5%   CI 97.5%
--------------------------------------------------------------------------------
C			  -2.9463 0.3266	  -9.02	 0.0000	-3.5864	-2.3062
intercept	27.4726	 1.8748	  14.65	 0.0000	23.7979	31.1473
---------------------------------End of Summary---------------------------------


Gli R^2 bassi vengono quando faccio la regressione univariata tra Y e A, B, D ed E, procedimento molto probabilmente privo di senso.
Comunque:
-le osservazioni sono poche, non so quanto mi convenga fare un modello su 13 punti
-togliendo mano a mano le variabili i coefficienti rimasti non variano di più di |0.05|


in treno mi hanno detto di no.


il controllore di Trenord? asd


Ho imparato più cose in dieci minuti con lui che in triennale
  • 0

#38 Ortodosso

    baby even the losers

  • Administrators
  • 9960 Messaggi:
  • LocationPortola Valley, CA

Inviato 13 maggio 2014 - 22:27

grot bella merda asd il R^2 ti viene più basso nel secondo perché è l'adjusted, che tiene conto del numero di variabili (se sono più dei records, può anche venire negativo).

Se non puoi prendere più dati, pensa almeno a qualche trasformazione o a qualche interazione tra variabili che abbia senso
  • 0

voter negativity
Gozer il Gozeriano 119
reallytongues 112


#39 grotesque

    mainstream Star

  • Members
  • StellettaStellettaStellettaStellettaStelletta
  • 2035 Messaggi:

Inviato 14 maggio 2014 - 08:45

Ancora non ci siamo capiti sulla questione degli R^2 ashd
Proverò con una factor analysis, che è l'unica cosa che sono in grado di fare.
  • 0

#40 Ortodosso

    baby even the losers

  • Administrators
  • 9960 Messaggi:
  • LocationPortola Valley, CA

Inviato 04 ottobre 2014 - 09:49

Qualcuno fa mining of massive datasets su Coursera? Appena finito homework 1 (infatti son le 2:30 di notte asd).


  • 0

voter negativity
Gozer il Gozeriano 119
reallytongues 112


#41 debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 23155 Messaggi:

Inviato 04 ottobre 2014 - 09:57

Iscritto ma ho letto workload di 10+ h/w (se non ricordo male) e non sono proprio sicuro di avercele..
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#42 botty

    ask me about intersectionality

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 5637 Messaggi:

Inviato 04 ottobre 2014 - 17:59

io sto aspettando che inizi regression models che mi serve per la scuola, spero di non ossessionarmi troppo


  • 0

I aim to misbehave


#43 Ortodosso

    baby even the losers

  • Administrators
  • 9960 Messaggi:
  • LocationPortola Valley, CA

Inviato 05 ottobre 2014 - 03:05

Iscritto ma ho letto workload di 10+ h/w (se non ricordo male) e non sono proprio sicuro di avercele..

 

Cagata, o almeno prima settimana un due ore di video (da vedere tranquillamente a 1.5x), più homework che si poteva fare anche a mano, io ci ho messo due ore ma perché l'ho voluto fare in Julia* che non avevo mai usato asd Soprattutto bello perché pratico, con molti elementi operational, e con un taglio fresco (se hai letto il libro lo sai).

 

Poi ovvio che un minimo di familiarità la devi avere, ma non è il tuo problema, tipo non stanno neanche a spiegare i fondamenti di linear algebra.

 

Vale la pena anche solo per sentire l'accento di Jure Leskovec (vorld vide veb e soprattutto un fantastico algórritm).

 

Se lo fai posta qui soluzioni.

 

Spoiler

 

* sintassi da mani nei capelli


  • 0

voter negativity
Gozer il Gozeriano 119
reallytongues 112


#44 debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 23155 Messaggi:

Inviato 05 ottobre 2014 - 08:15

Guarda, pure la mia idea era di farlo in Julia.
L'ho provato poco tempo fa per implementare una cosetta e già ho bestemmiato (specialmente perché scassa veramente tanto per i tipi). Magari provo va.
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#45 Ortodosso

    baby even the losers

  • Administrators
  • 9960 Messaggi:
  • LocationPortola Valley, CA

Inviato 05 ottobre 2014 - 17:30

Scassa per i tipi se li specifichi, se no fa abbastanza bene l'inferenza dai. Poi qui tanto son tutti Vector quindi grandi cazzi non ce ne sono. Soluzioni sopra sono in Julia.


  • 0

voter negativity
Gozer il Gozeriano 119
reallytongues 112


#46 Ortodosso

    baby even the losers

  • Administrators
  • 9960 Messaggi:
  • LocationPortola Valley, CA

Inviato 11 ottobre 2014 - 10:03

Soluzioni S02E01 (solo domande 4 e 6, le altre si fanno a mente e volendo anche queste, ma per imparare un minimo di Julia):

 

Spoiler

  • 0

voter negativity
Gozer il Gozeriano 119
reallytongues 112


#47 debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 23155 Messaggi:

Inviato 11 ottobre 2014 - 10:26

Ah quella della settimana scorsa poi l'ho fatto, se mi ricordo lo metto (vabbè che son tre righe di codice).

Tra l'altro facendo altra roba mia ho visto che per plottare posso sfruttare PyPlot, che mi ha fatto tirare un piccolo sospiro di sollievo.
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#48 Ortodosso

    baby even the losers

  • Administrators
  • 9960 Messaggi:
  • LocationPortola Valley, CA

Inviato 11 ottobre 2014 - 10:57

Se no c'è Gadfly che è molto buono.


  • 0

voter negativity
Gozer il Gozeriano 119
reallytongues 112


#49 debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 23155 Messaggi:

Inviato 12 ottobre 2014 - 09:34

Che merda i video della seconda settimana però. Il buon Ullman che legge paro paro dal prompter fa cascare le palle.

[http://infolab.stanf...llman/#polemics ashd]


  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#50 Ortodosso

    baby even the losers

  • Administrators
  • 9960 Messaggi:
  • LocationPortola Valley, CA

Inviato 12 ottobre 2014 - 10:40

Resisti, dopo torna JURE. Comunque sì, la seconda settimana la densità si è abbassata di botto. Ullman sembra Bale in American Hustle, vent'anni dopo.


  • 0

voter negativity
Gozer il Gozeriano 119
reallytongues 112





0 utente(i) stanno leggendo questa discussione

0 utenti, 0 ospiti, 0 utenti anonimi