Vai al contenuto


Foto
- - - - -

OndaStatistics


  • Please log in to reply
123 replies to this topic

#101 arvic

arvic

    Classic Rocker

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 3478 Messaggi:

Inviato 05 febbraio 2017 - 14:58

Ma su quali variabili puoi agire?



Ecco infatti questo è il primo problema: attivamente su una decina, però sulle altre si può lavorare in modo indiretto, tipo verificare con maggior frequenza che siano all'interno del range richiesto e non derivino per problemi ad altri ausiliari.

L'idea è proprio quella di "modellare" il sistema in modo da prevedere e "guidare" il sistema, cioè quello che hai detto tu (poi in realtà con la speranza di dire per tempo se sta derivando), solo che farlo con tutte le variabili sarebbe (credo) un dramma.

Con la PCA (se ho capito giusto, non è detto) l'idea è valutare quanto peso hanno le diverse variabili nel definire le nuove coordinate, quelle che ne hanno poco le escludo a priori.
  • 0

#102 debaser

debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 21869 Messaggi:

Inviato 05 febbraio 2017 - 15:07

Sì, anche con la PCA in effetti puoi fare feature selection, vedere quanto peso hanno le variabili originali nella trasformazione verso il primo componente. Non è la prima cosa che mi verrebbe in mente, ma si può fare (e l'ho visto fare una volta).

Tenerle tutte: mah, può essere un problema come anche no. Dove sarebbe il potenziale problema secondo te? Dieci mica sono tante. Sennò una lasso immagino potrebbe fare al caso tuo

Hai anche delle variabili discrete (on/off)?
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#103 arvic

arvic

    Classic Rocker

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 3478 Messaggi:

Inviato 05 febbraio 2017 - 15:38

No be le dieci sono quelle che posso influenzare direttamente (percentuale di carico, apertura di valvole, etc), però ce ne sono altre che vorrei capire quanto peso hanno (temperatura dell'acqua di raffreddamento, vibrazioni, etc) almeno per capire se ha senso monitorarle e/o cercare di influenzarle, per quello vorrei almeno inizialmente cercare di usarle tutte e 100.

In tutto questo il monitoraggio non è ancora partito perché stanno cercando di darci gli accessi :facepalm: , quindi non conosco ancora quali saranno tutte le variabili che avrò a disposizione (mi han detto saranno circa un centinaio), ma non credo di averne on off, perché?
  • 0

#104 debaser

debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 21869 Messaggi:

Inviato 05 febbraio 2017 - 15:38

Niente era pura curiosità.

Sì, ha senso quello che dici. Una cosa che potrebbe avere senso: tiri fuori un modello lineare, metti giù dei vincoli (perlomeno i range di funzionamento) delle dieci variabili che controlli, fai un analisi di sensitività e capisci quale sarebbe il guadagno marginale che avresti se potessi modificare alcuni parametri che adesso non puoi controllare. Oddio, probabilmente in questo caso per l'analisi si sensitività puoi semplicemente vedere i coefficiente di regressione, visto che non mi sembra si parli di vincoli.
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#105 arvic

arvic

    Classic Rocker

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 3478 Messaggi:

Inviato 05 febbraio 2017 - 15:43

Grazie mille comunque, adesso provo a capire meglio come fare il feature selection (termine di cui scopro ora l'esistenza, tanto per capirsi ashd)
  • 0

#106 Ortodosso

Ortodosso

    baby even the losers

  • Administrators
  • 9078 Messaggi:
  • LocationPortola Valley, CA

Inviato 05 febbraio 2017 - 19:57

Anche secondo me fare PCA come modo indiretto di tirare fuori le features importanti mi sembra un'approccio strano, specialmente considerando che mi sembra che conosci la materia e avrai già delle opinioni/priors rispetto a quali siano le variabili importanti.

Comincia a fare un modello lineare buono (mi par di capire che non essendoti stato ancora dato l'accesso bisognerà aspettare un po' per avere un labeled dataset peraltro), poi da lì si può complicare a piacere.

Se poi ad ogni variabile puoi associare un costo (e.g. cambiare questa variabile di 1 unità mi costa x, cambiare quest'altra mi costa y), con questi costi e i coefficienti puoi fare un'ottimizzazione, cioè migliorare al massimo il consumo in base a quanto vuoi "spendere".

Ma io che non sono ingegnere come debaser mi interesso di più a capire come funziona il modello piuttosto che a influenzarlo asd
  • 0

Battibecco dovete domandare a Sarri, che è un razzista; e gli uomini come lui non possono stare nel mondo del calcio.


#107 debaser

debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 21869 Messaggi:

Inviato 05 febbraio 2017 - 20:21

È lì che sbagli(ate), capire come funziona qualcosa non serve a niente (o a poco) se poi non ci prendi delle decisioni giuste sopra :P
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#108 Ortodosso

Ortodosso

    baby even the losers

  • Administrators
  • 9078 Messaggi:
  • LocationPortola Valley, CA

Inviato 05 febbraio 2017 - 21:07

Ma stai scherzando io faccio delle slide fantastiche che impressionano i superiori che cazzo mi frega di cambiare il sistema, di lavorare.
  • 7

Battibecco dovete domandare a Sarri, che è un razzista; e gli uomini come lui non possono stare nel mondo del calcio.


#109 arvic

arvic

    Classic Rocker

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 3478 Messaggi:

Inviato 05 febbraio 2017 - 21:13

Denghiu.

Come dice orto non è ancora chiaro quali dati avremo, quindi diciamo che mi sto portando avanti.

Il problema sull'ottimizzazione è che non avremo accesso, non subito per lo meno, ad un sistema di controllo ma solo a dati per poter poi parlare con qualcuno che col ditino cambia le variabili.
Quelle merde dei fornitori degli impianti non vogliono che nessuno scavalchi la loro centralina (ma pure gli attuali proprietari non sono così convinti di farci giocare con le loro macchine asd) quindi per ora ci limitiamo all'analisi e alla gestione ex post, spero a breve di convincerli che i risparmi possibili così sono giusto un filo meno e di farci usare la centralina con un utente virtuale.
  • 0

#110 debaser

debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 21869 Messaggi:

Inviato 05 febbraio 2017 - 21:21

Ma stai scherzando io faccio delle slide fantastiche che impressionano i superiori che cazzo mi frega di cambiare il sistema, di lavorare.


Qui alzo le mani asd
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#111 strafanich

strafanich

    Classic Rocker

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 3594 Messaggi:

Inviato 06 febbraio 2017 - 09:06

 

Ma stai scherzando io faccio delle slide fantastiche che impressionano i superiori che cazzo mi frega di cambiare il sistema, di lavorare.


Qui alzo le mani asd

 

Sono quasi scoppiato a ridere, dopo che mi sono passate davanti le facce di 3-4 colleghi estremamente ben descritti da questo post  ashd


  • 0

#112 Giovanni Drogo

Giovanni Drogo

    Non lo so

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 6825 Messaggi:

Inviato 06 febbraio 2017 - 12:16

Avendo a che fare con segnali fisici usati come feature e problematiche nella raccolta dati credo di poter scrivere qualcosa di utile. Poi seleziona tu quello che ti serve, vado un po' a ruota libera dicendo quello che mi viene in mente.
I punti che mi sembrano importanti:

Prima di andare subito al dunque e fare la funzione di minimizzazione lavora il più possibile sulle feature e sulla loro misurazione, calcolo, selezione.

- Prima regola fondamentale: passa anche delle ore a capire tutte le domande possibili da fare ai tecnici che danno le misure per sapere eventuali variazioni nelle condizioni di misurazione del sistema, cosa che ti manderebbe a puttane qualsiasi valutazione del modello. Serve il più possibile omogeneità rispetto a tutte le variabili che non puoi inserire nel sistema (del tipo condizioni ambientali, setup di misurazione...). Questa è una cosa che ha letteralmente mandato all'aria un progetto di ricerca a cui ho lavorato, dovendo dire all'azienda che aveva speso centinaia di migliaia di euro per fare misure in tutto il mondo che non potevamo essere sicuri di una mazza, per un dettaglio banale del tipo che non avevano misurato temperatura e umidità dell'ambiente. Se sei tu stesso il tecnico che fa l'acquisizione dei dati meglio.

Detto questo:
- Parti da ciò che sai a priori su possibili accorpamenti di feature (ad esempio una semplice formula fisica che ti permette di metterne insieme 2 o più), e annotati tutte le correlazioni tra le varie feature, cosa che può essere utile ad eliminare a vista palesi doppioni e informazioni ridondanti.
- Cerca di stare bassissimo sul numero di feature che selezioni da mettere nel modello, e scegli questo numero anche comparandolo col numero di campioni che hai. Ora, hai scritto che le variabili che puoi controllare sono una decina, ma immagino che andando avanti con le analisi vorrai mettere a modello anche le variabili che non controlli. Ovviamente la regola base è #feature < #campioni ma io starei veramente basso per cominciare e non andrei oltre le 10 (selezionate dall'insieme base). Quando sarai sicuro che tutto funziona entro le 10 feature inserite a modello puoi eventualmente provare ad aggiungerne altre.
- Cerca di fare delle valutazioni quantitative su eventuale presenza di rumore nelle misurazioni e su variazioni stagionali/periodiche, e se necessario applica dei pre-filtraggi ai valori delle feature. Ora, io questo lo faccio facilmente perché ho segnali ed in particolare serie temporali, non ho capito se sia questo il tuo caso e se hai dei segnali con una certa frequenza e campionamenti temporali e/o spaziali, oppure valori singoli per ogni feature presi in momenti diversi random (senza una frequenza che conosci).
- Non farei PCA per fare la selezione delle feature, ma per questioni collaterali, generalmente l'ho usata sempre quando avevo già delle feature che funzionavano e avevo bisogno di una dimensionalità più ridotta o per avere dei scatter plot dei campioni entro le 2/3 dimensioni da un numero di feature superiore, per vedere il più possibile a livello grafico cosa sta succedendo.
- Cerca di crearti un percorso graduale di arrivo al risparmio energetico massimo in funzione di:
   - numero di campioni che inserisci nella funzione di minimizzazione.
   - numero di feature che inserisci.

Quindi cerca di vedere come variano i risultati della funzione che userai come obiettivo (rimani su regressione lineare a più variabili per cominciare) al variare del numero di campioni che ci inserisci dentro e delle feature, in modo tale da capire "a che punto sei", ovvero se hai bisogno di molte altre misurazioni e/o puoi continuare ad aggiungere feature, ma anche per attribuire dei giudizi numerici alle feature, in base a quelle (o ai sottoinsiemi) che danno il contributo maggiore.
- Al di là del contributo della singola feature sul risparmio energetico è possibile che ci siano effetti dalla variazione congiunta di più feature, quindi per la selezione delle feature - se cominciassero ad essere tante, del tipo decine o centinaia - credo dovresti necessariamente usare dei semplicissimi algoritmi tratti dal calcolo combinatorio, per testare un certo sottoinsieme di combinazioni.

Intanto mi sento di dire questo, poi c'è la questione dell'overfitting, e si potrebbero fare tante considerazioni a livello statistico, ma non vorrei scrivere cose che sono fuori tema o eccessive rispetto agli obiettivi che hai te, magari vuoi solo prenderti le feature da un file .csv inserirle in una regressione lineare multivariata e buona lì, non spendendoci più di qualche giorno.


  • 1

Statisticamente parlando, non lo so.


#113 Giovanni Drogo

Giovanni Drogo

    Non lo so

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 6825 Messaggi:

Inviato 06 febbraio 2017 - 13:35

Per quanto riguarda corsi online di statistica, oltre ai libri che immagino per iniziare non siano proprio il top, io avevo visto 2 corsi completi su Coursera della John Hopkins tratti dalla specializzazione di Data Science, non mi avevano entusiasmato, ma forse perché erano su cose che avevo già studiato bene, comunque uno adatto mi sembrerebbe questo:

https://www.coursera...tical-inference

 

Dai un'occhiata agli altri corsi che stanno dentro la specializzazione qua:

 

https://www.coursera...hu-data-science

 

Conta che in questi corsi farai anche varie cose in R ma non imparerai ad usarlo bene di certo, né tantomeno imparerai a programmare.


  • 1

Statisticamente parlando, non lo so.


#114 pooneil

pooneil

    Classic Rocker

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 5188 Messaggi:

Inviato 07 febbraio 2017 - 09:14

Io avevo incrociato i corsi della JH e mi sono sembrati antichi come tutti quelli su coursera, mi viene sempre la madeleine da Consorzio Nettuno. Ma voi consigliate sempre corsi da quel portale, evidentemente c'è qualcosa che mi sfugge (oppure... d'altronde questo è il forum di Ondarock).


  • 0

#115 Giovanni Drogo

Giovanni Drogo

    Non lo so

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 6825 Messaggi:

Inviato 07 febbraio 2017 - 12:32

In che senso antichi? Boh, io ho sempre usato Coursera, di conseguenza sono abbastanza abituato a quello schema e organizzazione là. Avevo provato qualcosa su Udemy e Udacity ma poi non ho approfondito. 

 

Nel caso del corso di Inferential Statistic della JH le cose buone sono le lectures che sono chiare e comprensibili anche per il neofita e l'organizzazione delle lezioni con i quiz su swirl, che è un sistema integrato in R interattivo. Cose negative lo scarso materiale di supporto del corso dal punto di vista teorico e le submission che sono molto limitate e non testano realmente le capacità acquisite. Comunque come introduzione secondo me può essere un buon corso. E' ovvio che se invece vieni da fisica/matematica e stai cercando qualcosa ti fa cagare.


  • 0

Statisticamente parlando, non lo so.


#116 Marguati

Marguati

    opinion maker

  • Members
  • StellettaStellettaStellettaStellettaStellettaStelletta
  • 3348 Messaggi:

Inviato 07 febbraio 2017 - 12:40

E' ovvio che se invece vieni da fisica/matematica e stai cercando qualcosa ti fa cagare.

 

Ah è cosi'? Non sono sbagliato io? ho questa impressione con proprio tutti i corsi di Coursera ashd purtroppo, visto che ne seguirei a decine.


  • 0

#117 debaser

debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 21869 Messaggi:

Inviato 07 febbraio 2017 - 13:07

Il punto (che ho visto con tutti i mooc) è che sono generalmente piuttosto superficiali, decisamente math-light, rispetto ad un corso universitario serio.
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#118 Giovanni Drogo

Giovanni Drogo

    Non lo so

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 6825 Messaggi:

Inviato 07 febbraio 2017 - 13:09

La maggior parte dei corsi che ho visto io sono degli ottimi corsi introduttivi, e sono fatti per essere il più possibile comprensibili a tutti. Dopodiché se uno vuole un approccio formalmente più rigoroso e andare in profondità su certe tematiche necessariamente deve rivolgersi altrove, ma non credo proprio su piattaforme simili tipo Udemy o Udacity. 

 

Ad esempio il corso di Andrew Ng di Machine Learning lo trovo ottimo come introduzione, se invece si vuole anche come introduzione qualcosa di più rigoroso e completo è meglio la serie di lezioni di Mostafa. Nella mia situazione, avendo io una pessima curva di apprendimento e dovendo nel frattempo lavorare a tempo pieno, i corsi di Coursera li trovo sostenibili, e mi capita anche di ritornare frequentemente indietro sul materiale del corso per ripassare, rimpolparlo e raffinarlo.


  • 0

Statisticamente parlando, non lo so.


#119 debaser

debaser

    utente stocazzo

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 21869 Messaggi:

Inviato 07 febbraio 2017 - 13:12

Siamo d'accordo in generale. A me però hanno un po' stufato, preferisco un libro (se ben fatto).
  • 0

Codeste ambiguità, ridondanze e deficienze ricordano quelle che il dottor Franz Kuhn attribuisce a un'enciclopedia cinese che s'intitola Emporio celeste di conoscimenti benevoli. Nelle sue remote pagine è scritto che gli animali si dividono in (a) appartenenti all'Imperatore, (b) imbalsamati, c) ammaestrati, (d) lattonzoli, (e) sirene, (f) favolosi, (g) cani randagi, (h) inclusi in questa classificazione, (i) che s'agitano come pazzi, (j) innumerevoli, (k) disegnati con un pennello finissimo di pelo di cammello, (l) eccetera, (m) che hanno rotto il vaso, (n) che da lontano sembrano mosche.
 
non si dice, non si scrive solamente si favoleggia


#120 Giovanni Drogo

Giovanni Drogo

    Non lo so

  • Members
  • StellettaStellettaStellettaStellettaStellettaStellettaStelletta
  • 6825 Messaggi:

Inviato 07 febbraio 2017 - 13:20

Io mi prendo sempre almeno un buon libro come riferimento ed una volta terminato un corso introduttivo passo alla lettura di quello, ma se cominciassi direttamente dal libro mi scasserei le palle dopo una decina di pagine credo (a meno che non siano cookbook che mi servono nell'immediato per lavoro). 

 

Di machine learning/statistica in questi anni ho preso come punto di riferimento questo: http://www.cs.ubc.ca...ntro-5nov11.pdf (sbirciato qualche anno fa da una lista di libri consigliati di Ortodosso mi sembra  asd ).

 

Di statistica nell'ultimo periodo sto guardando questo in italiano: http://www.springer....k/9788847011151

A parte il titolo pessimo mi ci sto trovando abbastanza bene, se trovo buoni libri in italiano sulla materia generalmente preferisco.


  • 0

Statisticamente parlando, non lo so.





0 utente(i) stanno leggendo questa discussione

0 utenti, 0 ospiti, 0 utenti anonimi

IPB Skin By Virteq