Tecnologia AI e revisione del settore56 Temperance St, #700 Toronto, SU M5H 3V5Questo è il primo di una speciale serie sincronizzata di articoli introduttivi sui campi di studio tradizionalmente teorici e il loro impatto sull'apprendimento automatico moderno.Questo è il primo di una speciale serie sincronizzata di articoli introduttivi sui campi di studio tradizionalmente teorici e il loro impatto sull'apprendimento automatico moderno.Una pietra miliare della teoria dell'informazione è l'idea di quantificare quante informazioni ci sono in un messaggio.Più in generale, per quantificare le informazioni di un evento.La misura di base utilizzata per quantificare le informazioni al riguardo è l'entropia, che sarà l'argomento di questo articolo.Classicamente, le quantità teoriche dell'informazione come l'entropia e l'entropia relativa sorgono ancora e ancora in risposta a domande fondamentali nella comunicazione e nella statistica.Queste quantità hanno trovato la loro strada anche nell'apprendimento automatico, dove sono diventate sempre più importanti.Il concetto di informazione è troppo ampio per essere catturato completamente da un'unica definizione.Tuttavia, per qualsiasi distribuzione di probabilità, il concetto di entropia è definito per fornire proprietà che concordano con la nozione intuitiva di quale dovrebbe essere una misura di informazione.Altre nozioni correlate di incertezza includono entropia condizionale H (X|Y), che è l'entropia di una variabile casuale X condizionata alla conoscenza di un'altra variabile casuale Y. In questa recensione, introduciamo la maggior parte delle definizioni di base richieste per lo sviluppo successivo della teoria dell'informazione.Dopo aver definito concetti come entropia e informazione reciproca, stabiliamo proprietà utili come la regola della catena delle quantità.Infine, proviamo a fornire alcuni esempi di questi concetti nell'ambito dell'apprendimento automatico.Per prima cosa introduciamo una definizione comune di entropia.Sia X una variabile casuale discreta con alfabeto X e funzione massa di probabilità p(x) = Pr{X = x}, x ∈ X. L'entropia H(X) di X è definita comeIl logaritmo è considerato in base 2 e l'entropia può essere espressa in bit.Possiamo pensare all'entropia come a una misura dell'incertezza della variabile casuale X. Prendi un semplice esempio, considera la variabile casuale X come un lancio di una moneta con Pr{x = testa} = 1/2 = Pr{x = croce} (a moneta giusta).H(X) = -p(testa) x log p(testa) + ( -p(code) x log p(code) ) = -(1/2) x log (1/2) – (1/2) x log(1/2) = 1. Pertanto, il numero di bit (entropia) necessari per esprimere il risultato del lancio della moneta (variabile casuale X) è 1 bit.In altre parole, il risultato del lancio della moneta può essere codificato in un singolo bit di informazione, cioè 0 = testa, 1 = croce.Prendi un secondo esempio, che è un estremo del caso precedente.Considera di lanciare una moneta distorta con solo testa, cioè Pr{x = testa} = 1, Pr{x = croce} = 0. L'entropia H(X) = -(1) x log (1) – (0) x log(0) = 0 + 0 = 0, dove usiamo la convenzione (0) x log(0) = 0. Quindi, l'entropia del lancio di una moneta distorta è 0. In altre parole, non abbiamo bisogno di bit per descrivere il caso di lancio della moneta distorta perché conosciamo già il risultato.Inoltre, tornando al concetto di incertezza, lanciare la moneta distorta ha 0 o nessuna incertezza poiché il risultato è sempre noto.Si noti che l'entropia è una funzione della distribuzione di X. Non dipende dai valori effettivi assunti dalla variabile casuale X, ma solo dalle probabilità.L'entropia di X può anche essere interpretata come il valore atteso della variabile casuale log (1/p(X)), dove X è disegnato secondo la funzione di massa di probabilità p(x).Questo è definito comeIndichiamo l'aspettativa con E. Cioè, se X ∼ p(x), il valore atteso della variabile casuale g(X) è scritto comeo E g(X) per semplicità.Quindi, possiamo vedere che H(x) = E g(X), dove g(X) = log (1/p(X)).Alcune importanti proprietà dell'entropia sono discusse di seguito.L'entropia è non negativa, H(X) ≥ 0. Questo può essere facilmente dimostrato come p(x) di una variabile casuale è sempre non negativa e nell'intervallo 0 ≤ p(x) ≤ 1. La seconda condizione implica che log (1/p(X)) ≥ 0, e quindi la somma dei numeri positivi non può essere negativa.L'entropia può essere modificata da una base all'altra moltiplicando per il fattore appropriato, Hb(X) = (logb a)Ha(X).Questo può essere visto applicando la proprietà log log_b(p) = log_b x (a log_a) (p) ).Questo ci permette di cambiare la base del logaritmo nella definizione.La definizione di Entropia data in 2.1 riguarda una singola variabile casuale.Estendiamo ora la definizione a una coppia di variabili casuali (X, Y).L'entropia congiunta H(X, Y) di una coppia di variabili casuali discrete (X, Y) con distribuzione congiunta p(x, y) è definita comeche può anche essere espresso comeL'entropia condizionale di una variabile casuale data un'altra variabile casuale è definita come il valore atteso delle entropie delle distribuzioni condizionali (ricordiamo che l'entropia è una funzione di una certa distribuzione), mediato sulla variabile casuale condizionata.L'entropia condizionale H(Y|X) è definita comeDove le variabili casuali (X, Y) hanno distribuzione congiunta p(x, y).Una proprietà (o teorema) utile è la regola della catena dell'entropia, dell'entropia condizionale e dell'entropia articolare.È descritto comePossiamo pensare a questo come all'entropia di una coppia di variabili casuali essendo l'entropia di una più l'entropia condizionata dell'altra.È importante notare che l'entropia condizionale non è (in generale) simmetrica, cioè H(Y|X) ≠ H (X|Y ).Tuttavia, H(X) – H(X|Y) = H (Y)− H (Y|X), ed è spesso una proprietà sfruttata nella teoria dell'informazione e della codifica.Un'altra proprietà utile è che il condizionamento riduce l'entropia.Matematicamente, questo è espresso comecon uguaglianza se e solo se X e Y sono indipendenti.Ciò sarà dimostrato dopo aver introdotto le informazioni reciproche.Introduciamo ora due concetti correlati: entropia relativa e informazione reciproca.L'entropia relativa, denominata D(p||q), è una misura della distanza tra due distribuzioni.In statistica, si presenta come un logaritmo atteso del rapporto di verosimiglianza.Nell'apprendimento automatico, l'entropia relativa è stata adottata anche come funzione obiettivo da ridurre al minimo durante l'allenamento.Ad esempio, dato un insieme di dati di input e dati di destinazione (di riferimento), passiamo i dati di input in un modello per ottenere un output di test.Possiamo quindi misurare e confrontare le distribuzioni dell'output del test e dei dati dell'output target.Più vicine sono le due distribuzioni (minore entropia relativa), migliore è il modello nel prevedere gli output per i dati di input.Un altro modo per interpretare l'entropia relativa è come misura dell'inefficienza nell'assumere che la distribuzione sia q quando la vera distribuzione è p.Usiamo di nuovo l'esempio del lancio della moneta.Si consideri un bias coin, dove la (vera) distribuzione è p, cioè Pr{heads}=1, Pr{tails}=0.Per questa moneta, se costruiamo un codice per descrivere il risultato del lancio della moneta, il codice avrebbe 0 bit poiché conosciamo già il risultato.Tuttavia, qualcuno che non sa che la moneta è distorta potrebbe costruire un codice rispetto a una moneta equa con distribuzione indicata come q, cioè Pr{heads}= 1/2 = Pr{tails}.Il codice avrà una lunghezza di 1 (bit) e può essere descritto come H(p) + D(p||q) = 1, dove H(p) = 0 e D(p||q) = 1. Per vedere questo calcolo, definiremo prima l'entropia relativa.L'entropia relativa o distanza di Kullback-Leibler tra due funzioni di massa di probabilità p(x) e q(x) è definita comeNella definizione di cui sopra, utilizziamo la convenzione che,e la convenzione (basata su argomenti di continuità) thatQuindi, se esiste un simbolo x ∈ X tale che p(x) > 0 e q(x) = 0, allora D(p||q) = ∞.D(p||q) può essere spesso utilizzato come misura della distanza definita su p e q.Intuitivamente, quando p=q, la nostra codifica sarebbe ottimale, quindi D(p||q)=0.In generale, più q è vicino a p, minore sarà D(p||q).Si noti che D(p||q) non è uguale a D(q||p) e hanno interpretazioni diverse.Con questa definizione, torniamo all'esempio della moneta e mostriamo i calcoli.Quindi, otteniamo H(p) + D(p||q) = 1 come affermato.Possiamo pensare a H(p) come al numero minimo di bit richiesto per esprimere l'evento (coin flip) e D(p||q) come una penalità al numero di bit richiesto se si utilizza una distribuzione errata.Successivamente, introduciamo l'informazione reciproca, che è una misura della quantità di informazioni che una variabile casuale contiene su un'altra variabile casuale.L'informazione reciproca, indicata con I (X; Y), è l'entropia relativa tra la distribuzione congiunta p(x, y) e la distribuzione del prodotto p(x)p(y).Qui, p(x, y) è la funzione di massa di probabilità congiunta delle due variabili casuali X e Y, e p(x), p(y) sono funzioni di massa di probabilità marginale di X e Y, rispettivamente.Riorganizzando le informazioni reciproche, possiamo vederloCioè, l'informazione reciproca è la riduzione dell'incertezza di una variabile casuale dovuta alla conoscenza dell'altra.In altre parole, questa interpretazione indica che I(X;Y) misura la riduzione dell'incertezza di X (o Y) dovuta alla conoscenza di Y (o X).Si noti che l'entropia condizionata H(Y|X) misura l'incertezza di Y dato che conosciamo X. Inoltre, poiché H (X, Y) = H (X) + H (Y|X), possiamo scrivere informazioni reciproche comeCioè, l'informazione reciproca di una variabile casuale con se stessa è l'entropia della variabile casuale.Questo è il motivo per cui l'entropia viene talvolta definita autoinformazione.Le tre variazioni precedenti delle informazioni reciproche possono essere riassunte dal seguente diagramma di Venn.Introdurremo ora l'informazione reciproca condizionale.L'informazione reciproca condizionale delle variabili casuali X e Y data Z è definita daQui discuteremo alcune proprietà dell'entropia, dell'entropia relativa e dell'informazione reciproca.Queste proprietà ci consentiranno di ottenere informazioni dettagliate su come vengono utilizzate nell'apprendimento automatico e perché funzionano.Introduciamo anche alcuni prerequisiti rilevanti.Convessità di una funzione Una funzione f (x) si dice convessa su un intervallo (a, b) se per ogni x1, x2 ∈ (a, b) e 0 ≤ λ ≤ 1,La disuguaglianza di Jensen La disuguaglianza di Jensen afferma che se f è una funzione convessa e X è una variabile casuale, alloraIn altre parole, l'aspettativa della funzione f(X) è maggiore o uguale alla funzione valutata alla media della variabile casuale X. Viene fornita una dimostrazione per induzione.In primo luogo, per definizione di convessità, abbiamodove in questo caso la funzione massa di probabilità è una distribuzione a due punti massa.Supponiamo che il teorema sia vero per distribuzioni con k-1 punti di massa.Quindi possiamo scrivere p'_i = p_i/(1-p_k) for i = 1, 2, 3, …, (k-1), e questo ci daràdove la prima disuguaglianza deriva dall'ipotesi di induzione e la seconda dalla definizione di convessità.La disuguaglianza di Jensen è usata per dimostrare la non negatività di D(p||q).Non negatività di D(p||q) Siano p(x) e q(x), dove x ∈ X, siano due funzioni di massa di probabilità.Allora D(p||q) ≥ 0, con uguaglianza se e solo se p(x) = q(x) per ogni x.La prova di ciò è la seguente.Sia A = {x: p(x) > 0} l'insieme di supporto di p(x).Quindidove la prima disuguaglianza (nella riga 3) deriva dalla disuguaglianza di Jensen.Moltiplichiamo entrambi i membri per a -1 e otteniamo la nostra affermazione D(p||q) ≥ 0. Inoltre, poiché log(t) è una funzione strettamente concava di t, se moltiplichiamo entrambi i membri per un negativo, log( 1/t) diventa una funzione strettamente convessa di t.Dall'analisi di cui sopra, possiamo capire perché l'entropia relativa, o KL-divergence, è importante nel contesto dell'apprendimento automatico.Quando p è preso come una distribuzione empirica di valori nei nostri dati osservati e q è preso come la distribuzione data da un modello probabilistico da stimare, minimizzare la KL-divergenza D(p||q) equivarrebbe a massimizzare la probabilità di i nostri dati.Questo è il motivo per cui l'entropia relativa viene spesso adattata alle applicazioni di apprendimento automatico.Regola della catena per l'entropia e l'informazione reciproca Introduciamo prima la regola della catena dell'entropia.Siano X_1, X_2, …, X_n secondo la distribuzione congiunta p(x_1, x_2, …, x_n).QuindiCiò può essere facilmente dimostrato espandendo continuamente l'entropia congiunta di due variabili casuali come mostrato di seguito.Allo stesso modo, la regola della catena si applica anche all'informazione reciproca.Richiamando la definizione di informazione reciproca condizionata, la regola della catena dell'informazione è la seguente.La prova è fornita di seguito.Non negatività dell'informazione reciproca Per due variabili casuali qualsiasi, X, Y, I (X; Y) ≥ 0, l'uguaglianza si verifica se e solo se X e Y sono indipendenti.La dimostrazione di questo teorema può essere facilmente vista esprimendo l'informazione reciproca come entropia relativa come seguedove l'ultima disuguaglianza deriva dal fatto che l'entropia relativa non è negativa.Diamo un'occhiata più da vicino a questa definizione di informazione reciproca.Nota che ora dobbiamo pensare a una distribuzione su coppie (X,Y) quando osserviamo la divergenza KL.Cioè, quando calcoliamo la divergenza KL, la somma verrebbe presa su tutte le coppie (x,y) dove x è un valore di X e y è un valore di Y. Possiamo vedere che p(X)p( Y) ci fornisce anche una distribuzione su tali coppie.Questo è il motivo per cui l'interpretazione di I(X;Y) come misure dell'associazione/dipendenza di X e Y ha senso.Più X e Y sono indipendenti, più vicini sarebbero p(X,Y) e p(X)p(Y).Il condizionamento riduce l'entropia Ricordiamo che nella sezione 2.1 abbiamo affermato che H(X|Y) ≤ H(X), ovvero "l'informazione non può far male".La prova può essere facilmente vista comedove la disuguaglianza deriva dalla non negatività dell'informazione reciproca.Questo teorema ha un significato molto intuitivo.Dice che conoscere un'altra variabile casuale Y può solo ridurre l'incertezza in X. Si noti che questo è vero solo in media.In particolare, H (X|Y = y) può essere maggiore o minore o uguale a H (X), ma in mediaAd esempio, in un caso giudiziario, nuove prove specifiche potrebbero aumentare l'incertezza, ma in media le prove riducono l'incertezza.Possiamo dare un'occhiata ad alcuni esempi di come questi concetti vengono applicati all'apprendimento automatico.Ad esempio, se X è la categoria di un documento e Y è una parola, è possibile utilizzare I(X;Y) per selezionare le parole associate agli argomenti.Tali parole sono presumibilmente più utili per classificare i documenti in categorie.KL-divergence D(p||q) può essere utilizzato per eseguire il recupero se p è un modello di linguaggio unigram di query e q è un modello di linguaggio unigram di documenti.Un altro esempio è l'uso di informazioni reciproche come criterio per la selezione delle caratteristiche e le trasformazioni delle caratteristiche.Può essere utilizzato per caratterizzare sia la pertinenza che la ridondanza delle variabili, come la selezione della funzione di ridondanza minima.In questa sezione, vorrei presentare alcune diverse interpretazioni di questi concetti da una prospettiva più tradizionale della teoria dell'informazione e della codifica.L'entropia di una variabile casuale è una misura dell'incertezza della variabile casuale;è una misura della quantità (minima) di informazioni richieste in media per descrivere la variabile casuale.Rivisitiamo l'idea (sezione 2.2) di costruire un “codice” per rappresentare l'esito di un esperimento (o evento).Ad esempio, se desideriamo codificare 4 possibili messaggi A, B, C e D. Quali sono i modi possibili per codificarlo?Assumiamo che ogni simbolo sia ugualmente probabile, ad esempio, p(A) = p(B) = p(C) = p(D) = (1/4).Per prima cosa, calcoliamo l'entropia di questo codice ENC_1.Se utilizziamo la seguente codifica ENC_1 = {A↦00, B↦01, C↦10, D↦11}, la lunghezza media del codice è di 2 bit (calcolata di seguito).Questo è uguale all'entropia calcolata.Tuttavia, se la distribuzione di probabilità di A, B, C e D non è uguale, questa codifica potrebbe non essere ottimale.Ad esempio, sia {0.8, 0.1, 0.05, 0.05} la distribuzione di probabilità di A, B, C e D, rispettivamente.L'entropia di questa distribuzione èPertanto, possiamo vedere che sono necessari solo 1,0219 bit per rappresentare le informazioni.Poiché non esiste 1,02 bit, possiamo costruire solo codici in cui A, B, C, D sono mappati su un numero intero di bit.Tuttavia, H(ENC_2) ci dice che possiamo fare molto meglio dei 2 bit di ENC_1.Nella Figura 2 viene fornito un albero di Huffman per illustrare l'idea di "ridurre il costo della rappresentazione di simboli ad alta probabilità".Questo è anche noto come codifica entropica.Sotto la codifica in Figura 12., abbiamo ENC' = {A↦0, B↦01, C↦011, D↦111}.La lunghezza media è ora L(ENC') = 0.8×1 + 0.1×2 + 0.05×3 +0.05×3 = 1.5 bit.Si noti che questo numero è ancora lontano da 1,02 bit, ma è anche inferiore alla semplice codifica di ogni simbolo con 2 bit.Questo è il motivo per cui possiamo interpretare l'entropia come il numero minimo di bit richiesto per rappresentare una distribuzione.Successivamente, discuteremo KL-divergenza.Come accennato nella sezione 2.2, possiamo interpretare la divergenza KL come il numero medio di bit che vengono sprecati codificando eventi da una distribuzione p con un codice basato su una distribuzione q “sbagliata”.Facendo seguito all'entropia di ENC_2 come numero minimo di bit richiesti per rappresentare la distribuzione p = {0.8, 0.1, 0.05, 0.05}, osserviamo ora la divergenza KL quando usiamo q = {(1/4), ( 1/4), (1/4), (1/4)} per codificare p.Possiamo vedere che se usiamo la distribuzione q (uguale probabilità) per costruire il codice, avremo bisogno di 2 bit, che in media sono esattamente H(p) + D(p||q) bit.Quindi, questo è il motivo per cui D(p||q) può essere considerato una penalità per l'utilizzo dell'assunzione errata sulla distribuzione sottostante.Infine, l'informazione reciproca I(X;Y) ci dà una misura di quanta informazione è condivisa tra due variabili casuali X e Y. È l'entropia relativa tra la distribuzione congiunta e il prodotto delle distribuzioni marginali delle due variabili casuali.L'interpretazione dell'informazione reciproca è la riduzione media della lunghezza di una parola in codice per Y dato che X è noto.In questo articolo, abbiamo introdotto alcuni concetti di base della teoria dell'informazione: entropia, entropia condizionale, entropia relativa e informazione reciproca.Abbiamo anche discusso diverse proprietà relative a questi concetti e le abbiamo utilizzate per dimostrare ulteriori utili teoremi.Infine, abbiamo fornito interpretazioni dei concetti da una classica prospettiva della teoria dell'informazione e della codifica e discusso il loro utilizzo nell'apprendimento automatico.Le prossime puntate di questa speciale serie Synced introdurranno altri campi di studio tradizionalmente incentrati sull'analisi e sull'ottimizzazione come l'analisi convessa e la programmazione lineare e non lineare e il loro impatto sull'apprendimento automatico moderno.Autore: Joshua Chou |Editore: H4O e Michael SarazenRapporto sincronizzato |Un'indagine sulle soluzioni di intelligenza artificiale della Cina in risposta alla pandemia di COVID-19: 87 casi di studio da oltre 700 fornitori di intelligenza artificialeQuesto rapporto offre uno sguardo a come la Cina ha sfruttato le tecnologie di intelligenza artificiale nella battaglia contro COVID-19.È disponibile anche su Amazon Kindle.Insieme a questo rapporto, abbiamo anche introdotto un database che copre 1428 soluzioni di intelligenza artificiale aggiuntive da 12 scenari di pandemia.Clicca qui per trovare più rapporti da noi.Sappiamo che non vuoi perdere nessuna notizia o svolta nella ricerca.Iscriviti alla nostra popolare newsletter Synced Global AI Weekly per ricevere aggiornamenti settimanali sull'IA.Intelligenza della macchina |Tecnologia e industria |Informazioni e analisiPingback: Tradizione sincronizzata e serie di apprendimento automatico |Parte 2: Nozioni di base sull'ottimizzazione |SincronizzatoPingback: [TechBlog] Tradizione sincronizzata e serie di apprendimento automatico |Parte 2: Nozioni di base sull'ottimizzazione – ONEO AIPingback: Tradizione sincronizzata e serie di apprendimento automatico |Parte 2: Nozioni di base sull'ottimizzazione – Ramsey Elbasheer |Storia e MLL'indirizzo email non verrà pubblicato.I campi richiesti sono contrassegnati *Avvisami dei commenti di follow-up via e-mail.Notificami nuovi articoli tramite email.56 Temperance St, #700 Toronto, SU M5H 3V5One Broadway, 14° piano, Cambridge, MA 0214275 E Santa Clara St, 6° piano, San Jose, CA 95113Contattaci @ global.general@jiqizhixin.com