Stiamo lavorando per ripristinare l'app di Unionpedia nel Google Play Store
UscenteArrivo
🌟Abbiamo semplificato il nostro design per una migliore navigazione!
Instagram Facebook X LinkedIn
La tua Unionpedia con il tuo logo e dominio, a partire da 9,99 USD/mese
Crea il mio Unionpedia

Temporal difference learning

Indice Temporal difference learning

Il temporal difference (TD) learning, ovvero l'apprendimento mediante differenza temporale, indica una classe di metodi di reinforcement learning che basano il proprio apprendimento sul bootstrap dalla stima corrente della funzione obiettivo: questi metodi campionano dall'ambiente, così come il Metodo Monte Carlo, ma eseguono gli aggiornamenti della funzione di valore di stato basandosi sulle stime correnti, come avviene, invece, nella programmazione dinamica.

Indice

  1. 12 relazioni: Algoritmo, Apprendimento per rinforzo, Arthur Samuel, Backgammon, Bootstrap (statistica), Funzione obiettivo, Metodo Monte Carlo, Processo decisionale di Markov, Processo markoviano, Programmazione dinamica, Q-learning, SARSA.

Algoritmo

In matematica e informatica un algoritmo è la specificazione di una sequenza finita di operazioni (dette anche istruzioni) che consente di risolvere tutti i quesiti di una stessa classe o di calcolare il risultato di un'espressione matematica.

Vedere Temporal difference learning e Algoritmo

Apprendimento per rinforzo

Lapprendimento per rinforzo (o reinforcement learning) è una tecnica di apprendimento automatico che punta a realizzare agenti autonomi in grado di scegliere azioni da compiere per il conseguimento di determinati obiettivi tramite interazione con l'ambiente in cui sono immersi.

Vedere Temporal difference learning e Apprendimento per rinforzo

Arthur Samuel

Pioniere nel campo dell'intelligenza artificiale e dei videogiochi per computer, coniò il termine "machine learning" nel 1959. Creò con successo il primo programma di dama basato sull'apprendimento automatico, dando una dimostrazione precoce dei concetti fondamentali dell'intelligenza artificiale.

Vedere Temporal difference learning e Arthur Samuel

Backgammon

Il backgammon (in italiano tavola reale o tric-trac) è un gioco da tavolo per due giocatori. Ciascun giocatore possiede 15 pedine che muove lungo 24 triangoli in base al lancio di due dadi.

Vedere Temporal difference learning e Backgammon

Bootstrap (statistica)

Il bootstrap è una tecnica statistica di ricampionamento con reimmissione per approssimare la distribuzione campionaria di una statistica. Permette perciò di approssimare media e varianza di uno stimatore, costruire intervalli di confidenza e calcolare p-value di test quando, in particolare, non si conosce la distribuzione della statistica di interesse.

Vedere Temporal difference learning e Bootstrap (statistica)

Funzione obiettivo

In ottimizzazione matematica e nella teoria della decisione, una funzione obiettivo o funzione di costo o ancora funzione di perdita (calco dell'inglese loss function) è una funzione che mappa un evento, o valori di una o più variabili, su un numero reale intuitivamente rappresenta un "costo" associato all'evento.

Vedere Temporal difference learning e Funzione obiettivo

Metodo Monte Carlo

Il metodo Monte Carlo è un'ampia classe di metodi computazionali basati sul campionamento casuale per ottenere risultati numerici. Può essere utile per superare i problemi computazionali legati ai test esatti (ad esempio i metodi basati sulla distribuzione binomiale e calcolo combinatorio, che per grandi campioni generano un numero di permutazioni eccessivo).

Vedere Temporal difference learning e Metodo Monte Carlo

Processo decisionale di Markov

I processi decisionali di Markov (MDP), dal nome del matematico Andrej Andreevič Markov (1856-1922), forniscono un framework matematico per la modellizzazione del processo decisionale in situazioni in cui i risultati sono in parte casuali e in parte sotto il controllo di un decisore.

Vedere Temporal difference learning e Processo decisionale di Markov

Processo markoviano

Si definisce processo stocastico markoviano (o di Markov), un processo aleatorio in cui la probabilità di transizione che determina il passaggio a uno stato di sistema dipende solo dallo stato del sistema immediatamente precedente (proprietà di Markov) e non da come si è giunti a questo stato.

Vedere Temporal difference learning e Processo markoviano

Programmazione dinamica

In informatica la programmazione dinamica è una tecnica di progettazione di algoritmi basata sulla divisione del problema in sottoproblemi e sull'utilizzo di sottostrutture ottimali.

Vedere Temporal difference learning e Programmazione dinamica

Q-learning

Q-learning è uno dei più conosciuti algoritmi di apprendimento per rinforzo. Fa parte della famiglia di algoritmi adottati nelle tecniche delle differenze temporali, relative ai casi di modelli a informazione incompleta.

Vedere Temporal difference learning e Q-learning

SARSA

Lo stato–azione–ricompensa–stato–azione (SARSA) è un algoritmo di apprendimento di una funzione di policy per i processi decisionali di Markov, usato nelle aree dell'apprendimento per rinforzo e dell'apprendimento automatico.

Vedere Temporal difference learning e SARSA