Indice
12 relazioni: Algoritmo, Apprendimento per rinforzo, Arthur Samuel, Backgammon, Bootstrap (statistica), Funzione obiettivo, Metodo Monte Carlo, Processo decisionale di Markov, Processo markoviano, Programmazione dinamica, Q-learning, SARSA.
Algoritmo
In matematica e informatica un algoritmo è la specificazione di una sequenza finita di operazioni (dette anche istruzioni) che consente di risolvere tutti i quesiti di una stessa classe o di calcolare il risultato di un'espressione matematica.
Vedere Temporal difference learning e Algoritmo
Apprendimento per rinforzo
Lapprendimento per rinforzo (o reinforcement learning) è una tecnica di apprendimento automatico che punta a realizzare agenti autonomi in grado di scegliere azioni da compiere per il conseguimento di determinati obiettivi tramite interazione con l'ambiente in cui sono immersi.
Vedere Temporal difference learning e Apprendimento per rinforzo
Arthur Samuel
Pioniere nel campo dell'intelligenza artificiale e dei videogiochi per computer, coniò il termine "machine learning" nel 1959. Creò con successo il primo programma di dama basato sull'apprendimento automatico, dando una dimostrazione precoce dei concetti fondamentali dell'intelligenza artificiale.
Vedere Temporal difference learning e Arthur Samuel
Backgammon
Il backgammon (in italiano tavola reale o tric-trac) è un gioco da tavolo per due giocatori. Ciascun giocatore possiede 15 pedine che muove lungo 24 triangoli in base al lancio di due dadi.
Vedere Temporal difference learning e Backgammon
Bootstrap (statistica)
Il bootstrap è una tecnica statistica di ricampionamento con reimmissione per approssimare la distribuzione campionaria di una statistica. Permette perciò di approssimare media e varianza di uno stimatore, costruire intervalli di confidenza e calcolare p-value di test quando, in particolare, non si conosce la distribuzione della statistica di interesse.
Vedere Temporal difference learning e Bootstrap (statistica)
Funzione obiettivo
In ottimizzazione matematica e nella teoria della decisione, una funzione obiettivo o funzione di costo o ancora funzione di perdita (calco dell'inglese loss function) è una funzione che mappa un evento, o valori di una o più variabili, su un numero reale intuitivamente rappresenta un "costo" associato all'evento.
Vedere Temporal difference learning e Funzione obiettivo
Metodo Monte Carlo
Il metodo Monte Carlo è un'ampia classe di metodi computazionali basati sul campionamento casuale per ottenere risultati numerici. Può essere utile per superare i problemi computazionali legati ai test esatti (ad esempio i metodi basati sulla distribuzione binomiale e calcolo combinatorio, che per grandi campioni generano un numero di permutazioni eccessivo).
Vedere Temporal difference learning e Metodo Monte Carlo
Processo decisionale di Markov
I processi decisionali di Markov (MDP), dal nome del matematico Andrej Andreevič Markov (1856-1922), forniscono un framework matematico per la modellizzazione del processo decisionale in situazioni in cui i risultati sono in parte casuali e in parte sotto il controllo di un decisore.
Vedere Temporal difference learning e Processo decisionale di Markov
Processo markoviano
Si definisce processo stocastico markoviano (o di Markov), un processo aleatorio in cui la probabilità di transizione che determina il passaggio a uno stato di sistema dipende solo dallo stato del sistema immediatamente precedente (proprietà di Markov) e non da come si è giunti a questo stato.
Vedere Temporal difference learning e Processo markoviano
Programmazione dinamica
In informatica la programmazione dinamica è una tecnica di progettazione di algoritmi basata sulla divisione del problema in sottoproblemi e sull'utilizzo di sottostrutture ottimali.
Vedere Temporal difference learning e Programmazione dinamica
Q-learning
Q-learning è uno dei più conosciuti algoritmi di apprendimento per rinforzo. Fa parte della famiglia di algoritmi adottati nelle tecniche delle differenze temporali, relative ai casi di modelli a informazione incompleta.
Vedere Temporal difference learning e Q-learning
SARSA
Lo stato–azione–ricompensa–stato–azione (SARSA) è un algoritmo di apprendimento di una funzione di policy per i processi decisionali di Markov, usato nelle aree dell'apprendimento per rinforzo e dell'apprendimento automatico.

