Intelligenza Artificiale

Deep Learning

Reti neurali profonde: livelli, addestramento, backpropagation e architetture moderne. I termini del deep learning spiegati con chiarezza.

150 termini

Preferiti Vota

A
Activation Checkpointing

Preferiti Vota permalink

Checkpoint delle attivazioni. Tecnica che salva solo alcune attivazioni e ricalcola le altre per risparmiare memoria.
AdamW

Preferiti Vota permalink

Ottimizzatore AdamW. Variante di Adam che separa correttamente il weight decay dall'aggiornamento del gradiente.
Adversarial Loss

Preferiti Vota permalink

Perdita avversaria. Termine che misura quanto bene il generatore inganna il discriminatore in una GAN.
AlexNet

Preferiti Vota permalink

CNN pionieristica. Rete convoluzionale profonda che ha vinto ImageNet 2012 rilanciando il deep learning moderno.
Attention Weights

Preferiti Vota permalink

Pesi di attenzione. Coefficienti che indicano quanto ogni elemento dell'input contribuisce a una data uscita.
Autoregressive Model

Preferiti Vota permalink

Modello autoregressivo. Modello che genera una sequenza un elemento alla volta condizionandosi sui precedenti.
Average Pooling

Preferiti Vota permalink

Pooling medio. Operazione che riduce la dimensione spaziale calcolando la media dei valori in ogni regione.
B
Backpropagation Through Time (BPTT)

Preferiti Vota permalink

Retropropagazione nel tempo. Algoritmo che addestra le RNN srotolandole lungo la sequenza per calcolare i gradienti.
Batch Inference

Preferiti Vota permalink

Inferenza in batch. Elaborazione di più input contemporaneamente per sfruttare meglio l'hardware durante la predizione.
Beam Search

Preferiti Vota permalink

Ricerca a fascio. Strategia di decodifica che mantiene le sequenze candidate più probabili a ogni passo di generazione.
C
Campo recettivo

Preferiti Vota permalink

Campo recettivo. Regione dell'input che influenza il valore di una singola unità in un layer profondo.
Capsule Network

Preferiti Vota permalink

Rete a capsule. Architettura che rappresenta entità tramite gruppi di neuroni codificando proprietà come la posa.
Catastrophic Forgetting

Preferiti Vota permalink

Oblio catastrofico. Fenomeno per cui una rete perde le competenze precedenti apprendendo un nuovo compito.
Causal Masking

Preferiti Vota permalink

Mascheramento causale. Tecnica che impedisce a ogni posizione di guardare ai token futuri durante la generazione.
Cell State

Preferiti Vota permalink

Stato di cella. Memoria a lungo termine di una LSTM che scorre attraverso i passi temporali con poche modifiche.
Center Loss

Preferiti Vota permalink

Perdita di centro. Funzione che avvicina ogni rappresentazione al centro appreso della propria classe.
Classifier-Free Guidance

Preferiti Vota permalink

Guida senza classificatore. Tecnica che orienta la generazione di un modello di diffusione verso un condizionamento desiderato.
Conditional GAN (cGAN)

Preferiti Vota permalink

GAN condizionale. Variante che genera dati condizionati da un'etichetta o da informazioni aggiuntive.
Context Vector

Preferiti Vota permalink

Vettore di contesto. Riassunto pesato dell'input prodotto dall'attenzione e usato per generare l'output.
Contractive Autoencoder

Preferiti Vota permalink

Autoencoder contrattivo. Variante che penalizza la sensibilità della codifica alle piccole variazioni dell'input.
Contrastive Learning

Preferiti Vota permalink

Apprendimento contrastivo. Metodo auto-supervisionato che apprende avvicinando viste simili e separando quelle diverse.
Contrastive Loss

Preferiti Vota permalink

Perdita contrastiva. Funzione che avvicina rappresentazioni di esempi simili e allontana quelle di esempi diversi.
Cosine Annealing

Preferiti Vota permalink

Ricottura a coseno. Schedulazione che riduce il learning rate seguendo una curva a coseno fino a un minimo.
Cross-Attention

Preferiti Vota permalink

Attenzione incrociata. Meccanismo in cui le query provengono da una sequenza e chiavi e valori da un'altra.
CutMix

Preferiti Vota permalink

Ritaglio e incollaggio. Tecnica che sostituisce una regione di un'immagine con quella di un'altra mescolando le etichette.
CycleGAN

Preferiti Vota permalink

GAN ciclica. Modello che traduce immagini tra due domini senza coppie di esempi allineati.
D
DCGAN

Preferiti Vota permalink

GAN convoluzionale profonda. Variante di GAN che usa layer convoluzionali per generare immagini realistiche.
DDPM

Preferiti Vota permalink

Modello di diffusione probabilistica. Modello generativo che impara a invertire un processo graduale di aggiunta di rumore.
Deep Belief Network (DBN)

Preferiti Vota permalink

Rete a credenza profonda. Modello generativo formato da più strati di unità latenti addestrati uno alla volta.
Deformable Convolution

Preferiti Vota permalink

Convoluzione deformabile. Convoluzione che apprende offset spaziali per adattare la forma del campionamento all'oggetto.
Denoising Autoencoder

Preferiti Vota permalink

Autoencoder che rimuove rumore. Modello addestrato a ricostruire dati puliti partendo da input corrotti.
DenseNet

Preferiti Vota permalink

Rete densamente connessa. Architettura in cui ogni layer riceve in input le feature map di tutti i layer precedenti.
Depthwise Separable Convolution

Preferiti Vota permalink

Convoluzione separabile in profondità. Convoluzione scomposta in fasi spaziale e per canale per ridurre il calcolo.
Dice Loss

Preferiti Vota permalink

Perdita di Dice. Funzione usata in segmentazione che ottimizza la sovrapposizione tra predizione e maschera reale.
Dilated Convolution

Preferiti Vota permalink

Convoluzione dilatata. Convoluzione con kernel spaziato che amplia il campo recettivo mantenendo la risoluzione.
Dilation

Preferiti Vota permalink

Dilatazione del kernel. Spaziatura introdotta tra gli elementi del kernel per ampliare il campo recettivo senza più parametri.
Discriminatore (GAN)

Preferiti Vota permalink

Discriminatore di una GAN. Rete che impara a distinguere i dati reali da quelli generati artificialmente.
DropPath

Preferiti Vota permalink

Eliminazione di percorso. Regolarizzazione che disattiva casualmente rami residui durante l'addestramento.
Dynamic Routing

Preferiti Vota permalink

Instradamento dinamico. Algoritmo che, nelle capsule network, decide quali capsule di basso livello attivano quelle superiori.
E
EfficientNet

Preferiti Vota permalink

Rete scalata in modo bilanciato. CNN che scala in modo uniforme profondità, larghezza e risoluzione tramite un coefficiente unico.
ELU

Preferiti Vota permalink

Unità lineare esponenziale. Funzione di attivazione che usa una curva esponenziale per i valori negativi accelerando la convergenza.
Embedding Layer

Preferiti Vota permalink

Layer di embedding. Strato che trasforma indici discreti in vettori densi appresi durante il training.
Embedding Space

Preferiti Vota permalink

Spazio degli embedding. Spazio vettoriale in cui gli elementi sono rappresentati così che la vicinanza rifletta la similarità.
Encoder-Decoder

Preferiti Vota permalink

Architettura encoder-decoder. Struttura in cui un encoder comprime l'input e un decoder genera l'output a partire da esso.
Energy-Based Model (EBM)

Preferiti Vota permalink

Modello basato sull'energia. Modello che assegna a ogni configurazione un'energia e preferisce quelle a energia minore.
Exponential Moving Average (EMA)

Preferiti Vota permalink

Media mobile esponenziale dei pesi. Tecnica che mantiene una media smorzata dei parametri per stabilizzare l'inferenza.
F
Feature Map

Preferiti Vota permalink

Mappa delle caratteristiche. Output di un layer convoluzionale che evidenzia la presenza di determinate caratteristiche.
Feature Matching

Preferiti Vota permalink

Corrispondenza di caratteristiche. Tecnica che addestra il generatore a riprodurre statistiche intermedie dei dati reali.
Feedforward Network

Preferiti Vota permalink

Rete feedforward. Componente del Transformer composta da due trasformazioni lineari con una non linearità intermedia.
Fine-Tuning

Preferiti Vota permalink

Messa a punto. Fase in cui un modello pre-addestrato viene riaddestrato su un compito specifico con nuovi dati.
Flash Attention

Preferiti Vota permalink

Attenzione efficiente in memoria. Implementazione dell'attenzione ottimizzata per ridurre accessi alla memoria e accelerare il calcolo.
Focal Loss

Preferiti Vota permalink

Perdita focale. Funzione che riduce il peso degli esempi facili per concentrare il training su quelli difficili.
Forward Diffusion

Preferiti Vota permalink

Diffusione in avanti. Processo che aggiunge progressivamente rumore ai dati fino a renderli puro rumore.
G
Gate Mechanism

Preferiti Vota permalink

Meccanismo a gate. Componente che regola con valori tra zero e uno quanta informazione far passare nella rete.
GELU

Preferiti Vota permalink

Funzione di attivazione GELU. Non linearità liscia usata nei Transformer che pesa gli input in modo probabilistico.
Generatore (GAN)

Preferiti Vota permalink

Generatore di una GAN. Rete che produce dati sintetici cercando di ingannare il discriminatore.
Global Average Pooling

Preferiti Vota permalink

Pooling medio globale. Operazione che riduce ogni feature map a un singolo valore mediando tutti i suoi elementi.
GLU

Preferiti Vota permalink

Unità lineare con gate. Componente che modula il flusso di informazione moltiplicando un segnale per un gate appreso.
GoogLeNet

Preferiti Vota permalink

Rete Inception originale. Architettura CNN profonda costruita impilando moduli Inception per ridurre i parametri.
Gradient Accumulation

Preferiti Vota permalink

Accumulo del gradiente. Tecnica che somma i gradienti di più mini-batch per simulare batch più grandi con poca memoria.
Gradient Checkpointing

Preferiti Vota permalink

Checkpoint del gradiente. Tecnica che ricalcola alcune attivazioni in backward per risparmiare memoria durante il training.
Gradient Clipping

Preferiti Vota permalink

Taglio del gradiente. Tecnica che limita la norma del gradiente per evitare aggiornamenti instabili durante il training.
Gradient Penalty

Preferiti Vota permalink

Penalità sul gradiente. Termine che vincola la norma del gradiente del discriminatore per stabilizzare le GAN.
Graph Attention Network (GAT)

Preferiti Vota permalink

Rete di attenzione su grafi. GNN che pesa i contributi dei nodi vicini tramite un meccanismo di attenzione.
Graph Convolution

Preferiti Vota permalink

Convoluzione su grafo. Operazione che aggiorna ogni nodo combinando le caratteristiche dei suoi vicini.
Graph Neural Network (GNN)

Preferiti Vota permalink

Rete neurale su grafi. Modello che apprende rappresentazioni propagando informazioni tra i nodi connessi di un grafo.
Greedy Decoding

Preferiti Vota permalink

Decodifica avida. Strategia che sceglie a ogni passo il token più probabile senza considerare alternative future.
Group Normalization

Preferiti Vota permalink

Normalizzazione a gruppi. Tecnica che normalizza le attivazioni dividendo i canali in gruppi, indipendente dalla dimensione del batch.
GRU

Preferiti Vota permalink

Unità ricorrente con gate. Variante semplificata della LSTM con meno gate ma prestazioni spesso comparabili.
H
Hidden State

Preferiti Vota permalink

Stato nascosto. Rappresentazione interna che una rete mantiene e aggiorna mentre elabora una sequenza.
Highway Network

Preferiti Vota permalink

Rete autostradale. Architettura profonda con gate che regolano quanta informazione attraversa o salta ogni layer.
I
Inception Module

Preferiti Vota permalink

Modulo Inception. Blocco che applica convoluzioni di dimensioni diverse in parallelo e ne concatena gli output.
Instance Normalization

Preferiti Vota permalink

Normalizzazione per istanza. Tecnica che normalizza ogni canale di ogni esempio separatamente, utile nel trasferimento di stile.
K
Kernel

Preferiti Vota permalink

Nucleo convoluzionale. Piccola matrice di pesi che scorre sull'input per estrarre caratteristiche locali.
KL Divergence Loss

Preferiti Vota permalink

Perdita di divergenza KL. Termine che misura quanto la distribuzione latente si discosta da quella attesa nei VAE.
Knowledge Distillation Loss

Preferiti Vota permalink

Perdita di distillazione. Termine che addestra un modello piccolo a imitare le uscite morbide di uno più grande.
KV Cache

Preferiti Vota permalink

Cache di chiavi e valori. Memoria che conserva chiavi e valori già calcolati per velocizzare la generazione autoregressiva.
L
Label Smoothing

Preferiti Vota permalink

Levigatura delle etichette. Tecnica che ammorbidisce i target one-hot per ridurre l'eccessiva sicurezza del modello.
LAMB

Preferiti Vota permalink

Ottimizzatore LAMB. Metodo pensato per il training con batch molto grandi adattando il learning rate per layer.
Latent Diffusion

Preferiti Vota permalink

Diffusione nello spazio latente. Modello che esegue la diffusione su rappresentazioni compresse anziché sui pixel grezzi.
Layer Normalization

Preferiti Vota permalink

Normalizzazione per layer. Tecnica che normalizza le attivazioni di un singolo esempio lungo le feature.
Leaky ReLU

Preferiti Vota permalink

ReLU con perdita. Variante di ReLU che lascia passare una piccola pendenza per i valori negativi evitando neuroni morti.
Learning Rate Warmup

Preferiti Vota permalink

Riscaldamento del learning rate. Fase iniziale in cui il tasso di apprendimento cresce gradualmente per stabilizzare il training.
LeNet

Preferiti Vota permalink

CNN storica. Prima architettura convoluzionale di successo, progettata per riconoscere cifre scritte a mano.
Logits

Preferiti Vota permalink

Logit. Valori grezzi prodotti dall'ultimo layer prima della trasformazione in probabilità.
Lookahead

Preferiti Vota permalink

Ottimizzatore Lookahead. Metodo che combina pesi veloci e lenti per stabilizzare la traiettoria di ottimizzazione.
LSTM

Preferiti Vota permalink

Memoria a lungo termine. Variante di RNN con gate che permettono di ricordare informazioni su lunghe sequenze.
M
Masked Autoencoder (MAE)

Preferiti Vota permalink

Autoencoder mascherato. Modello che ricostruisce porzioni nascoste dell'input per apprendere rappresentazioni robuste.
Max Pooling

Preferiti Vota permalink

Pooling massimo. Operazione che riduce la dimensione spaziale selezionando il valore massimo in ogni regione.
Maxout

Preferiti Vota permalink

Unità maxout. Layer che restituisce il massimo tra più trasformazioni lineari, capace di approssimare varie attivazioni.
Meccanismo di attenzione

Preferiti Vota permalink

Meccanismo di attenzione. Tecnica che pesa diverse parti dell'input in base alla loro rilevanza per il compito.
Message Passing

Preferiti Vota permalink

Passaggio di messaggi. Schema in cui i nodi di un grafo si scambiano e aggregano informazioni per aggiornare i propri stati.
Mish

Preferiti Vota permalink

Funzione di attivazione Mish. Non linearità liscia e non monotona che può migliorare accuratezza e stabilità del training.
Mixed Precision Training

Preferiti Vota permalink

Addestramento a precisione mista. Tecnica che usa numeri a 16 bit per velocizzare il training riducendo la memoria.
Mixup

Preferiti Vota permalink

Mescolamento di esempi. Tecnica che crea esempi di training combinando linearmente coppie di input e relative etichette.
MobileNet

Preferiti Vota permalink

Rete leggera per mobile. CNN efficiente che usa convoluzioni separabili in profondità per ridurre calcolo e parametri.
Mode Collapse

Preferiti Vota permalink

Collasso dei modi. Problema in cui il generatore di una GAN produce output poco vari ignorando parte della distribuzione.
Multi-Head Attention

Preferiti Vota permalink

Attenzione a teste multiple. Più meccanismi di attenzione paralleli che catturano relazioni diverse nello stesso input.
N
Nadam

Preferiti Vota permalink

Ottimizzatore Nadam. Variante di Adam che incorpora il momento di Nesterov per aggiornamenti più reattivi.
Neural ODE

Preferiti Vota permalink

Equazione differenziale neurale. Modello che definisce la trasformazione degli stati come soluzione di un'equazione continua.
Node Embedding

Preferiti Vota permalink

Embedding di nodo. Rappresentazione vettoriale di un nodo che ne cattura ruolo e contesto nel grafo.
Noise Schedule

Preferiti Vota permalink

Schedulazione del rumore. Funzione che definisce quanto rumore viene aggiunto a ogni passo del processo di diffusione.
Normalizing Flow

Preferiti Vota permalink

Flusso normalizzante. Modello generativo che trasforma una distribuzione semplice in una complessa con funzioni invertibili.
O
One-Cycle Policy

Preferiti Vota permalink

Politica a un ciclo. Strategia che fa crescere e poi calare il learning rate in un unico ciclo per training rapido.
P
Padding

Preferiti Vota permalink

Riempimento dei bordi. Aggiunta di valori ai margini dell'input per controllare la dimensione dell'output convoluzionale.
Parametric ReLU (PReLU)

Preferiti Vota permalink

ReLU parametrica. Variante di ReLU in cui la pendenza per i valori negativi viene appresa durante il training.
Perceptual Loss

Preferiti Vota permalink

Perdita percettiva. Funzione di costo che confronta caratteristiche estratte da una rete invece dei pixel grezzi.
Pointwise Convolution

Preferiti Vota permalink

Convoluzione puntuale. Convoluzione 1x1 che combina i canali senza considerare la dimensione spaziale.
Positional Encoding

Preferiti Vota permalink

Codifica posizionale. Informazione aggiunta agli embedding per indicare la posizione di ogni elemento nella sequenza.
Q
Query-Key-Value

Preferiti Vota permalink

Query chiave valore. Tre proiezioni dell'input usate per calcolare i pesi di attenzione nei Transformer.
R
Recurrent Neural Network (RNN)

Preferiti Vota permalink

Rete neurale ricorrente. Modello che elabora sequenze mantenendo uno stato interno aggiornato a ogni passo temporale.
Reparameterization Trick

Preferiti Vota permalink

Trucco di riparametrizzazione. Tecnica che rende derivabile il campionamento nei VAE separando rumore e parametri.
Residual Block

Preferiti Vota permalink

Blocco residuale. Modulo che somma l'input all'output di alcuni layer, facilitando il flusso del gradiente.
ResNet

Preferiti Vota permalink

Rete residuale profonda. Architettura CNN che usa connessioni residue per addestrare reti molto profonde senza degradare le prestazioni.
Restricted Boltzmann Machine (RBM)

Preferiti Vota permalink

Macchina di Boltzmann ristretta. Rete generativa a due strati che apprende una distribuzione di probabilità sui dati.
Reverse Diffusion

Preferiti Vota permalink

Diffusione inversa. Processo appreso che rimuove gradualmente il rumore per generare un dato realistico.
RNN bidirezionale

Preferiti Vota permalink

RNN bidirezionale. Rete ricorrente che elabora la sequenza in entrambe le direzioni per usare contesto passato e futuro.
Rotary Positional Embedding (RoPE)

Preferiti Vota permalink

Codifica posizionale rotatoria. Tecnica che codifica la posizione ruotando gli embedding nello spazio dei vettori.
S
Scaled Dot-Product Attention

Preferiti Vota permalink

Attenzione a prodotto scalato. Calcolo dell'attenzione tramite prodotti scalari tra query e chiavi, normalizzati per stabilità.
Self-Attention

Preferiti Vota permalink

Auto-attenzione. Meccanismo in cui ogni elemento di una sequenza valuta la propria relazione con tutti gli altri elementi.
Self-Supervised Pretraining

Preferiti Vota permalink

Pre-addestramento auto-supervisionato. Fase in cui il modello apprende da dati non etichettati creando compiti pretesto.
Seq2Seq

Preferiti Vota permalink

Modello da sequenza a sequenza. Architettura che trasforma una sequenza di input in una sequenza di output di lunghezza variabile.
Sequence Padding

Preferiti Vota permalink

Riempimento di sequenza. Aggiunta di token fittizi per uniformare la lunghezza delle sequenze in un batch.
Siamese Network

Preferiti Vota permalink

Rete siamese. Architettura con due rami a pesi condivisi che confronta coppie di input per misurarne la similarità.
Skip Connection

Preferiti Vota permalink

Connessione di salto. Collegamento che bypassa uno o più layer portando l'input direttamente più avanti nella rete.
Soft Labels

Preferiti Vota permalink

Etichette morbide. Probabilità continue prodotte da un modello insegnante usate per addestrare un modello più piccolo.
Sparse Attention

Preferiti Vota permalink

Attenzione sparsa. Variante che calcola l'attenzione solo su un sottoinsieme di posizioni per ridurre il costo.
Sparse Autoencoder

Preferiti Vota permalink

Autoencoder sparso. Variante che vincola poche unità latenti a essere attive per apprendere rappresentazioni compatte.
Spectral Normalization

Preferiti Vota permalink

Normalizzazione spettrale. Tecnica che limita il valore singolare massimo dei pesi per stabilizzare l'addestramento delle GAN.
Squeeze-and-Excitation

Preferiti Vota permalink

Modulo squeeze-and-excitation. Componente che ripesa i canali di una feature map in base alla loro importanza globale.
SqueezeNet

Preferiti Vota permalink

Rete compatta. CNN che raggiunge accuratezza simile a reti più grandi con molti meno parametri grazie ai moduli fire.
Stochastic Depth

Preferiti Vota permalink

Profondità stocastica. Tecnica che salta casualmente interi blocchi durante il training per regolarizzare reti profonde.
Stride

Preferiti Vota permalink

Passo della convoluzione. Quantità di spostamento del kernel a ogni applicazione, che controlla la riduzione spaziale.
StyleGAN

Preferiti Vota permalink

GAN basata sullo stile. Architettura che controlla separatamente i tratti dell'immagine generata tramite uno spazio di stile.
Swish

Preferiti Vota permalink

Funzione di attivazione Swish. Non linearità liscia e auto-gated che spesso migliora le prestazioni rispetto a ReLU.
T
Teacher Forcing

Preferiti Vota permalink

Forzatura dell'insegnante. Tecnica di training che alimenta al decoder l'output corretto invece della sua previsione precedente.
Temperature Scaling

Preferiti Vota permalink

Scalatura della temperatura. Parametro che ammorbidisce o accentua le probabilità in uscita da un modello.
Transposed Convolution

Preferiti Vota permalink

Convoluzione trasposta. Operazione che aumenta la dimensione spaziale, usata per ricostruire o generare immagini.
Triplet Loss

Preferiti Vota permalink

Perdita a tripletta. Funzione che ordina ancora, esempio positivo e negativo per apprendere embedding discriminativi.
Triplet Network

Preferiti Vota permalink

Rete a tripletta. Architettura che elabora ancora, positivo e negativo per apprendere uno spazio di embedding.
U
U-Net

Preferiti Vota permalink

Rete a U per segmentazione. Architettura encoder-decoder con skip connection usata per segmentare immagini pixel per pixel.
U-Net (backbone diffusion)

Preferiti Vota permalink

Spina dorsale U-Net per diffusione. Rete a U usata nei modelli di diffusione per stimare il rumore da rimuovere a ogni passo.
V
VGG

Preferiti Vota permalink

Rete convoluzionale profonda. Architettura caratterizzata da molti layer convoluzionali piccoli 3x3 impilati in sequenza.
W
Wasserstein GAN (WGAN)

Preferiti Vota permalink

GAN di Wasserstein. Variante che usa la distanza di Wasserstein per stabilizzare l'addestramento.
Weight Averaging

Preferiti Vota permalink

Media dei pesi. Tecnica che combina i parametri di diverse fasi del training per ottenere un modello più robusto.
Weight Normalization

Preferiti Vota permalink

Normalizzazione dei pesi. Tecnica che riparametrizza i pesi separandone direzione e modulo per accelerare il training.
Weight Quantization

Preferiti Vota permalink

Quantizzazione dei pesi. Riduzione della precisione numerica dei pesi per diminuire memoria e accelerare l'inferenza.
Weight Sharing

Preferiti Vota permalink

Condivisione dei pesi. Riuso degli stessi parametri in più parti della rete per ridurre il numero di pesi.
Weight Tying

Preferiti Vota permalink

Condivisione dei pesi di embedding. Tecnica che usa la stessa matrice per embedding di input e proiezione di output.
X
Xception

Preferiti Vota permalink

Rete a convoluzioni estreme. Architettura che sostituisce i moduli Inception con convoluzioni separabili in profondità.

A

B

C

D

E

F

G

H

I

K

L

M

N

O

P

Q

R

S