Intelligenza Artificiale
Deep Learning
Reti neurali profonde: livelli, addestramento, backpropagation e architetture moderne. I termini del deep learning spiegati con chiarezza.
150 termini
-
A
-
Activation Checkpointing
Checkpoint delle attivazioni. Tecnica che salva solo alcune attivazioni e ricalcola le altre per risparmiare memoria. -
AdamW
Ottimizzatore AdamW. Variante di Adam che separa correttamente il weight decay dall'aggiornamento del gradiente. -
Adversarial Loss
Perdita avversaria. Termine che misura quanto bene il generatore inganna il discriminatore in una GAN. -
AlexNet
CNN pionieristica. Rete convoluzionale profonda che ha vinto ImageNet 2012 rilanciando il deep learning moderno. -
Attention Weights
Pesi di attenzione. Coefficienti che indicano quanto ogni elemento dell'input contribuisce a una data uscita. -
Autoregressive Model
Modello autoregressivo. Modello che genera una sequenza un elemento alla volta condizionandosi sui precedenti. -
Average Pooling
Pooling medio. Operazione che riduce la dimensione spaziale calcolando la media dei valori in ogni regione. -
B
-
Backpropagation Through Time (BPTT)
Retropropagazione nel tempo. Algoritmo che addestra le RNN srotolandole lungo la sequenza per calcolare i gradienti. -
Batch Inference
Inferenza in batch. Elaborazione di più input contemporaneamente per sfruttare meglio l'hardware durante la predizione. -
Beam Search
Ricerca a fascio. Strategia di decodifica che mantiene le sequenze candidate più probabili a ogni passo di generazione. -
C
-
Campo recettivo
Campo recettivo. Regione dell'input che influenza il valore di una singola unità in un layer profondo. -
Capsule Network
Rete a capsule. Architettura che rappresenta entità tramite gruppi di neuroni codificando proprietà come la posa. -
Catastrophic Forgetting
Oblio catastrofico. Fenomeno per cui una rete perde le competenze precedenti apprendendo un nuovo compito. -
Causal Masking
Mascheramento causale. Tecnica che impedisce a ogni posizione di guardare ai token futuri durante la generazione. -
Cell State
Stato di cella. Memoria a lungo termine di una LSTM che scorre attraverso i passi temporali con poche modifiche. -
Center Loss
Perdita di centro. Funzione che avvicina ogni rappresentazione al centro appreso della propria classe. -
Classifier-Free Guidance
Guida senza classificatore. Tecnica che orienta la generazione di un modello di diffusione verso un condizionamento desiderato. -
Conditional GAN (cGAN)
GAN condizionale. Variante che genera dati condizionati da un'etichetta o da informazioni aggiuntive. -
Context Vector
Vettore di contesto. Riassunto pesato dell'input prodotto dall'attenzione e usato per generare l'output. -
Contractive Autoencoder
Autoencoder contrattivo. Variante che penalizza la sensibilità della codifica alle piccole variazioni dell'input. -
Contrastive Learning
Apprendimento contrastivo. Metodo auto-supervisionato che apprende avvicinando viste simili e separando quelle diverse. -
Contrastive Loss
Perdita contrastiva. Funzione che avvicina rappresentazioni di esempi simili e allontana quelle di esempi diversi. -
Cosine Annealing
Ricottura a coseno. Schedulazione che riduce il learning rate seguendo una curva a coseno fino a un minimo. -
Cross-Attention
Attenzione incrociata. Meccanismo in cui le query provengono da una sequenza e chiavi e valori da un'altra. -
CutMix
Ritaglio e incollaggio. Tecnica che sostituisce una regione di un'immagine con quella di un'altra mescolando le etichette. -
CycleGAN
GAN ciclica. Modello che traduce immagini tra due domini senza coppie di esempi allineati. -
D
-
DCGAN
GAN convoluzionale profonda. Variante di GAN che usa layer convoluzionali per generare immagini realistiche. -
DDPM
Modello di diffusione probabilistica. Modello generativo che impara a invertire un processo graduale di aggiunta di rumore. -
Deep Belief Network (DBN)
Rete a credenza profonda. Modello generativo formato da più strati di unità latenti addestrati uno alla volta. -
Deformable Convolution
Convoluzione deformabile. Convoluzione che apprende offset spaziali per adattare la forma del campionamento all'oggetto. -
Denoising Autoencoder
Autoencoder che rimuove rumore. Modello addestrato a ricostruire dati puliti partendo da input corrotti. -
DenseNet
Rete densamente connessa. Architettura in cui ogni layer riceve in input le feature map di tutti i layer precedenti. -
Depthwise Separable Convolution
Convoluzione separabile in profondità. Convoluzione scomposta in fasi spaziale e per canale per ridurre il calcolo. -
Dice Loss
Perdita di Dice. Funzione usata in segmentazione che ottimizza la sovrapposizione tra predizione e maschera reale. -
Dilated Convolution
Convoluzione dilatata. Convoluzione con kernel spaziato che amplia il campo recettivo mantenendo la risoluzione. -
Dilation
Dilatazione del kernel. Spaziatura introdotta tra gli elementi del kernel per ampliare il campo recettivo senza più parametri. -
Discriminatore (GAN)
Discriminatore di una GAN. Rete che impara a distinguere i dati reali da quelli generati artificialmente. -
DropPath
Eliminazione di percorso. Regolarizzazione che disattiva casualmente rami residui durante l'addestramento. -
Dynamic Routing
Instradamento dinamico. Algoritmo che, nelle capsule network, decide quali capsule di basso livello attivano quelle superiori. -
E
-
EfficientNet
Rete scalata in modo bilanciato. CNN che scala in modo uniforme profondità, larghezza e risoluzione tramite un coefficiente unico. -
ELU
Unità lineare esponenziale. Funzione di attivazione che usa una curva esponenziale per i valori negativi accelerando la convergenza. -
Embedding Layer
Layer di embedding. Strato che trasforma indici discreti in vettori densi appresi durante il training. -
Embedding Space
Spazio degli embedding. Spazio vettoriale in cui gli elementi sono rappresentati così che la vicinanza rifletta la similarità. -
Encoder-Decoder
Architettura encoder-decoder. Struttura in cui un encoder comprime l'input e un decoder genera l'output a partire da esso. -
Energy-Based Model (EBM)
Modello basato sull'energia. Modello che assegna a ogni configurazione un'energia e preferisce quelle a energia minore. -
Exponential Moving Average (EMA)
Media mobile esponenziale dei pesi. Tecnica che mantiene una media smorzata dei parametri per stabilizzare l'inferenza. -
F
-
Feature Map
Mappa delle caratteristiche. Output di un layer convoluzionale che evidenzia la presenza di determinate caratteristiche. -
Feature Matching
Corrispondenza di caratteristiche. Tecnica che addestra il generatore a riprodurre statistiche intermedie dei dati reali. -
Feedforward Network
Rete feedforward. Componente del Transformer composta da due trasformazioni lineari con una non linearità intermedia. -
Fine-Tuning
Messa a punto. Fase in cui un modello pre-addestrato viene riaddestrato su un compito specifico con nuovi dati. -
Flash Attention
Attenzione efficiente in memoria. Implementazione dell'attenzione ottimizzata per ridurre accessi alla memoria e accelerare il calcolo. -
Focal Loss
Perdita focale. Funzione che riduce il peso degli esempi facili per concentrare il training su quelli difficili. -
Forward Diffusion
Diffusione in avanti. Processo che aggiunge progressivamente rumore ai dati fino a renderli puro rumore. -
G
-
Gate Mechanism
Meccanismo a gate. Componente che regola con valori tra zero e uno quanta informazione far passare nella rete. -
GELU
Funzione di attivazione GELU. Non linearità liscia usata nei Transformer che pesa gli input in modo probabilistico. -
Generatore (GAN)
Generatore di una GAN. Rete che produce dati sintetici cercando di ingannare il discriminatore. -
Global Average Pooling
Pooling medio globale. Operazione che riduce ogni feature map a un singolo valore mediando tutti i suoi elementi. -
GLU
Unità lineare con gate. Componente che modula il flusso di informazione moltiplicando un segnale per un gate appreso. -
GoogLeNet
Rete Inception originale. Architettura CNN profonda costruita impilando moduli Inception per ridurre i parametri. -
Gradient Accumulation
Accumulo del gradiente. Tecnica che somma i gradienti di più mini-batch per simulare batch più grandi con poca memoria. -
Gradient Checkpointing
Checkpoint del gradiente. Tecnica che ricalcola alcune attivazioni in backward per risparmiare memoria durante il training. -
Gradient Clipping
Taglio del gradiente. Tecnica che limita la norma del gradiente per evitare aggiornamenti instabili durante il training. -
Gradient Penalty
Penalità sul gradiente. Termine che vincola la norma del gradiente del discriminatore per stabilizzare le GAN. -
Graph Attention Network (GAT)
Rete di attenzione su grafi. GNN che pesa i contributi dei nodi vicini tramite un meccanismo di attenzione. -
Graph Convolution
Convoluzione su grafo. Operazione che aggiorna ogni nodo combinando le caratteristiche dei suoi vicini. -
Graph Neural Network (GNN)
Rete neurale su grafi. Modello che apprende rappresentazioni propagando informazioni tra i nodi connessi di un grafo. -
Greedy Decoding
Decodifica avida. Strategia che sceglie a ogni passo il token più probabile senza considerare alternative future. -
Group Normalization
Normalizzazione a gruppi. Tecnica che normalizza le attivazioni dividendo i canali in gruppi, indipendente dalla dimensione del batch. -
GRU
Unità ricorrente con gate. Variante semplificata della LSTM con meno gate ma prestazioni spesso comparabili. -
H
-
Highway Network
Rete autostradale. Architettura profonda con gate che regolano quanta informazione attraversa o salta ogni layer. -
I
-
Inception Module
Modulo Inception. Blocco che applica convoluzioni di dimensioni diverse in parallelo e ne concatena gli output. -
Instance Normalization
Normalizzazione per istanza. Tecnica che normalizza ogni canale di ogni esempio separatamente, utile nel trasferimento di stile. -
K
-
Kernel
Nucleo convoluzionale. Piccola matrice di pesi che scorre sull'input per estrarre caratteristiche locali. -
KL Divergence Loss
Perdita di divergenza KL. Termine che misura quanto la distribuzione latente si discosta da quella attesa nei VAE. -
Knowledge Distillation Loss
Perdita di distillazione. Termine che addestra un modello piccolo a imitare le uscite morbide di uno più grande. -
KV Cache
Cache di chiavi e valori. Memoria che conserva chiavi e valori già calcolati per velocizzare la generazione autoregressiva. -
L
-
Label Smoothing
Levigatura delle etichette. Tecnica che ammorbidisce i target one-hot per ridurre l'eccessiva sicurezza del modello. -
LAMB
Ottimizzatore LAMB. Metodo pensato per il training con batch molto grandi adattando il learning rate per layer. -
Latent Diffusion
Diffusione nello spazio latente. Modello che esegue la diffusione su rappresentazioni compresse anziché sui pixel grezzi. -
Layer Normalization
Normalizzazione per layer. Tecnica che normalizza le attivazioni di un singolo esempio lungo le feature. -
Leaky ReLU
ReLU con perdita. Variante di ReLU che lascia passare una piccola pendenza per i valori negativi evitando neuroni morti. -
Learning Rate Warmup
Riscaldamento del learning rate. Fase iniziale in cui il tasso di apprendimento cresce gradualmente per stabilizzare il training. -
LeNet
CNN storica. Prima architettura convoluzionale di successo, progettata per riconoscere cifre scritte a mano. -
Logits
Logit. Valori grezzi prodotti dall'ultimo layer prima della trasformazione in probabilità. -
Lookahead
Ottimizzatore Lookahead. Metodo che combina pesi veloci e lenti per stabilizzare la traiettoria di ottimizzazione. -
LSTM
Memoria a lungo termine. Variante di RNN con gate che permettono di ricordare informazioni su lunghe sequenze. -
M
-
Masked Autoencoder (MAE)
Autoencoder mascherato. Modello che ricostruisce porzioni nascoste dell'input per apprendere rappresentazioni robuste. -
Max Pooling
Pooling massimo. Operazione che riduce la dimensione spaziale selezionando il valore massimo in ogni regione. -
Maxout
Unità maxout. Layer che restituisce il massimo tra più trasformazioni lineari, capace di approssimare varie attivazioni. -
Meccanismo di attenzione
Meccanismo di attenzione. Tecnica che pesa diverse parti dell'input in base alla loro rilevanza per il compito. -
Message Passing
Passaggio di messaggi. Schema in cui i nodi di un grafo si scambiano e aggregano informazioni per aggiornare i propri stati. -
Mish
Funzione di attivazione Mish. Non linearità liscia e non monotona che può migliorare accuratezza e stabilità del training. -
Mixed Precision Training
Addestramento a precisione mista. Tecnica che usa numeri a 16 bit per velocizzare il training riducendo la memoria. -
Mixup
Mescolamento di esempi. Tecnica che crea esempi di training combinando linearmente coppie di input e relative etichette. -
MobileNet
Rete leggera per mobile. CNN efficiente che usa convoluzioni separabili in profondità per ridurre calcolo e parametri. -
Mode Collapse
Collasso dei modi. Problema in cui il generatore di una GAN produce output poco vari ignorando parte della distribuzione. -
Multi-Head Attention
Attenzione a teste multiple. Più meccanismi di attenzione paralleli che catturano relazioni diverse nello stesso input. -
N
-
Nadam
Ottimizzatore Nadam. Variante di Adam che incorpora il momento di Nesterov per aggiornamenti più reattivi. -
Neural ODE
Equazione differenziale neurale. Modello che definisce la trasformazione degli stati come soluzione di un'equazione continua. -
Node Embedding
Embedding di nodo. Rappresentazione vettoriale di un nodo che ne cattura ruolo e contesto nel grafo. -
Noise Schedule
Schedulazione del rumore. Funzione che definisce quanto rumore viene aggiunto a ogni passo del processo di diffusione. -
Normalizing Flow
Flusso normalizzante. Modello generativo che trasforma una distribuzione semplice in una complessa con funzioni invertibili. -
O
-
One-Cycle Policy
Politica a un ciclo. Strategia che fa crescere e poi calare il learning rate in un unico ciclo per training rapido. -
P
-
Padding
Riempimento dei bordi. Aggiunta di valori ai margini dell'input per controllare la dimensione dell'output convoluzionale. -
Parametric ReLU (PReLU)
ReLU parametrica. Variante di ReLU in cui la pendenza per i valori negativi viene appresa durante il training. -
Perceptual Loss
Perdita percettiva. Funzione di costo che confronta caratteristiche estratte da una rete invece dei pixel grezzi. -
Pointwise Convolution
Convoluzione puntuale. Convoluzione 1x1 che combina i canali senza considerare la dimensione spaziale. -
Positional Encoding
Codifica posizionale. Informazione aggiunta agli embedding per indicare la posizione di ogni elemento nella sequenza. -
Q
-
Query-Key-Value
Query chiave valore. Tre proiezioni dell'input usate per calcolare i pesi di attenzione nei Transformer. -
R
-
Recurrent Neural Network (RNN)
Rete neurale ricorrente. Modello che elabora sequenze mantenendo uno stato interno aggiornato a ogni passo temporale. -
Reparameterization Trick
Trucco di riparametrizzazione. Tecnica che rende derivabile il campionamento nei VAE separando rumore e parametri. -
Residual Block
Blocco residuale. Modulo che somma l'input all'output di alcuni layer, facilitando il flusso del gradiente. -
ResNet
Rete residuale profonda. Architettura CNN che usa connessioni residue per addestrare reti molto profonde senza degradare le prestazioni. -
Restricted Boltzmann Machine (RBM)
Macchina di Boltzmann ristretta. Rete generativa a due strati che apprende una distribuzione di probabilità sui dati. -
Reverse Diffusion
Diffusione inversa. Processo appreso che rimuove gradualmente il rumore per generare un dato realistico. -
RNN bidirezionale
RNN bidirezionale. Rete ricorrente che elabora la sequenza in entrambe le direzioni per usare contesto passato e futuro. -
Rotary Positional Embedding (RoPE)
Codifica posizionale rotatoria. Tecnica che codifica la posizione ruotando gli embedding nello spazio dei vettori. -
S
-
Scaled Dot-Product Attention
Attenzione a prodotto scalato. Calcolo dell'attenzione tramite prodotti scalari tra query e chiavi, normalizzati per stabilità. -
Self-Attention
Auto-attenzione. Meccanismo in cui ogni elemento di una sequenza valuta la propria relazione con tutti gli altri elementi. -
Self-Supervised Pretraining
Pre-addestramento auto-supervisionato. Fase in cui il modello apprende da dati non etichettati creando compiti pretesto. -
Seq2Seq
Modello da sequenza a sequenza. Architettura che trasforma una sequenza di input in una sequenza di output di lunghezza variabile. -
Sequence Padding
Riempimento di sequenza. Aggiunta di token fittizi per uniformare la lunghezza delle sequenze in un batch. -
Siamese Network
Rete siamese. Architettura con due rami a pesi condivisi che confronta coppie di input per misurarne la similarità. -
Skip Connection
Connessione di salto. Collegamento che bypassa uno o più layer portando l'input direttamente più avanti nella rete. -
Soft Labels
Etichette morbide. Probabilità continue prodotte da un modello insegnante usate per addestrare un modello più piccolo. -
Sparse Attention
Attenzione sparsa. Variante che calcola l'attenzione solo su un sottoinsieme di posizioni per ridurre il costo. -
Sparse Autoencoder
Autoencoder sparso. Variante che vincola poche unità latenti a essere attive per apprendere rappresentazioni compatte. -
Spectral Normalization
Normalizzazione spettrale. Tecnica che limita il valore singolare massimo dei pesi per stabilizzare l'addestramento delle GAN. -
Squeeze-and-Excitation
Modulo squeeze-and-excitation. Componente che ripesa i canali di una feature map in base alla loro importanza globale. -
SqueezeNet
Rete compatta. CNN che raggiunge accuratezza simile a reti più grandi con molti meno parametri grazie ai moduli fire. -
Stochastic Depth
Profondità stocastica. Tecnica che salta casualmente interi blocchi durante il training per regolarizzare reti profonde. -
Stride
Passo della convoluzione. Quantità di spostamento del kernel a ogni applicazione, che controlla la riduzione spaziale. -
StyleGAN
GAN basata sullo stile. Architettura che controlla separatamente i tratti dell'immagine generata tramite uno spazio di stile. -
Swish
Funzione di attivazione Swish. Non linearità liscia e auto-gated che spesso migliora le prestazioni rispetto a ReLU. -
T
-
Teacher Forcing
Forzatura dell'insegnante. Tecnica di training che alimenta al decoder l'output corretto invece della sua previsione precedente. -
Temperature Scaling
Scalatura della temperatura. Parametro che ammorbidisce o accentua le probabilità in uscita da un modello. -
Transposed Convolution
Convoluzione trasposta. Operazione che aumenta la dimensione spaziale, usata per ricostruire o generare immagini. -
Triplet Loss
Perdita a tripletta. Funzione che ordina ancora, esempio positivo e negativo per apprendere embedding discriminativi. -
Triplet Network
Rete a tripletta. Architettura che elabora ancora, positivo e negativo per apprendere uno spazio di embedding. -
U
-
U-Net
Rete a U per segmentazione. Architettura encoder-decoder con skip connection usata per segmentare immagini pixel per pixel. -
U-Net (backbone diffusion)
Spina dorsale U-Net per diffusione. Rete a U usata nei modelli di diffusione per stimare il rumore da rimuovere a ogni passo. -
V
-
VGG
Rete convoluzionale profonda. Architettura caratterizzata da molti layer convoluzionali piccoli 3x3 impilati in sequenza. -
W
-
Wasserstein GAN (WGAN)
GAN di Wasserstein. Variante che usa la distanza di Wasserstein per stabilizzare l'addestramento. -
Weight Averaging
Media dei pesi. Tecnica che combina i parametri di diverse fasi del training per ottenere un modello più robusto. -
Weight Normalization
Normalizzazione dei pesi. Tecnica che riparametrizza i pesi separandone direzione e modulo per accelerare il training. -
Weight Quantization
Quantizzazione dei pesi. Riduzione della precisione numerica dei pesi per diminuire memoria e accelerare l'inferenza. -
Weight Sharing
Condivisione dei pesi. Riuso degli stessi parametri in più parti della rete per ridurre il numero di pesi. -
Weight Tying
Condivisione dei pesi di embedding. Tecnica che usa la stessa matrice per embedding di input e proiezione di output. -
X
-
Xception
Rete a convoluzioni estreme. Architettura che sostituisce i moduli Inception con convoluzioni separabili in profondità.