Glossario di Deep Learning: 150 voci spiegate con chiarezza

Intelligenza Artificiale

Deep Learning

Reti neurali profonde: livelli, addestramento, backpropagation e architetture moderne. I termini del deep learning spiegati con chiarezza.

150 termini

  • A

  • Activation Checkpointing

    Checkpoint delle attivazioni. Tecnica che salva solo alcune attivazioni e ricalcola le altre per risparmiare memoria.
  • AdamW

    Ottimizzatore AdamW. Variante di Adam che separa correttamente il weight decay dall'aggiornamento del gradiente.
  • Adversarial Loss

    Perdita avversaria. Termine che misura quanto bene il generatore inganna il discriminatore in una GAN.
  • AlexNet

    CNN pionieristica. Rete convoluzionale profonda che ha vinto ImageNet 2012 rilanciando il deep learning moderno.
  • Attention Weights

    Pesi di attenzione. Coefficienti che indicano quanto ogni elemento dell'input contribuisce a una data uscita.
  • Autoregressive Model

    Modello autoregressivo. Modello che genera una sequenza un elemento alla volta condizionandosi sui precedenti.
  • Average Pooling

    Pooling medio. Operazione che riduce la dimensione spaziale calcolando la media dei valori in ogni regione.
  • B

  • Backpropagation Through Time (BPTT)

    Retropropagazione nel tempo. Algoritmo che addestra le RNN srotolandole lungo la sequenza per calcolare i gradienti.
  • Batch Inference

    Inferenza in batch. Elaborazione di più input contemporaneamente per sfruttare meglio l'hardware durante la predizione.
  • C

  • Campo recettivo

    Campo recettivo. Regione dell'input che influenza il valore di una singola unità in un layer profondo.
  • Capsule Network

    Rete a capsule. Architettura che rappresenta entità tramite gruppi di neuroni codificando proprietà come la posa.
  • Catastrophic Forgetting

    Oblio catastrofico. Fenomeno per cui una rete perde le competenze precedenti apprendendo un nuovo compito.
  • Causal Masking

    Mascheramento causale. Tecnica che impedisce a ogni posizione di guardare ai token futuri durante la generazione.
  • Cell State

    Stato di cella. Memoria a lungo termine di una LSTM che scorre attraverso i passi temporali con poche modifiche.
  • Center Loss

    Perdita di centro. Funzione che avvicina ogni rappresentazione al centro appreso della propria classe.
  • Classifier-Free Guidance

    Guida senza classificatore. Tecnica che orienta la generazione di un modello di diffusione verso un condizionamento desiderato.
  • Conditional GAN (cGAN)

    GAN condizionale. Variante che genera dati condizionati da un'etichetta o da informazioni aggiuntive.
  • Context Vector

    Vettore di contesto. Riassunto pesato dell'input prodotto dall'attenzione e usato per generare l'output.
  • Contractive Autoencoder

    Autoencoder contrattivo. Variante che penalizza la sensibilità della codifica alle piccole variazioni dell'input.
  • Contrastive Learning

    Apprendimento contrastivo. Metodo auto-supervisionato che apprende avvicinando viste simili e separando quelle diverse.
  • Contrastive Loss

    Perdita contrastiva. Funzione che avvicina rappresentazioni di esempi simili e allontana quelle di esempi diversi.
  • Cosine Annealing

    Ricottura a coseno. Schedulazione che riduce il learning rate seguendo una curva a coseno fino a un minimo.
  • Cross-Attention

    Attenzione incrociata. Meccanismo in cui le query provengono da una sequenza e chiavi e valori da un'altra.
  • CutMix

    Ritaglio e incollaggio. Tecnica che sostituisce una regione di un'immagine con quella di un'altra mescolando le etichette.
  • CycleGAN

    GAN ciclica. Modello che traduce immagini tra due domini senza coppie di esempi allineati.
  • D

  • DCGAN

    GAN convoluzionale profonda. Variante di GAN che usa layer convoluzionali per generare immagini realistiche.
  • DDPM

    Modello di diffusione probabilistica. Modello generativo che impara a invertire un processo graduale di aggiunta di rumore.
  • Deep Belief Network (DBN)

    Rete a credenza profonda. Modello generativo formato da più strati di unità latenti addestrati uno alla volta.
  • Deformable Convolution

    Convoluzione deformabile. Convoluzione che apprende offset spaziali per adattare la forma del campionamento all'oggetto.
  • Denoising Autoencoder

    Autoencoder che rimuove rumore. Modello addestrato a ricostruire dati puliti partendo da input corrotti.
  • DenseNet

    Rete densamente connessa. Architettura in cui ogni layer riceve in input le feature map di tutti i layer precedenti.
  • Depthwise Separable Convolution

    Convoluzione separabile in profondità. Convoluzione scomposta in fasi spaziale e per canale per ridurre il calcolo.
  • Dice Loss

    Perdita di Dice. Funzione usata in segmentazione che ottimizza la sovrapposizione tra predizione e maschera reale.
  • Dilated Convolution

    Convoluzione dilatata. Convoluzione con kernel spaziato che amplia il campo recettivo mantenendo la risoluzione.
  • Dilation

    Dilatazione del kernel. Spaziatura introdotta tra gli elementi del kernel per ampliare il campo recettivo senza più parametri.
  • Discriminatore (GAN)

    Discriminatore di una GAN. Rete che impara a distinguere i dati reali da quelli generati artificialmente.
  • DropPath

    Eliminazione di percorso. Regolarizzazione che disattiva casualmente rami residui durante l'addestramento.
  • Dynamic Routing

    Instradamento dinamico. Algoritmo che, nelle capsule network, decide quali capsule di basso livello attivano quelle superiori.
  • E

  • EfficientNet

    Rete scalata in modo bilanciato. CNN che scala in modo uniforme profondità, larghezza e risoluzione tramite un coefficiente unico.
  • ELU

    Unità lineare esponenziale. Funzione di attivazione che usa una curva esponenziale per i valori negativi accelerando la convergenza.
  • Embedding Layer

    Layer di embedding. Strato che trasforma indici discreti in vettori densi appresi durante il training.
  • Embedding Space

    Spazio degli embedding. Spazio vettoriale in cui gli elementi sono rappresentati così che la vicinanza rifletta la similarità.
  • Encoder-Decoder

    Architettura encoder-decoder. Struttura in cui un encoder comprime l'input e un decoder genera l'output a partire da esso.
  • Energy-Based Model (EBM)

    Modello basato sull'energia. Modello che assegna a ogni configurazione un'energia e preferisce quelle a energia minore.
  • Exponential Moving Average (EMA)

    Media mobile esponenziale dei pesi. Tecnica che mantiene una media smorzata dei parametri per stabilizzare l'inferenza.
  • F

  • Feature Map

    Mappa delle caratteristiche. Output di un layer convoluzionale che evidenzia la presenza di determinate caratteristiche.
  • Feature Matching

    Corrispondenza di caratteristiche. Tecnica che addestra il generatore a riprodurre statistiche intermedie dei dati reali.
  • Feedforward Network

    Rete feedforward. Componente del Transformer composta da due trasformazioni lineari con una non linearità intermedia.
  • Fine-Tuning

    Messa a punto. Fase in cui un modello pre-addestrato viene riaddestrato su un compito specifico con nuovi dati.
  • Flash Attention

    Attenzione efficiente in memoria. Implementazione dell'attenzione ottimizzata per ridurre accessi alla memoria e accelerare il calcolo.
  • Focal Loss

    Perdita focale. Funzione che riduce il peso degli esempi facili per concentrare il training su quelli difficili.
  • Forward Diffusion

    Diffusione in avanti. Processo che aggiunge progressivamente rumore ai dati fino a renderli puro rumore.
  • G

  • Gate Mechanism

    Meccanismo a gate. Componente che regola con valori tra zero e uno quanta informazione far passare nella rete.
  • GELU

    Funzione di attivazione GELU. Non linearità liscia usata nei Transformer che pesa gli input in modo probabilistico.
  • Generatore (GAN)

    Generatore di una GAN. Rete che produce dati sintetici cercando di ingannare il discriminatore.
  • Global Average Pooling

    Pooling medio globale. Operazione che riduce ogni feature map a un singolo valore mediando tutti i suoi elementi.
  • GLU

    Unità lineare con gate. Componente che modula il flusso di informazione moltiplicando un segnale per un gate appreso.
  • GoogLeNet

    Rete Inception originale. Architettura CNN profonda costruita impilando moduli Inception per ridurre i parametri.
  • Gradient Accumulation

    Accumulo del gradiente. Tecnica che somma i gradienti di più mini-batch per simulare batch più grandi con poca memoria.
  • Gradient Checkpointing

    Checkpoint del gradiente. Tecnica che ricalcola alcune attivazioni in backward per risparmiare memoria durante il training.
  • Gradient Clipping

    Taglio del gradiente. Tecnica che limita la norma del gradiente per evitare aggiornamenti instabili durante il training.
  • Gradient Penalty

    Penalità sul gradiente. Termine che vincola la norma del gradiente del discriminatore per stabilizzare le GAN.
  • Graph Attention Network (GAT)

    Rete di attenzione su grafi. GNN che pesa i contributi dei nodi vicini tramite un meccanismo di attenzione.
  • Graph Convolution

    Convoluzione su grafo. Operazione che aggiorna ogni nodo combinando le caratteristiche dei suoi vicini.
  • Graph Neural Network (GNN)

    Rete neurale su grafi. Modello che apprende rappresentazioni propagando informazioni tra i nodi connessi di un grafo.
  • Greedy Decoding

    Decodifica avida. Strategia che sceglie a ogni passo il token più probabile senza considerare alternative future.
  • Group Normalization

    Normalizzazione a gruppi. Tecnica che normalizza le attivazioni dividendo i canali in gruppi, indipendente dalla dimensione del batch.
  • GRU

    Unità ricorrente con gate. Variante semplificata della LSTM con meno gate ma prestazioni spesso comparabili.
  • H

  • Hidden State

    Stato nascosto. Rappresentazione interna che una rete mantiene e aggiorna mentre elabora una sequenza.
  • Highway Network

    Rete autostradale. Architettura profonda con gate che regolano quanta informazione attraversa o salta ogni layer.
  • I

  • Inception Module

    Modulo Inception. Blocco che applica convoluzioni di dimensioni diverse in parallelo e ne concatena gli output.
  • Instance Normalization

    Normalizzazione per istanza. Tecnica che normalizza ogni canale di ogni esempio separatamente, utile nel trasferimento di stile.
  • K

  • Kernel

    Nucleo convoluzionale. Piccola matrice di pesi che scorre sull'input per estrarre caratteristiche locali.
  • KL Divergence Loss

    Perdita di divergenza KL. Termine che misura quanto la distribuzione latente si discosta da quella attesa nei VAE.
  • Knowledge Distillation Loss

    Perdita di distillazione. Termine che addestra un modello piccolo a imitare le uscite morbide di uno più grande.
  • KV Cache

    Cache di chiavi e valori. Memoria che conserva chiavi e valori già calcolati per velocizzare la generazione autoregressiva.
  • L

  • Label Smoothing

    Levigatura delle etichette. Tecnica che ammorbidisce i target one-hot per ridurre l'eccessiva sicurezza del modello.
  • LAMB

    Ottimizzatore LAMB. Metodo pensato per il training con batch molto grandi adattando il learning rate per layer.
  • Latent Diffusion

    Diffusione nello spazio latente. Modello che esegue la diffusione su rappresentazioni compresse anziché sui pixel grezzi.
  • Layer Normalization

    Normalizzazione per layer. Tecnica che normalizza le attivazioni di un singolo esempio lungo le feature.
  • Leaky ReLU

    ReLU con perdita. Variante di ReLU che lascia passare una piccola pendenza per i valori negativi evitando neuroni morti.
  • Learning Rate Warmup

    Riscaldamento del learning rate. Fase iniziale in cui il tasso di apprendimento cresce gradualmente per stabilizzare il training.
  • LeNet

    CNN storica. Prima architettura convoluzionale di successo, progettata per riconoscere cifre scritte a mano.
  • Logits

    Logit. Valori grezzi prodotti dall'ultimo layer prima della trasformazione in probabilità.
  • Lookahead

    Ottimizzatore Lookahead. Metodo che combina pesi veloci e lenti per stabilizzare la traiettoria di ottimizzazione.
  • LSTM

    Memoria a lungo termine. Variante di RNN con gate che permettono di ricordare informazioni su lunghe sequenze.
  • M

  • Masked Autoencoder (MAE)

    Autoencoder mascherato. Modello che ricostruisce porzioni nascoste dell'input per apprendere rappresentazioni robuste.
  • Max Pooling

    Pooling massimo. Operazione che riduce la dimensione spaziale selezionando il valore massimo in ogni regione.
  • Maxout

    Unità maxout. Layer che restituisce il massimo tra più trasformazioni lineari, capace di approssimare varie attivazioni.
  • Meccanismo di attenzione

    Meccanismo di attenzione. Tecnica che pesa diverse parti dell'input in base alla loro rilevanza per il compito.
  • Message Passing

    Passaggio di messaggi. Schema in cui i nodi di un grafo si scambiano e aggregano informazioni per aggiornare i propri stati.
  • Mish

    Funzione di attivazione Mish. Non linearità liscia e non monotona che può migliorare accuratezza e stabilità del training.
  • Mixed Precision Training

    Addestramento a precisione mista. Tecnica che usa numeri a 16 bit per velocizzare il training riducendo la memoria.
  • Mixup

    Mescolamento di esempi. Tecnica che crea esempi di training combinando linearmente coppie di input e relative etichette.
  • MobileNet

    Rete leggera per mobile. CNN efficiente che usa convoluzioni separabili in profondità per ridurre calcolo e parametri.
  • Mode Collapse

    Collasso dei modi. Problema in cui il generatore di una GAN produce output poco vari ignorando parte della distribuzione.
  • Multi-Head Attention

    Attenzione a teste multiple. Più meccanismi di attenzione paralleli che catturano relazioni diverse nello stesso input.
  • N

  • Nadam

    Ottimizzatore Nadam. Variante di Adam che incorpora il momento di Nesterov per aggiornamenti più reattivi.
  • Neural ODE

    Equazione differenziale neurale. Modello che definisce la trasformazione degli stati come soluzione di un'equazione continua.
  • Node Embedding

    Embedding di nodo. Rappresentazione vettoriale di un nodo che ne cattura ruolo e contesto nel grafo.
  • Noise Schedule

    Schedulazione del rumore. Funzione che definisce quanto rumore viene aggiunto a ogni passo del processo di diffusione.
  • Normalizing Flow

    Flusso normalizzante. Modello generativo che trasforma una distribuzione semplice in una complessa con funzioni invertibili.
  • O

  • One-Cycle Policy

    Politica a un ciclo. Strategia che fa crescere e poi calare il learning rate in un unico ciclo per training rapido.
  • P

  • Padding

    Riempimento dei bordi. Aggiunta di valori ai margini dell'input per controllare la dimensione dell'output convoluzionale.
  • Parametric ReLU (PReLU)

    ReLU parametrica. Variante di ReLU in cui la pendenza per i valori negativi viene appresa durante il training.
  • Perceptual Loss

    Perdita percettiva. Funzione di costo che confronta caratteristiche estratte da una rete invece dei pixel grezzi.
  • Pointwise Convolution

    Convoluzione puntuale. Convoluzione 1x1 che combina i canali senza considerare la dimensione spaziale.
  • Positional Encoding

    Codifica posizionale. Informazione aggiunta agli embedding per indicare la posizione di ogni elemento nella sequenza.
  • Q

  • Query-Key-Value

    Query chiave valore. Tre proiezioni dell'input usate per calcolare i pesi di attenzione nei Transformer.
  • R

  • Recurrent Neural Network (RNN)

    Rete neurale ricorrente. Modello che elabora sequenze mantenendo uno stato interno aggiornato a ogni passo temporale.
  • Reparameterization Trick

    Trucco di riparametrizzazione. Tecnica che rende derivabile il campionamento nei VAE separando rumore e parametri.
  • Residual Block

    Blocco residuale. Modulo che somma l'input all'output di alcuni layer, facilitando il flusso del gradiente.
  • ResNet

    Rete residuale profonda. Architettura CNN che usa connessioni residue per addestrare reti molto profonde senza degradare le prestazioni.
  • Restricted Boltzmann Machine (RBM)

    Macchina di Boltzmann ristretta. Rete generativa a due strati che apprende una distribuzione di probabilità sui dati.
  • Reverse Diffusion

    Diffusione inversa. Processo appreso che rimuove gradualmente il rumore per generare un dato realistico.
  • RNN bidirezionale

    RNN bidirezionale. Rete ricorrente che elabora la sequenza in entrambe le direzioni per usare contesto passato e futuro.
  • Rotary Positional Embedding (RoPE)

    Codifica posizionale rotatoria. Tecnica che codifica la posizione ruotando gli embedding nello spazio dei vettori.
  • S

  • Scaled Dot-Product Attention

    Attenzione a prodotto scalato. Calcolo dell'attenzione tramite prodotti scalari tra query e chiavi, normalizzati per stabilità.
  • Self-Attention

    Auto-attenzione. Meccanismo in cui ogni elemento di una sequenza valuta la propria relazione con tutti gli altri elementi.
  • Self-Supervised Pretraining

    Pre-addestramento auto-supervisionato. Fase in cui il modello apprende da dati non etichettati creando compiti pretesto.
  • Seq2Seq

    Modello da sequenza a sequenza. Architettura che trasforma una sequenza di input in una sequenza di output di lunghezza variabile.
  • Sequence Padding

    Riempimento di sequenza. Aggiunta di token fittizi per uniformare la lunghezza delle sequenze in un batch.
  • Siamese Network

    Rete siamese. Architettura con due rami a pesi condivisi che confronta coppie di input per misurarne la similarità.
  • Skip Connection

    Connessione di salto. Collegamento che bypassa uno o più layer portando l'input direttamente più avanti nella rete.
  • Soft Labels

    Etichette morbide. Probabilità continue prodotte da un modello insegnante usate per addestrare un modello più piccolo.
  • Sparse Attention

    Attenzione sparsa. Variante che calcola l'attenzione solo su un sottoinsieme di posizioni per ridurre il costo.
  • Sparse Autoencoder

    Autoencoder sparso. Variante che vincola poche unità latenti a essere attive per apprendere rappresentazioni compatte.
  • Spectral Normalization

    Normalizzazione spettrale. Tecnica che limita il valore singolare massimo dei pesi per stabilizzare l'addestramento delle GAN.
  • Squeeze-and-Excitation

    Modulo squeeze-and-excitation. Componente che ripesa i canali di una feature map in base alla loro importanza globale.
  • SqueezeNet

    Rete compatta. CNN che raggiunge accuratezza simile a reti più grandi con molti meno parametri grazie ai moduli fire.
  • Stochastic Depth

    Profondità stocastica. Tecnica che salta casualmente interi blocchi durante il training per regolarizzare reti profonde.
  • Stride

    Passo della convoluzione. Quantità di spostamento del kernel a ogni applicazione, che controlla la riduzione spaziale.
  • StyleGAN

    GAN basata sullo stile. Architettura che controlla separatamente i tratti dell'immagine generata tramite uno spazio di stile.
  • Swish

    Funzione di attivazione Swish. Non linearità liscia e auto-gated che spesso migliora le prestazioni rispetto a ReLU.
  • T

  • Teacher Forcing

    Forzatura dell'insegnante. Tecnica di training che alimenta al decoder l'output corretto invece della sua previsione precedente.
  • Temperature Scaling

    Scalatura della temperatura. Parametro che ammorbidisce o accentua le probabilità in uscita da un modello.
  • Transposed Convolution

    Convoluzione trasposta. Operazione che aumenta la dimensione spaziale, usata per ricostruire o generare immagini.
  • Triplet Loss

    Perdita a tripletta. Funzione che ordina ancora, esempio positivo e negativo per apprendere embedding discriminativi.
  • Triplet Network

    Rete a tripletta. Architettura che elabora ancora, positivo e negativo per apprendere uno spazio di embedding.
  • U

  • U-Net

    Rete a U per segmentazione. Architettura encoder-decoder con skip connection usata per segmentare immagini pixel per pixel.
  • U-Net (backbone diffusion)

    Spina dorsale U-Net per diffusione. Rete a U usata nei modelli di diffusione per stimare il rumore da rimuovere a ogni passo.
  • V

  • VGG

    Rete convoluzionale profonda. Architettura caratterizzata da molti layer convoluzionali piccoli 3x3 impilati in sequenza.
  • W

  • Wasserstein GAN (WGAN)

    GAN di Wasserstein. Variante che usa la distanza di Wasserstein per stabilizzare l'addestramento.
  • Weight Averaging

    Media dei pesi. Tecnica che combina i parametri di diverse fasi del training per ottenere un modello più robusto.
  • Weight Normalization

    Normalizzazione dei pesi. Tecnica che riparametrizza i pesi separandone direzione e modulo per accelerare il training.
  • Weight Quantization

    Quantizzazione dei pesi. Riduzione della precisione numerica dei pesi per diminuire memoria e accelerare l'inferenza.
  • Weight Sharing

    Condivisione dei pesi. Riuso degli stessi parametri in più parti della rete per ridurre il numero di pesi.
  • Weight Tying

    Condivisione dei pesi di embedding. Tecnica che usa la stessa matrice per embedding di input e proiezione di output.
  • X

  • Xception

    Rete a convoluzioni estreme. Architettura che sostituisce i moduli Inception con convoluzioni separabili in profondità.
1.500
Termini pubblicati
10
Glossari verticali
5
Aree tematiche
69
Tag tematici

Preferenze cookie

Gestisci i cookie usati su Glossario Italiano. Puoi modificare le preferenze in qualsiasi momento dal link "Gestisci preferenze" in fondo a ogni pagina.

  • Necessari
    Login, sicurezza (CSRF), preferenze cookie. Sempre attivi.
    Sempre on
  • Statistici
    Misurano in forma aggregata come viene usato il sito. Nessun profilo personale.
  • Marketing
    Cookie di reti pubblicitarie esterne, se attivati in futuro. Oggi GLS non usa script di terze parti e i nostri sponsor sono editoriali, non profilano.