Intelligenza Artificiale
Machine Learning
Termini chiave del machine learning: algoritmi supervisionati e non supervisionati, reti neurali, training, overfitting e tecniche di feature engineering.
150 termini su 300 previsti
-
A
-
Accuracy
Percentuale di previsioni corrette sul totale. Semplice ma fuorviante quando le classi sono molto sbilanciate. -
Active Learning
Strategia in cui il modello sceglie quali esempi far etichettare, puntando ai più informativi. Ottimizza l’uso del lavoro umano di annotazione. -
AdaBoost
Algoritmo di boosting che dà più peso agli esempi sbagliati a ogni passo. Combina modelli deboli in uno forte. -
Adam Optimizer
Algoritmo di ottimizzazione che adatta il learning rate per ogni peso combinando momentum e scala dei gradienti. Molto usato di default. -
Albero decisionale
Modello che prende decisioni seguendo una serie di domande a cascata sui dati. Intuitivo e leggibile, ma soggetto a overfitting se troppo profondo. -
Algoritmo
Procedura di apprendimento. Insieme di regole che guidano l’addestramento del modello. -
Anomaly Detection
Individuazione di dati che si discostano dal comportamento normale. Usata per frodi, guasti e intrusioni. -
Apprendimento auto-supervisionato
Tecnica in cui il modello genera da solo le etichette dai dati, ad esempio prevedendo parti nascoste dell’input. Sfrutta enormi quantità di dati grezzi. -
Apprendimento non supervisionato
Tecnica in cui il modello cerca schemi e raggruppamenti in dati privi di etichette. Trova struttura senza sapere in anticipo la risposta corretta. -
Apprendimento per rinforzo
Paradigma in cui un agente impara per tentativi, ricevendo premi o penalità in base alle azioni. Punta a massimizzare la ricompensa nel tempo. -
Apprendimento semi-supervisionato
Approccio che combina pochi dati etichettati con molti non etichettati. Riduce il costoso lavoro di etichettatura mantenendo buone prestazioni. -
Apprendimento supervisionato
Training con etichette. Metodo in cui i dati sono accompagnati da risposte corrette. -
AUC
Area sotto la curva ROC, che riassume in un valore la capacità del modello di distinguere le classi. Più è vicina a 1, meglio è. -
B
-
Backpropagation
Ottimizzazione degli errori. Algoritmo che aggiorna i pesi delle reti neurali minimizzando l’errore. -
Bagging
Tecnica ensemble che addestra modelli su campioni casuali dei dati e ne media i risultati. Riduce la varianza e l’overfitting. -
Baseline Model
Modello semplice di riferimento con cui confrontare quelli più complessi. Se non lo si batte, la complessità non è giustificata. -
Batch Normalization
Tecnica che normalizza le attivazioni interne di una rete durante l’addestramento. Accelera la convergenza e stabilizza il training. -
Batch Size
Numero di esempi per iterazione. Quantità di dati processati prima di aggiornare i pesi. -
Bayesian Optimization
Tecnica che guida la ricerca degli iperparametri costruendo un modello probabilistico dei risultati. Esplora in modo intelligente, con poche prove. -
Bias
Distorsione nei dati o modello. Errore sistematico che altera l’output del modello. -
Bias-Variance Tradeoff
Equilibrio tra errori da modello troppo semplice (bias) e troppo sensibile ai dati (varianza). Il punto giusto minimizza l’errore totale. -
Boosting
Tecnica ensemble che costruisce modelli in sequenza, ciascuno focalizzato sugli errori del precedente. Aumenta l’accuratezza riducendo il bias. -
C
-
Calibration
Quanto le probabilità previste da un modello corrispondono alle frequenze reali. Un modello calibrato dà stime affidabili, non solo ordinate. -
Classificazione
Assegnazione di etichette. Tecnica di ML che assegna una categoria a ogni input. -
Clustering gerarchico
Tecnica che costruisce una gerarchia di gruppi unendo o dividendo progressivamente i dati. Si visualizza con un dendrogramma. -
Concept Drift
Cambiamento nel tempo della relazione tra input e output che il modello deve prevedere. Rende obsolete le regole apprese in passato. -
Confidence Score
Valore che indica quanto il modello è sicuro di una previsione. Permette di filtrare o rivedere i casi più incerti. -
Confusion Matrix
Tabella che confronta le previsioni con le classi reali, mostrando acierti ed errori per categoria. Base per calcolare molte metriche. -
Convergenza
Momento in cui l’addestramento smette di migliorare in modo significativo e i pesi si stabilizzano. Segnala che il modello ha appreso. -
Cost Function
Misura dell’errore complessivo del modello sull’intero set di addestramento. Spesso è la media delle loss sui singoli esempi. -
Cost-Sensitive Learning
Approccio che assegna pesi diversi agli errori in base alle loro conseguenze. Utile quando sbagliare una classe costa più di un’altra. -
Cross-Entropy
Funzione di perdita usata nella classificazione, che penalizza previsioni sicure ma sbagliate. Confronta distribuzioni di probabilità. -
Cross-Validation
Tecnica che valuta il modello su più suddivisioni dei dati per stimarne in modo affidabile le prestazioni. Riduce la dipendenza da un singolo split. -
Curriculum Learning
Strategia che presenta al modello esempi in ordine crescente di difficoltà. Imita il modo in cui gli esseri umani imparano, migliorando la convergenza. -
Curse of Dimensionality
Insieme di problemi che emergono quando le variabili sono troppe: i dati diventano radi e gli algoritmi perdono efficacia. -
D
-
Data Augmentation
Generazione di nuovi esempi trasformando quelli esistenti, ad esempio ruotando immagini. Amplia il dataset e migliora la robustezza. -
Data Cleaning
Correzione di errori, valori mancanti e incoerenze nei dati prima dell’addestramento. Dati puliti sono la base di un buon modello. -
Data Leakage
Quando informazioni del futuro o del test filtrano nell’addestramento, gonfiando le prestazioni. Porta a risultati ottimi in prova e deludenti nella realtà. -
Dataset
Insieme di dati. Raccolta strutturata di dati usata per addestrare un modello. -
DBSCAN
Algoritmo di clustering basato sulla densità dei punti. Trova gruppi di forma irregolare e isola automaticamente il rumore. -
Decision Boundary
Superficie che separa le diverse classi nello spazio delle variabili. La sua forma riflette la complessità del modello. -
Deep Learning
Rete neurale profonda. Ramo del ML che usa reti neurali con molti strati. -
Dimensionality Reduction
Riduzione del numero di variabili conservando l’informazione utile. Semplifica i dati, accelera i modelli e ne migliora la visualizzazione. -
Dropout
Disattivazione casuale. Tecnica che disattiva neuroni durante il training per migliorare la generalizzazione. -
E
-
Early Stopping
Tecnica che interrompe l’addestramento quando le prestazioni sui dati di validazione smettono di migliorare. Previene l’overfitting. -
ElasticNet
Regressione che combina le penalità di Ridge e Lasso. Bilancia riduzione dei pesi e selezione delle variabili. -
Embedding
Rappresentazione numerica. Tecnica per convertire dati discreti (es. parole) in vettori numerici. -
Ensemble Learning
Approccio che combina più modelli per ottenere previsioni migliori del singolo. Sfrutta la diversità per ridurre gli errori. -
Epoch
Ciclo completo di training. Passaggio completo su tutto il dataset durante l’addestramento. -
Explainability (XAI)
Capacità di spiegare come e perché un modello arriva a una previsione. Fondamentale per fiducia, controllo e conformità. -
Exploding Gradient
Problema opposto: i gradienti crescono a dismisura e destabilizzano l’addestramento. Si contiene limitandone l’ampiezza. -
F
-
F1 Score
Media armonica di precision e recall, che le bilancia in un solo numero. Utile quando contano entrambe e le classi sono sbilanciate. -
Feature
Caratteristica. Variabile indipendente usata per fare previsioni. -
Feature Engineering
Creazione e trasformazione delle variabili di input per aiutare il modello a imparare meglio. Spesso conta più dell’algoritmo scelto. -
Feature Extraction
Derivazione di nuove variabili più informative a partire dai dati grezzi. Comprime l’informazione utile in poche caratteristiche. -
Feature Scaling
Riporto delle variabili su scale confrontabili. Evita che caratteristiche con valori grandi dominino l’apprendimento. -
Feature Selection
Scelta del sottoinsieme di variabili più utili, scartando quelle irrilevanti o ridondanti. Riduce rumore, costi e overfitting. -
Few-Shot Learning
Capacità di apprendere un nuovo compito con pochissimi esempi. Sfrutta conoscenze acquisite in precedenza per generalizzare in fretta. -
Forward Propagation
Passaggio dei dati dall’ingresso all’uscita di una rete per produrre una previsione. Precede il calcolo dell’errore e l’aggiornamento dei pesi. -
Fully Connected Layer
Strato in cui ogni neurone è collegato a tutti quelli dello strato precedente. È la forma più classica di livello di una rete. -
Funzione di attivazione
Funzione che introduce non linearità nell’uscita di un neurone. Permette alla rete di apprendere relazioni complesse. -
G
-
Gaussian Mixture Model
Modello che descrive i dati come miscela di più distribuzioni gaussiane. Usato per clustering morbido, dove un punto può appartenere a più gruppi. -
Generalizzazione
Capacità di un modello di funzionare bene su dati nuovi, non visti in addestramento. È l’obiettivo ultimo del machine learning. -
Gradient Boosting
Tecnica che costruisce modelli in sequenza, ognuno correggendo gli errori del precedente. Produce previsioni molto accurate. -
Gradient Descent
Algoritmo di ottimizzazione. Metodo per trovare il minimo di una funzione di errore. -
Grid Search
Metodo che prova in modo sistematico tutte le combinazioni di iperparametri da una griglia definita. Esaustivo ma costoso. -
Ground Truth
Il dato reale e corretto usato come riferimento per addestrare e valutare un modello. È la verità con cui si confrontano le previsioni. -
H
-
Holdout Set
Porzione di dati tenuta da parte e mai usata in addestramento, riservata alla valutazione finale. Dà una stima imparziale delle prestazioni. -
Hyperparameter
Parametro impostato prima dell’addestramento, come il learning rate o il numero di strati. Non viene appreso dai dati ma scelto dal progettista. -
Hyperparameter Tuning
Ricerca della combinazione di iperparametri che dà le prestazioni migliori. Passo cruciale per ottenere un buon modello. -
I
-
Imbalanced Dataset
Dataset in cui una classe è molto più frequente delle altre. Rende ingannevole l’accuratezza e richiede tecniche dedicate. -
Inductive Bias
Insieme di assunzioni che un modello fa per generalizzare oltre i dati visti. Senza di esso non potrebbe apprendere. -
Inference
Fase in cui un modello già addestrato produce previsioni su nuovi dati. È l’uso pratico del modello, distinto dall’addestramento. -
Isolation Forest
Algoritmo per rilevare anomalie isolando i punti con pochi tagli casuali. Gli outlier risultano più facili da separare. -
K
-
K-Fold Cross-Validation
Variante che divide i dati in K parti, usandone a turno una per la verifica e le altre per l’addestramento. Media i risultati dei K cicli. -
K-Means
Algoritmo di clustering che divide i dati in K gruppi attorno a centri ricalcolati iterativamente. Richiede di scegliere K in anticipo. -
K-Nearest Neighbors (KNN)
Algoritmo che classifica un esempio in base alla classe dei suoi vicini più prossimi. Semplice e senza vera fase di addestramento. -
L
-
Label
Risposta corretta associata a un esempio nei dati supervisionati. È ciò che il modello impara a prevedere. -
Label Encoding
Conversione di categorie in numeri interi. Semplice, ma può suggerire un ordine inesistente tra i valori. -
Lasso Regression
Regressione lineare con penalità che azzera i pesi meno utili (norma L1). Esegue selezione automatica delle variabili. -
Learning Rate
Parametro che controlla quanto i pesi vengono modificati a ogni passo di addestramento. Troppo alto diverge, troppo basso rallenta. -
Learning Rate Scheduling
Strategia che varia il learning rate durante l’addestramento, ad esempio riducendolo nel tempo. Aiuta a convergere meglio. -
Linear Discriminant Analysis (LDA)
Tecnica che riduce le dimensioni cercando la combinazione di variabili che separa meglio le classi. Usata anche per la classificazione. -
Log Loss
Metrica che penalizza le previsioni di probabilità sbagliate, tanto più quanto sono sicure. Premia modelli ben calibrati. -
Loss Function
Funzione che misura quanto le previsioni si discostano dai valori reali. L’addestramento punta a minimizzarla. -
M
-
Mean Absolute Error (MAE)
Media dei valori assoluti delle differenze tra previsioni e valori reali. Più robusta agli outlier rispetto all’errore quadratico. -
Mean Squared Error (MSE)
Errore quadratico medio: media dei quadrati delle differenze tra previsioni e valori reali. Penalizza molto gli errori grandi. -
Mini-Batch Gradient Descent
Compromesso che aggiorna i pesi su piccoli gruppi di esempi. Unisce stabilità e velocità nell’addestramento. -
Missing Data
Valori assenti in un dataset. Vanno gestiti rimuovendoli o stimandoli, perché molti algoritmi non li tollerano. -
Model Capacity
Misura di quanto un modello è in grado di rappresentare relazioni complesse. Troppa capacità porta a overfitting, troppo poca a underfitting. -
Model Deployment
Messa in produzione di un modello perché fornisca previsioni a utenti o sistemi reali. Trasforma un esperimento in un servizio utilizzabile. -
Model Drift
Calo di prestazioni di un modello nel tempo perché i dati reali cambiano rispetto a quelli di addestramento. Richiede monitoraggio e riaddestramento. -
Modello
Struttura appresa. Algoritmo che apprende da dati e fa previsioni o classificazioni. -
Momentum
Tecnica che accelera il gradient descent accumulando la direzione dei passi precedenti. Riduce le oscillazioni e supera i piccoli avvallamenti. -
Multilayer Perceptron (MLP)
Rete neurale con uno o più strati nascosti tra ingresso e uscita. Può approssimare relazioni complesse e non lineari. -
N
-
Naive Bayes
Classificatore probabilistico basato sul teorema di Bayes, che assume le caratteristiche indipendenti tra loro. Veloce ed efficace su testi. -
Neurone artificiale
Unità di base di una rete neurale: combina gli input pesati e applica una funzione di attivazione. Ispirato in modo lontano al neurone biologico. -
No Free Lunch Theorem
Principio per cui nessun algoritmo è il migliore su tutti i problemi. La scelta va calibrata sul compito specifico. -
Normalizzazione
Riscalatura dei valori in un intervallo fisso, tipicamente tra 0 e 1. Uniforma le variabili prima dell’addestramento. -
O
-
One-Hot Encoding
Rappresentazione di una variabile categorica con colonne binarie, una per ciascun valore. Evita falsi ordinamenti tra le categorie. -
Online Learning
Modalità in cui il modello si aggiorna man mano che arrivano nuovi dati, uno alla volta. Adatto a flussi continui e contesti che cambiano. -
Outlier
Valore molto distante dagli altri, dovuto a errore o a un caso raro. Può distorcere l’addestramento se non trattato. -
Overfitting
Adattamento eccessivo. Quando un modello impara troppo bene i dati di training, perdendo generalizzazione. -
Oversampling
Aumento degli esempi della classe minoritaria per riequilibrare il dataset. Aiuta il modello a non ignorare i casi rari. -
P
-
Perceptron
Il neurone artificiale più semplice: somma pesata degli input seguita da una soglia. È il mattone storico delle reti neurali. -
Posterior Probability
Probabilità di un’ipotesi dopo aver osservato i dati, secondo il teorema di Bayes. Aggiorna una stima iniziale alla luce delle evidenze. -
Precision
Tra gli esempi previsti come positivi, quanti lo erano davvero. Misura quanto ci si può fidare di una previsione positiva. -
Precision-Recall Curve
Grafico che mette in relazione precision e recall al variare della soglia. Più informativo della ROC su dati molto sbilanciati. -
Principal Component Analysis (PCA)
Tecnica che riduce le dimensioni dei dati conservando la maggior variabilità possibile. Comprime le informazioni in poche nuove variabili. -
R
-
R-squared (R²)
Indice che misura quanta parte della variabilità dei dati è spiegata da un modello di regressione. Va da 0 a 1, dove 1 è perfetto. -
Random Forest
Insieme di molti alberi decisionali che votano insieme la previsione. Più robusto e accurato di un singolo albero, riduce l’overfitting. -
Random Search
Metodo che esplora gli iperparametri scegliendo combinazioni casuali. Spesso trova buone soluzioni più in fretta del grid search. -
Recall
Tra gli esempi realmente positivi, quanti il modello ne ha individuati. Misura la capacità di non lasciarsi sfuggire i casi rilevanti. -
Recommendation System
Sistema che suggerisce contenuti o prodotti in base a preferenze e comportamenti. Alla base di piattaforme di streaming ed e-commerce. -
Regressione
Previsione numerica. Tecnica che predice un valore continuo. -
Regressione lineare
Algoritmo che modella la relazione tra variabili tracciando la retta che meglio approssima i dati. Predice valori continui in modo semplice e interpretabile. -
Regressione logistica
Algoritmo di classificazione che stima la probabilità che un esempio appartenga a una classe. Nonostante il nome, serve a separare categorie. -
Regularizzazione
Controllo della complessità. Tecnica per evitare l’overfitting penalizzando modelli troppo complessi. -
ReLU
Funzione di attivazione che lascia passare i valori positivi e azzera i negativi. Semplice ed efficace, attenua il problema dei gradienti che svaniscono. -
Rete Neurale
Modello ispirato al cervello. Struttura composta da nodi (neuroni) interconnessi che elaborano informazioni. -
Ridge Regression
Regressione lineare con penalità sui pesi grandi (norma L2). Riduce l’overfitting mantenendo tutte le variabili. -
RMSprop
Ottimizzatore che adatta il learning rate dividendo per la media dei gradienti recenti. Stabilizza l’addestramento di reti profonde. -
ROC Curve
Grafico che mostra il compromesso tra veri positivi e falsi positivi al variare della soglia. Aiuta a scegliere il punto di lavoro. -
S
-
Saddle Point
Punto in cui il gradiente è nullo ma non è né minimo né massimo. Può rallentare l’ottimizzazione delle reti neurali. -
SHAP
Metodo che attribuisce a ciascuna variabile il suo contributo a una previsione. Aiuta a interpretare anche modelli complessi. -
Sigmoid
Funzione di attivazione che schiaccia i valori tra 0 e 1. Utile per stimare probabilità, ma soggetta a gradienti molto piccoli agli estremi. -
Silhouette Score
Metrica che valuta quanto i cluster sono compatti e ben separati. Aiuta a scegliere il numero di gruppi. -
SMOTE
Tecnica che crea nuovi esempi sintetici della classe minoritaria interpolando quelli esistenti. Riequilibra senza semplici duplicati. -
Softmax
Funzione che trasforma un vettore di numeri in una distribuzione di probabilità che somma a uno. Usata nell’uscita dei classificatori multi-classe. -
Stacking
Tecnica ensemble in cui le previsioni di più modelli diventano input di un modello finale. Combina i punti di forza di approcci diversi. -
Standardizzazione
Trasformazione dei dati perché abbiano media zero e deviazione standard uno. Utile per molti algoritmi sensibili alla scala. -
Stochastic Gradient Descent (SGD)
Variante del gradient descent che aggiorna i pesi usando un esempio alla volta. Più rapido e adatto a grandi dataset. -
Support Vector Machine (SVM)
Algoritmo che separa le classi trovando il confine con il margine più ampio. Efficace anche in spazi a molte dimensioni. -
T
-
t-SNE
Tecnica di riduzione dimensionale pensata per visualizzare dati ad alte dimensioni in 2 o 3D. Preserva la vicinanza tra punti simili. -
Tanh
Funzione di attivazione che schiaccia i valori tra -1 e 1. Centrata sullo zero, spesso preferita alla sigmoid negli strati nascosti. -
Tensore
Struttura dati multidimensionale che generalizza vettori e matrici. È il formato con cui le reti neurali rappresentano e muovono i dati. -
Train-Test Split
Divisione dei dati in una parte per addestrare e una per valutare. Misura come il modello si comporta su esempi mai visti. -
Training Set
Porzione di dati su cui il modello impara, regolando i propri parametri. È la parte più consistente del dataset. -
Transfer Learning
Riuso di un modello già addestrato su un compito come punto di partenza per un altro. Risparmia dati e tempo sfruttando conoscenza preesistente. -
Transformers
Architettura avanzata. Modelli che usano attenzione per gestire input sequenziali, base di GPT. -
U
-
UMAP
Tecnica di riduzione dimensionale per visualizzazione, spesso più veloce del t-SNE. Mantiene meglio la struttura globale dei dati. -
Underfitting
Situazione in cui il modello è troppo semplice per cogliere gli schemi dei dati. Sbaglia sia in addestramento sia su nuovi esempi. -
Undersampling
Riduzione degli esempi della classe maggioritaria per riequilibrare i dati. Veloce, ma rischia di scartare informazione utile. -
V
-
Validazione
Verifica delle performance. Processo di testare il modello su dati non visti. -
Vanishing Gradient
Problema per cui i gradienti diventano minuscoli nelle reti profonde, bloccando l’apprendimento dei primi strati. Mitigato da ReLU e altre tecniche. -
W
-
Weight Decay
Forma di regolarizzazione che spinge i pesi verso valori piccoli. Riduce l’overfitting penalizzando la complessità. -
Weight Initialization
Scelta dei valori iniziali dei pesi prima dell’addestramento. Una buona inizializzazione accelera la convergenza ed evita problemi sui gradienti. -
X
-
XGBoost
Implementazione ottimizzata e molto efficiente del gradient boosting. Popolarissima nelle competizioni per velocità e prestazioni. -
Z
-
Zero-Shot Learning
Capacità di affrontare compiti mai visti in addestramento, senza esempi specifici. Si basa su descrizioni o conoscenza trasferita da altri ambiti.