Machine Learning: 150 termini, dalle basi ai concetti avanzati

Intelligenza Artificiale

Machine Learning

Termini chiave del machine learning: algoritmi supervisionati e non supervisionati, reti neurali, training, overfitting e tecniche di feature engineering.

150 termini su 300 previsti

  • A

  • Accuracy

    Percentuale di previsioni corrette sul totale. Semplice ma fuorviante quando le classi sono molto sbilanciate.
  • Active Learning

    Strategia in cui il modello sceglie quali esempi far etichettare, puntando ai più informativi. Ottimizza l’uso del lavoro umano di annotazione.
  • AdaBoost

    Algoritmo di boosting che dà più peso agli esempi sbagliati a ogni passo. Combina modelli deboli in uno forte.
  • Adam Optimizer

    Algoritmo di ottimizzazione che adatta il learning rate per ogni peso combinando momentum e scala dei gradienti. Molto usato di default.
  • Albero decisionale

    Modello che prende decisioni seguendo una serie di domande a cascata sui dati. Intuitivo e leggibile, ma soggetto a overfitting se troppo profondo.
  • Algoritmo

    Procedura di apprendimento. Insieme di regole che guidano l’addestramento del modello.
  • Anomaly Detection

    Individuazione di dati che si discostano dal comportamento normale. Usata per frodi, guasti e intrusioni.
  • Apprendimento auto-supervisionato

    Tecnica in cui il modello genera da solo le etichette dai dati, ad esempio prevedendo parti nascoste dell’input. Sfrutta enormi quantità di dati grezzi.
  • Apprendimento non supervisionato

    Tecnica in cui il modello cerca schemi e raggruppamenti in dati privi di etichette. Trova struttura senza sapere in anticipo la risposta corretta.
  • Apprendimento per rinforzo

    Paradigma in cui un agente impara per tentativi, ricevendo premi o penalità in base alle azioni. Punta a massimizzare la ricompensa nel tempo.
  • Apprendimento semi-supervisionato

    Approccio che combina pochi dati etichettati con molti non etichettati. Riduce il costoso lavoro di etichettatura mantenendo buone prestazioni.
  • Apprendimento supervisionato

    Training con etichette. Metodo in cui i dati sono accompagnati da risposte corrette.
  • AUC

    Area sotto la curva ROC, che riassume in un valore la capacità del modello di distinguere le classi. Più è vicina a 1, meglio è.
  • B

  • Backpropagation

    Ottimizzazione degli errori. Algoritmo che aggiorna i pesi delle reti neurali minimizzando l’errore.
  • Bagging

    Tecnica ensemble che addestra modelli su campioni casuali dei dati e ne media i risultati. Riduce la varianza e l’overfitting.
  • Baseline Model

    Modello semplice di riferimento con cui confrontare quelli più complessi. Se non lo si batte, la complessità non è giustificata.
  • Batch Normalization

    Tecnica che normalizza le attivazioni interne di una rete durante l’addestramento. Accelera la convergenza e stabilizza il training.
  • Batch Size

    Numero di esempi per iterazione. Quantità di dati processati prima di aggiornare i pesi.
  • Bayesian Optimization

    Tecnica che guida la ricerca degli iperparametri costruendo un modello probabilistico dei risultati. Esplora in modo intelligente, con poche prove.
  • Bias

    Distorsione nei dati o modello. Errore sistematico che altera l’output del modello.
  • Bias-Variance Tradeoff

    Equilibrio tra errori da modello troppo semplice (bias) e troppo sensibile ai dati (varianza). Il punto giusto minimizza l’errore totale.
  • Boosting

    Tecnica ensemble che costruisce modelli in sequenza, ciascuno focalizzato sugli errori del precedente. Aumenta l’accuratezza riducendo il bias.
  • C

  • Calibration

    Quanto le probabilità previste da un modello corrispondono alle frequenze reali. Un modello calibrato dà stime affidabili, non solo ordinate.
  • Classificazione

    Assegnazione di etichette. Tecnica di ML che assegna una categoria a ogni input.
  • Clustering gerarchico

    Tecnica che costruisce una gerarchia di gruppi unendo o dividendo progressivamente i dati. Si visualizza con un dendrogramma.
  • Concept Drift

    Cambiamento nel tempo della relazione tra input e output che il modello deve prevedere. Rende obsolete le regole apprese in passato.
  • Confidence Score

    Valore che indica quanto il modello è sicuro di una previsione. Permette di filtrare o rivedere i casi più incerti.
  • Confusion Matrix

    Tabella che confronta le previsioni con le classi reali, mostrando acierti ed errori per categoria. Base per calcolare molte metriche.
  • Convergenza

    Momento in cui l’addestramento smette di migliorare in modo significativo e i pesi si stabilizzano. Segnala che il modello ha appreso.
  • Cost Function

    Misura dell’errore complessivo del modello sull’intero set di addestramento. Spesso è la media delle loss sui singoli esempi.
  • Cost-Sensitive Learning

    Approccio che assegna pesi diversi agli errori in base alle loro conseguenze. Utile quando sbagliare una classe costa più di un’altra.
  • Cross-Entropy

    Funzione di perdita usata nella classificazione, che penalizza previsioni sicure ma sbagliate. Confronta distribuzioni di probabilità.
  • Cross-Validation

    Tecnica che valuta il modello su più suddivisioni dei dati per stimarne in modo affidabile le prestazioni. Riduce la dipendenza da un singolo split.
  • Curriculum Learning

    Strategia che presenta al modello esempi in ordine crescente di difficoltà. Imita il modo in cui gli esseri umani imparano, migliorando la convergenza.
  • Curse of Dimensionality

    Insieme di problemi che emergono quando le variabili sono troppe: i dati diventano radi e gli algoritmi perdono efficacia.
  • D

  • Data Augmentation

    Generazione di nuovi esempi trasformando quelli esistenti, ad esempio ruotando immagini. Amplia il dataset e migliora la robustezza.
  • Data Cleaning

    Correzione di errori, valori mancanti e incoerenze nei dati prima dell’addestramento. Dati puliti sono la base di un buon modello.
  • Data Leakage

    Quando informazioni del futuro o del test filtrano nell’addestramento, gonfiando le prestazioni. Porta a risultati ottimi in prova e deludenti nella realtà.
  • Dataset

    Insieme di dati. Raccolta strutturata di dati usata per addestrare un modello.
  • DBSCAN

    Algoritmo di clustering basato sulla densità dei punti. Trova gruppi di forma irregolare e isola automaticamente il rumore.
  • Decision Boundary

    Superficie che separa le diverse classi nello spazio delle variabili. La sua forma riflette la complessità del modello.
  • Deep Learning

    Rete neurale profonda. Ramo del ML che usa reti neurali con molti strati.
  • Dimensionality Reduction

    Riduzione del numero di variabili conservando l’informazione utile. Semplifica i dati, accelera i modelli e ne migliora la visualizzazione.
  • Dropout

    Disattivazione casuale. Tecnica che disattiva neuroni durante il training per migliorare la generalizzazione.
  • E

  • Early Stopping

    Tecnica che interrompe l’addestramento quando le prestazioni sui dati di validazione smettono di migliorare. Previene l’overfitting.
  • ElasticNet

    Regressione che combina le penalità di Ridge e Lasso. Bilancia riduzione dei pesi e selezione delle variabili.
  • Embedding

    Rappresentazione numerica. Tecnica per convertire dati discreti (es. parole) in vettori numerici.
  • Ensemble Learning

    Approccio che combina più modelli per ottenere previsioni migliori del singolo. Sfrutta la diversità per ridurre gli errori.
  • Epoch

    Ciclo completo di training. Passaggio completo su tutto il dataset durante l’addestramento.
  • Explainability (XAI)

    Capacità di spiegare come e perché un modello arriva a una previsione. Fondamentale per fiducia, controllo e conformità.
  • Exploding Gradient

    Problema opposto: i gradienti crescono a dismisura e destabilizzano l’addestramento. Si contiene limitandone l’ampiezza.
  • F

  • F1 Score

    Media armonica di precision e recall, che le bilancia in un solo numero. Utile quando contano entrambe e le classi sono sbilanciate.
  • Feature

    Caratteristica. Variabile indipendente usata per fare previsioni.
  • Feature Engineering

    Creazione e trasformazione delle variabili di input per aiutare il modello a imparare meglio. Spesso conta più dell’algoritmo scelto.
  • Feature Extraction

    Derivazione di nuove variabili più informative a partire dai dati grezzi. Comprime l’informazione utile in poche caratteristiche.
  • Feature Scaling

    Riporto delle variabili su scale confrontabili. Evita che caratteristiche con valori grandi dominino l’apprendimento.
  • Feature Selection

    Scelta del sottoinsieme di variabili più utili, scartando quelle irrilevanti o ridondanti. Riduce rumore, costi e overfitting.
  • Few-Shot Learning

    Capacità di apprendere un nuovo compito con pochissimi esempi. Sfrutta conoscenze acquisite in precedenza per generalizzare in fretta.
  • Forward Propagation

    Passaggio dei dati dall’ingresso all’uscita di una rete per produrre una previsione. Precede il calcolo dell’errore e l’aggiornamento dei pesi.
  • Fully Connected Layer

    Strato in cui ogni neurone è collegato a tutti quelli dello strato precedente. È la forma più classica di livello di una rete.
  • Funzione di attivazione

    Funzione che introduce non linearità nell’uscita di un neurone. Permette alla rete di apprendere relazioni complesse.
  • G

  • Gaussian Mixture Model

    Modello che descrive i dati come miscela di più distribuzioni gaussiane. Usato per clustering morbido, dove un punto può appartenere a più gruppi.
  • Generalizzazione

    Capacità di un modello di funzionare bene su dati nuovi, non visti in addestramento. È l’obiettivo ultimo del machine learning.
  • Gradient Boosting

    Tecnica che costruisce modelli in sequenza, ognuno correggendo gli errori del precedente. Produce previsioni molto accurate.
  • Gradient Descent

    Algoritmo di ottimizzazione. Metodo per trovare il minimo di una funzione di errore.
  • Ground Truth

    Il dato reale e corretto usato come riferimento per addestrare e valutare un modello. È la verità con cui si confrontano le previsioni.
  • H

  • Hidden Layer

    Strato intermedio di una rete neurale, tra ingresso e uscita. È dove il modello costruisce rappresentazioni via via più astratte.
  • Holdout Set

    Porzione di dati tenuta da parte e mai usata in addestramento, riservata alla valutazione finale. Dà una stima imparziale delle prestazioni.
  • Hyperparameter

    Parametro impostato prima dell’addestramento, come il learning rate o il numero di strati. Non viene appreso dai dati ma scelto dal progettista.
  • Hyperparameter Tuning

    Ricerca della combinazione di iperparametri che dà le prestazioni migliori. Passo cruciale per ottenere un buon modello.
  • I

  • Imbalanced Dataset

    Dataset in cui una classe è molto più frequente delle altre. Rende ingannevole l’accuratezza e richiede tecniche dedicate.
  • Inductive Bias

    Insieme di assunzioni che un modello fa per generalizzare oltre i dati visti. Senza di esso non potrebbe apprendere.
  • Inference

    Fase in cui un modello già addestrato produce previsioni su nuovi dati. È l’uso pratico del modello, distinto dall’addestramento.
  • Isolation Forest

    Algoritmo per rilevare anomalie isolando i punti con pochi tagli casuali. Gli outlier risultano più facili da separare.
  • K

  • K-Fold Cross-Validation

    Variante che divide i dati in K parti, usandone a turno una per la verifica e le altre per l’addestramento. Media i risultati dei K cicli.
  • K-Means

    Algoritmo di clustering che divide i dati in K gruppi attorno a centri ricalcolati iterativamente. Richiede di scegliere K in anticipo.
  • K-Nearest Neighbors (KNN)

    Algoritmo che classifica un esempio in base alla classe dei suoi vicini più prossimi. Semplice e senza vera fase di addestramento.
  • L

  • Label

    Risposta corretta associata a un esempio nei dati supervisionati. È ciò che il modello impara a prevedere.
  • Label Encoding

    Conversione di categorie in numeri interi. Semplice, ma può suggerire un ordine inesistente tra i valori.
  • Lasso Regression

    Regressione lineare con penalità che azzera i pesi meno utili (norma L1). Esegue selezione automatica delle variabili.
  • Learning Rate

    Parametro che controlla quanto i pesi vengono modificati a ogni passo di addestramento. Troppo alto diverge, troppo basso rallenta.
  • Learning Rate Scheduling

    Strategia che varia il learning rate durante l’addestramento, ad esempio riducendolo nel tempo. Aiuta a convergere meglio.
  • Linear Discriminant Analysis (LDA)

    Tecnica che riduce le dimensioni cercando la combinazione di variabili che separa meglio le classi. Usata anche per la classificazione.
  • Log Loss

    Metrica che penalizza le previsioni di probabilità sbagliate, tanto più quanto sono sicure. Premia modelli ben calibrati.
  • Loss Function

    Funzione che misura quanto le previsioni si discostano dai valori reali. L’addestramento punta a minimizzarla.
  • M

  • Mean Absolute Error (MAE)

    Media dei valori assoluti delle differenze tra previsioni e valori reali. Più robusta agli outlier rispetto all’errore quadratico.
  • Mean Squared Error (MSE)

    Errore quadratico medio: media dei quadrati delle differenze tra previsioni e valori reali. Penalizza molto gli errori grandi.
  • Mini-Batch Gradient Descent

    Compromesso che aggiorna i pesi su piccoli gruppi di esempi. Unisce stabilità e velocità nell’addestramento.
  • Missing Data

    Valori assenti in un dataset. Vanno gestiti rimuovendoli o stimandoli, perché molti algoritmi non li tollerano.
  • Model Capacity

    Misura di quanto un modello è in grado di rappresentare relazioni complesse. Troppa capacità porta a overfitting, troppo poca a underfitting.
  • Model Deployment

    Messa in produzione di un modello perché fornisca previsioni a utenti o sistemi reali. Trasforma un esperimento in un servizio utilizzabile.
  • Model Drift

    Calo di prestazioni di un modello nel tempo perché i dati reali cambiano rispetto a quelli di addestramento. Richiede monitoraggio e riaddestramento.
  • Modello

    Struttura appresa. Algoritmo che apprende da dati e fa previsioni o classificazioni.
  • Momentum

    Tecnica che accelera il gradient descent accumulando la direzione dei passi precedenti. Riduce le oscillazioni e supera i piccoli avvallamenti.
  • Multilayer Perceptron (MLP)

    Rete neurale con uno o più strati nascosti tra ingresso e uscita. Può approssimare relazioni complesse e non lineari.
  • N

  • Naive Bayes

    Classificatore probabilistico basato sul teorema di Bayes, che assume le caratteristiche indipendenti tra loro. Veloce ed efficace su testi.
  • Neurone artificiale

    Unità di base di una rete neurale: combina gli input pesati e applica una funzione di attivazione. Ispirato in modo lontano al neurone biologico.
  • No Free Lunch Theorem

    Principio per cui nessun algoritmo è il migliore su tutti i problemi. La scelta va calibrata sul compito specifico.
  • Normalizzazione

    Riscalatura dei valori in un intervallo fisso, tipicamente tra 0 e 1. Uniforma le variabili prima dell’addestramento.
  • O

  • One-Hot Encoding

    Rappresentazione di una variabile categorica con colonne binarie, una per ciascun valore. Evita falsi ordinamenti tra le categorie.
  • Online Learning

    Modalità in cui il modello si aggiorna man mano che arrivano nuovi dati, uno alla volta. Adatto a flussi continui e contesti che cambiano.
  • Outlier

    Valore molto distante dagli altri, dovuto a errore o a un caso raro. Può distorcere l’addestramento se non trattato.
  • Overfitting

    Adattamento eccessivo. Quando un modello impara troppo bene i dati di training, perdendo generalizzazione.
  • Oversampling

    Aumento degli esempi della classe minoritaria per riequilibrare il dataset. Aiuta il modello a non ignorare i casi rari.
  • P

  • Perceptron

    Il neurone artificiale più semplice: somma pesata degli input seguita da una soglia. È il mattone storico delle reti neurali.
  • Posterior Probability

    Probabilità di un’ipotesi dopo aver osservato i dati, secondo il teorema di Bayes. Aggiorna una stima iniziale alla luce delle evidenze.
  • Precision

    Tra gli esempi previsti come positivi, quanti lo erano davvero. Misura quanto ci si può fidare di una previsione positiva.
  • Precision-Recall Curve

    Grafico che mette in relazione precision e recall al variare della soglia. Più informativo della ROC su dati molto sbilanciati.
  • Principal Component Analysis (PCA)

    Tecnica che riduce le dimensioni dei dati conservando la maggior variabilità possibile. Comprime le informazioni in poche nuove variabili.
  • R

  • R-squared (R²)

    Indice che misura quanta parte della variabilità dei dati è spiegata da un modello di regressione. Va da 0 a 1, dove 1 è perfetto.
  • Random Forest

    Insieme di molti alberi decisionali che votano insieme la previsione. Più robusto e accurato di un singolo albero, riduce l’overfitting.
  • Recall

    Tra gli esempi realmente positivi, quanti il modello ne ha individuati. Misura la capacità di non lasciarsi sfuggire i casi rilevanti.
  • Recommendation System

    Sistema che suggerisce contenuti o prodotti in base a preferenze e comportamenti. Alla base di piattaforme di streaming ed e-commerce.
  • Regressione

    Previsione numerica. Tecnica che predice un valore continuo.
  • Regressione lineare

    Algoritmo che modella la relazione tra variabili tracciando la retta che meglio approssima i dati. Predice valori continui in modo semplice e interpretabile.
  • Regressione logistica

    Algoritmo di classificazione che stima la probabilità che un esempio appartenga a una classe. Nonostante il nome, serve a separare categorie.
  • Regularizzazione

    Controllo della complessità. Tecnica per evitare l’overfitting penalizzando modelli troppo complessi.
  • ReLU

    Funzione di attivazione che lascia passare i valori positivi e azzera i negativi. Semplice ed efficace, attenua il problema dei gradienti che svaniscono.
  • Rete Neurale

    Modello ispirato al cervello. Struttura composta da nodi (neuroni) interconnessi che elaborano informazioni.
  • Ridge Regression

    Regressione lineare con penalità sui pesi grandi (norma L2). Riduce l’overfitting mantenendo tutte le variabili.
  • RMSprop

    Ottimizzatore che adatta il learning rate dividendo per la media dei gradienti recenti. Stabilizza l’addestramento di reti profonde.
  • ROC Curve

    Grafico che mostra il compromesso tra veri positivi e falsi positivi al variare della soglia. Aiuta a scegliere il punto di lavoro.
  • S

  • Saddle Point

    Punto in cui il gradiente è nullo ma non è né minimo né massimo. Può rallentare l’ottimizzazione delle reti neurali.
  • SHAP

    Metodo che attribuisce a ciascuna variabile il suo contributo a una previsione. Aiuta a interpretare anche modelli complessi.
  • Sigmoid

    Funzione di attivazione che schiaccia i valori tra 0 e 1. Utile per stimare probabilità, ma soggetta a gradienti molto piccoli agli estremi.
  • Silhouette Score

    Metrica che valuta quanto i cluster sono compatti e ben separati. Aiuta a scegliere il numero di gruppi.
  • SMOTE

    Tecnica che crea nuovi esempi sintetici della classe minoritaria interpolando quelli esistenti. Riequilibra senza semplici duplicati.
  • Softmax

    Funzione che trasforma un vettore di numeri in una distribuzione di probabilità che somma a uno. Usata nell’uscita dei classificatori multi-classe.
  • Stacking

    Tecnica ensemble in cui le previsioni di più modelli diventano input di un modello finale. Combina i punti di forza di approcci diversi.
  • Standardizzazione

    Trasformazione dei dati perché abbiano media zero e deviazione standard uno. Utile per molti algoritmi sensibili alla scala.
  • Stochastic Gradient Descent (SGD)

    Variante del gradient descent che aggiorna i pesi usando un esempio alla volta. Più rapido e adatto a grandi dataset.
  • Support Vector Machine (SVM)

    Algoritmo che separa le classi trovando il confine con il margine più ampio. Efficace anche in spazi a molte dimensioni.
  • T

  • t-SNE

    Tecnica di riduzione dimensionale pensata per visualizzare dati ad alte dimensioni in 2 o 3D. Preserva la vicinanza tra punti simili.
  • Tanh

    Funzione di attivazione che schiaccia i valori tra -1 e 1. Centrata sullo zero, spesso preferita alla sigmoid negli strati nascosti.
  • Tensore

    Struttura dati multidimensionale che generalizza vettori e matrici. È il formato con cui le reti neurali rappresentano e muovono i dati.
  • Train-Test Split

    Divisione dei dati in una parte per addestrare e una per valutare. Misura come il modello si comporta su esempi mai visti.
  • Training Set

    Porzione di dati su cui il modello impara, regolando i propri parametri. È la parte più consistente del dataset.
  • Transfer Learning

    Riuso di un modello già addestrato su un compito come punto di partenza per un altro. Risparmia dati e tempo sfruttando conoscenza preesistente.
  • Transformers

    Architettura avanzata. Modelli che usano attenzione per gestire input sequenziali, base di GPT.
  • U

  • UMAP

    Tecnica di riduzione dimensionale per visualizzazione, spesso più veloce del t-SNE. Mantiene meglio la struttura globale dei dati.
  • Underfitting

    Situazione in cui il modello è troppo semplice per cogliere gli schemi dei dati. Sbaglia sia in addestramento sia su nuovi esempi.
  • Undersampling

    Riduzione degli esempi della classe maggioritaria per riequilibrare i dati. Veloce, ma rischia di scartare informazione utile.
  • V

  • Validazione

    Verifica delle performance. Processo di testare il modello su dati non visti.
  • Vanishing Gradient

    Problema per cui i gradienti diventano minuscoli nelle reti profonde, bloccando l’apprendimento dei primi strati. Mitigato da ReLU e altre tecniche.
  • W

  • Weight Decay

    Forma di regolarizzazione che spinge i pesi verso valori piccoli. Riduce l’overfitting penalizzando la complessità.
  • Weight Initialization

    Scelta dei valori iniziali dei pesi prima dell’addestramento. Una buona inizializzazione accelera la convergenza ed evita problemi sui gradienti.
  • X

  • XGBoost

    Implementazione ottimizzata e molto efficiente del gradient boosting. Popolarissima nelle competizioni per velocità e prestazioni.
  • Z

  • Zero-Shot Learning

    Capacità di affrontare compiti mai visti in addestramento, senza esempi specifici. Si basa su descrizioni o conoscenza trasferita da altri ambiti.
1.500
Termini pubblicati
10
Glossari verticali
5
Aree tematiche
69
Tag tematici

Preferenze cookie

Gestisci i cookie usati su Glossario Italiano. Puoi modificare le preferenze in qualsiasi momento dal link "Gestisci preferenze" in fondo a ogni pagina.

  • Necessari
    Login, sicurezza (CSRF), preferenze cookie. Sempre attivi.
    Sempre on
  • Statistici
    Misurano in forma aggregata come viene usato il sito. Nessun profilo personale.
  • Marketing
    Cookie di reti pubblicitarie esterne, se attivati in futuro. Oggi GLS non usa script di terze parti e i nostri sponsor sono editoriali, non profilano.