Glossario di NLP e LLM: 150 voci spiegate con chiarezza

Intelligenza Artificiale

NLP e LLM

Il linguaggio naturale per le macchine: NLP, modelli linguistici, token e prompt. I termini di LLM e AI generativa spiegati semplice.

150 termini

  • A

  • Adapter

    Modulo inserito. Piccolo strato aggiunto dentro il modello e addestrato per specializzarlo su un compito.
  • ALiBi

    Bias di attenzione. Metodo che penalizza linearmente l'attenzione in base alla distanza tra i token.
  • Analisi lessicale

    Studio del lessico. Esame delle unità lessicali di un testo per identificarne forma e funzione di base.
  • Analisi morfologica

    Studio delle forme. Scomposizione delle parole nei loro morfemi per analizzarne radice, prefissi e suffissi.
  • Attention mask

    Maschera di attenzione. Filtro che impedisce a un token di attendere posizioni non consentite come quelle future.
  • Attention weights

    Pesi di attenzione. Coefficienti che indicano quanto ogni token influenza la rappresentazione di un altro.
  • B

  • Backtranslation

    Retro-traduzione. Metodo di aumento dati che traduce un testo in un'altra lingua e poi di nuovo nella prima.
  • Bag of Words

    Rappresentazione a sacco. Modello che conta le parole ignorando ordine e struttura sintattica del testo.
  • BART

    Autoencoder denoising. Modello seq2seq che impara ricostruendo testo volutamente corrotto in fase di addestramento.
  • Batch dinamico

    Raggruppamento variabile. Composizione di lotti di lunghezza simile per ridurre il riempimento inutile.
  • Benchmark linguistico

    Banco di prova. Insieme standardizzato di compiti usato per confrontare le prestazioni dei modelli.
  • BERT

    Encoder bidirezionale. Modello che apprende rappresentazioni leggendo il contesto a sinistra e a destra simultaneamente.
  • BERTScore

    Similarità semantica. Metrica che valuta la qualità del testo confrontando embedding contestuali anziché parole esatte.
  • Bi-encoder

    Codifica separata. Modello che vettorizza query e documenti indipendentemente per confronti rapidi su larga scala.
  • Bias linguistico

    Distorsione del linguaggio. Tendenza del modello a riprodurre pregiudizi presenti nei dati di addestramento.
  • BLEU

    Metrica di traduzione. Punteggio che confronta gli n-grammi dell'output con quelli di traduzioni di riferimento.
  • Byte Pair Encoding (BPE)

    Algoritmo di tokenizzazione. Tecnica che fonde iterativamente le coppie di simboli più frequenti per costruire un vocabolario di subword.
  • C

  • Calibrazione

    Affidabilità della confidenza. Corrispondenza tra la probabilità stimata dal modello e la reale correttezza.
  • Catastrophic forgetting

    Dimenticanza catastrofica. Perdita delle competenze precedenti quando un modello viene riaddestrato su nuovi dati.
  • Causal masking

    Mascheramento causale. Vincolo che permette a ogni token di guardare solo i token precedenti durante la generazione.
  • CBOW

    Predizione del centro. Architettura di Word2Vec che predice una parola a partire dal suo contesto circostante.
  • Character Error Rate (CER)

    Errore a caratteri. Variante del WER calcolata sui singoli caratteri anziché sulle parole.
  • Chunking

    Segmentazione sintattica. Raggruppamento di parole adiacenti in unità non sovrapposte come sintagmi nominali.
  • Code-switching

    Alternanza di codice. Passaggio tra lingue diverse all'interno della stessa frase o conversazione.
  • Constituency parsing

    Analisi a costituenti. Tecnica che scompone una frase in sintagmi annidati secondo una grammatica.
  • Constrained decoding

    Decodifica vincolata. Generazione forzata a rispettare uno schema o una grammatica predefinita.
  • Context length extension

    Estensione del contesto. Tecniche che permettono a un modello di gestire sequenze più lunghe di quelle di addestramento.
  • Contrastive decoding

    Decodifica contrastiva. Tecnica che migliora la qualità confrontando le uscite di un modello forte e uno debole.
  • Contrastive learning testuale

    Apprendimento contrastivo. Addestramento che avvicina coppie simili e allontana coppie diverse nello spazio.
  • Coreference resolution

    Risoluzione dei riferimenti. Identificazione delle espressioni che si riferiscono alla stessa entità in un testo.
  • Cross-attention

    Attenzione incrociata. Meccanismo in cui il decoder attende le rappresentazioni prodotte dall'encoder.
  • Cross-encoder

    Codifica congiunta. Modello che elabora insieme query e documento per stimarne la rilevanza con precisione.
  • Curriculum learning

    Apprendimento graduale. Strategia che presenta esempi dal più semplice al più complesso durante l'addestramento.
  • D

  • Data contamination

    Contaminazione dei dati. Presenza nei dati di addestramento di esempi del set di test, che falsa la valutazione.
  • Decoder

    Blocco di decodifica. Componente che genera la sequenza di output a partire dalle rappresentazioni e dai token già prodotti.
  • Dense retrieval

    Recupero denso. Ricerca che confronta embedding vettoriali invece di parole chiave esatte.
  • Dependency parsing

    Analisi delle dipendenze. Tecnica che individua i legami grammaticali tra parole costruendo un albero di relazioni.
  • Detokenizzazione

    Ricostruzione del testo. Processo inverso che riassembla i token in stringhe leggibili dall'utente.
  • Direct Preference Optimization

    Ottimizzazione diretta. Metodo che allinea un modello alle preferenze umane senza addestrare un modello di ricompensa separato.
  • Distillazione della conoscenza

    Trasferimento compatto. Tecnica in cui un modello piccolo impara a imitare le uscite di uno più grande.
  • Document chunking

    Spezzettamento documenti. Suddivisione di testi lunghi in frammenti gestibili per indicizzazione e recupero.
  • E

  • ELECTRA

    Rilevamento di token. Modello pre-addestrato a distinguere token reali da quelli sostituiti da un generatore.
  • ELMo

    Embedding contestuali. Rappresentazioni di parole che cambiano in base alla frase, prodotte da reti ricorrenti profonde.
  • Embedding semantico

    Vettore di significato. Rappresentazione numerica che colloca testi simili vicini in uno spazio multidimensionale.
  • Encoder

    Blocco di codifica. Componente che trasforma l'input in una rappresentazione interna ricca di contesto.
  • Exact Match

    Corrispondenza esatta. Metrica binaria che premia solo le risposte identiche al riferimento atteso.
  • F

  • F1 a livello di token

    Bilanciamento token. Metrica che media precisione e richiamo sui token condivisi tra risposta e riferimento.
  • Faithfulness

    Fedeltà al contesto. Grado in cui una risposta resta coerente con le fonti fornite senza inventare.
  • FastText

    Embedding a sottoparole. Estensione di Word2Vec che rappresenta una parola come somma di n-grammi di caratteri.
  • Feed-forward network

    Rete densa interna. Strato pienamente connesso applicato a ogni posizione dentro un blocco transformer.
  • Flash attention

    Attenzione efficiente. Implementazione ottimizzata che calcola l'attenzione riducendo accessi alla memoria.
  • Function calling

    Chiamata di funzione. Capacità di un modello di produrre l'invocazione strutturata di uno strumento esterno.
  • G

  • GloVe

    Embedding globale. Modello che costruisce vettori di parole dalle statistiche di co-occorrenza dell'intero corpus.
  • GPT-2

    Generatore autoregressivo. Modello decoder-only che ha mostrato la capacità di produrre testo coerente su larga scala.
  • Gradient accumulation

    Accumulo dei gradienti. Tecnica che somma i gradienti di più mini-batch prima di aggiornare i pesi.
  • Greedy decoding

    Decodifica avida. Strategia che sceglie sempre il token più probabile a ogni passo, senza esplorare alternative.
  • Grouped-query attention

    Attenzione raggruppata. Variante che condivide chiavi e valori tra più teste per ridurre la memoria.
  • H

  • Hidden state

    Stato nascosto. Rappresentazione interna prodotta da uno strato che codifica informazioni sul token.
  • HyDE

    Documento ipotetico. Tecnica che genera una risposta fittizia per migliorare il recupero dei documenti.
  • J

  • Jailbreak

    Aggiramento dei vincoli. Tecnica che induce il modello a ignorare le proprie regole di sicurezza.
  • K

  • KV cache

    Memoria chiave-valore. Archivio dei tensori già calcolati che velocizza la generazione token dopo token.
  • L

  • Label smoothing

    Ammorbidimento etichette. Tecnica che distribuisce parte della probabilità target per evitare eccessiva sicurezza.
  • Layer normalization

    Normalizzazione di strato. Tecnica che stabilizza l'addestramento riscalando le attivazioni di ciascun token.
  • Lemmatizzazione

    Riduzione al lemma. Tecnica che riporta le parole alla loro forma base canonica usando regole morfologiche e dizionari.
  • Llama

    Famiglia open. Serie di modelli linguistici decoder-only rilasciati da Meta per ricerca e uso aperto.
  • LLM-as-a-judge

    Modello giudice. Uso di un LLM per valutare automaticamente la qualità delle risposte di un altro modello.
  • Logit

    Punteggio grezzo. Valore non normalizzato prodotto dal modello prima della trasformazione in probabilità.
  • Logit bias

    Sbilanciamento dei logit. Regolazione manuale che aumenta o riduce la probabilità di token specifici.
  • Long-context model

    Modello a contesto lungo. LLM capace di elaborare input molto estesi mantenendo coerenza tra parti distanti.
  • LoRA

    Adattamento a basso rango. Tecnica che addestra piccole matrici aggiuntive lasciando congelati i pesi originali.
  • M

  • Masked Language Modeling

    Predizione mascherata. Obiettivo di addestramento in cui il modello indovina parole nascoste nella frase.
  • Matrice di co-occorrenza

    Conteggio di vicinanza. Tabella che registra quante volte due parole compaiono insieme in una finestra di contesto.
  • METEOR

    Metrica allineata. Punteggio di traduzione che considera sinonimi, radici e ordine oltre alla corrispondenza esatta.
  • Min-p sampling

    Soglia relativa. Campionamento che scarta i token sotto una frazione della probabilità del token più alto.
  • Mistral

    Modello efficiente. LLM open che combina prestazioni elevate con dimensioni contenute e attenzione a finestra scorrevole.
  • Mixed precision

    Precisione mista. Addestramento che combina formati a bassa e alta precisione per accelerare i calcoli.
  • Modello decoder-only

    Solo decodifica. Architettura autoregressiva che genera testo predicendo un token alla volta, base dei modelli generativi.
  • Modello encoder-only

    Solo codifica. Architettura che trasforma l'input in rappresentazioni, adatta a classificazione e comprensione.
  • Modello seq2seq

    Sequenza a sequenza. Architettura con encoder e decoder che mappa una sequenza di input in una di output.
  • Multi-head attention

    Attenzione multi-testa. Tecnica che esegue più attenzioni in parallelo per catturare relazioni diverse.
  • Multilinguismo

    Capacità multilingue. Abilità di un modello di comprendere e generare testo in più lingue.
  • N

  • N-gram

    Sequenza contigua. Gruppo di n elementi consecutivi, parole o caratteri, usato per modellare il linguaggio.
  • Negative sampling

    Campionamento negativo. Tecnica che addestra usando esempi non correlati per definire i confini di similarità.
  • Next Sentence Prediction

    Predizione della frase. Compito che insegna a un modello se due frasi si susseguono logicamente.
  • Normalizzazione del testo

    Pulizia uniformante. Trasformazione del testo in forma standard come minuscole, accenti e punteggiatura coerenti.
  • O

  • One-hot encoding

    Codifica sparsa. Rappresentazione in cui ogni parola è un vettore con un solo elemento attivo nel vocabolario.
  • P

  • Padding

    Riempimento uniforme. Aggiunta di token fittizi per portare tutte le sequenze alla stessa lunghezza.
  • PEFT

    Fine-tuning efficiente. Famiglia di tecniche che adatta un modello aggiornando solo una frazione dei parametri.
  • Perplexity

    Misura di sorpresa. Indica quanto un modello è incerto nel predire una sequenza, più bassa è meglio.
  • Pooling delle rappresentazioni

    Aggregazione dei vettori. Combinazione dei vettori dei token in un'unica rappresentazione, ad esempio per media.
  • POS tagging

    Etichettatura grammaticale. Assegnazione a ogni parola della sua categoria sintattica come nome, verbo o aggettivo.
  • Positional encoding

    Codifica posizionale. Informazione aggiunta agli embedding per indicare l'ordine dei token nella sequenza.
  • Prefix tuning

    Prefisso addestrabile. Tecnica che antepone vettori appresi a ogni strato per condizionare il comportamento.
  • Prompt injection

    Iniezione di istruzioni. Attacco che inserisce comandi malevoli nel testo per dirottare il comportamento del modello.
  • Prompt template linguistico

    Schema di istruzione. Struttura riutilizzabile con segnaposto in cui inserire input variabili.
  • Prompt tuning

    Ottimizzazione del prompt. Apprendimento di vettori di prompt continui lasciando il modello immutato.
  • Pruning

    Potatura dei pesi. Eliminazione di parametri poco influenti per alleggerire e velocizzare il modello.
  • Q

  • QLoRA

    LoRA quantizzato. Metodo che applica LoRA su un modello compresso a bassa precisione per ridurre la memoria.
  • Quantizzazione

    Riduzione di precisione. Compressione che rappresenta i pesi con meno bit per risparmiare memoria e calcolo.
  • Query, Key, Value

    Triade dell'attenzione. I tre vettori derivati da ogni token che determinano pesi e contenuto dell'attenzione.
  • R

  • ReAct

    Ragiona e agisci. Schema che alterna passi di ragionamento e azioni verso strumenti esterni.
  • Red teaming

    Test avversariale. Pratica di sollecitare un modello con input ostili per scoprirne le vulnerabilità.
  • Repetition penalty

    Penalità di ripetizione. Aggiustamento che riduce la probabilità dei token già generati per evitare loop.
  • Reranking

    Riordinamento dei risultati. Tecnica che riorganizza documenti recuperati secondo la rilevanza rispetto alla query.
  • Residual connection

    Connessione residua. Scorciatoia che somma l'input di uno strato alla sua uscita per agevolare il flusso del gradiente.
  • Retrieval reranker

    Filtro di rilevanza. Componente che affina i risultati di recupero ordinandoli per pertinenza fine.
  • RoBERTa

    BERT ottimizzato. Variante addestrata più a lungo e su più dati, senza il compito di predizione della frase successiva.
  • RoPE

    Rotazione posizionale. Tecnica che codifica la posizione ruotando i vettori query e key in funzione dell'indice.
  • Rotary embeddings

    Codifica rotante. Tecnica che incorpora la posizione tramite rotazioni applicate ai vettori di attenzione.
  • ROUGE

    Metrica di riassunto. Misura della sovrapposizione tra testo generato e riassunti di riferimento.
  • S

  • Sampling

    Campionamento casuale. Generazione che estrae il token successivo secondo la distribuzione di probabilità del modello.
  • Self-attention

    Auto-attenzione. Meccanismo in cui ogni token pesa la rilevanza di tutti gli altri token della stessa sequenza.
  • Self-consistency

    Coerenza interna. Tecnica che genera più ragionamenti e sceglie la risposta più frequente tra essi.
  • Sentence embedding

    Vettore di frase. Rappresentazione numerica che cattura il significato complessivo di un'intera frase.
  • SentencePiece

    Tokenizzatore agnostico. Sistema che tratta il testo come flusso grezzo di byte o caratteri, senza dipendere da spazi o lingua specifica.
  • Similarità del coseno

    Misura angolare. Indice che valuta la vicinanza tra due vettori in base all'angolo che li separa.
  • Skip-gram

    Predizione del contesto. Architettura di Word2Vec che predice le parole di contorno data una parola centrale.
  • Sliding window attention

    Attenzione a finestra. Meccanismo che limita ogni token ad attendere solo i vicini entro una finestra fissa.
  • Softmax

    Normalizzazione probabilistica. Funzione che converte i logit in una distribuzione di probabilità sui token.
  • Sparse retrieval

    Recupero sparso. Ricerca basata su corrispondenza di termini e pesi come nei modelli a parole chiave.
  • Special token

    Token di controllo. Simbolo riservato come inizio sequenza o separatore che guida il comportamento del modello.
  • Speculative decoding

    Decodifica speculativa. Tecnica che usa un modello piccolo per proporre token poi verificati dal modello grande.
  • Stemming

    Riduzione alla radice. Tecnica che taglia i suffissi delle parole per ricondurle a una forma comune approssimata.
  • Step-back prompting

    Prompt a ritroso. Strategia che invita il modello a generalizzare il problema prima di affrontarlo.
  • Stopwords

    Parole vuote. Termini molto frequenti come articoli e preposizioni spesso rimossi perché poco informativi.
  • Structured output

    Output strutturato. Generazione vincolata a un formato preciso come JSON conforme a uno schema.
  • Subword

    Unità intermedia. Frammento di parola più piccolo del termine ma più grande del carattere, usato per gestire termini rari.
  • Subword regularization

    Regolarizzazione subword. Tecnica che varia la tokenizzazione durante l'addestramento per maggiore robustezza.
  • Supervised Fine-Tuning

    Affinamento supervisionato. Fase in cui il modello impara da coppie di istruzioni e risposte etichettate.
  • T

  • T5

    Tutto testo-a-testo. Modello che riformula ogni compito linguistico come trasformazione da testo di input a testo di output.
  • Teacher forcing

    Forzatura del docente. Tecnica che alimenta il token corretto invece di quello predetto durante l'addestramento.
  • TF-IDF

    Pesatura dei termini. Misura che valorizza le parole frequenti in un documento ma rare nell'intera collezione.
  • Tokenizzazione a caratteri

    Suddivisione minima. Approccio che spezza il testo nei singoli caratteri anziché in parole o subword.
  • Tokenizzazione a parole

    Suddivisione lessicale. Approccio che separa il testo in parole intere usando spazi e punteggiatura.
  • Tokenizzazione di frase

    Segmentazione in frasi. Suddivisione di un testo nelle sue singole frasi individuando i confini di senso.
  • Top-k sampling

    Campionamento top-k. Tecnica che limita la scelta ai k token più probabili prima di campionare.
  • Toxicity detection

    Rilevamento tossicità. Identificazione automatica di linguaggio offensivo o dannoso nei testi.
  • Tree of Thoughts

    Albero di pensieri. Strategia che esplora più percorsi di ragionamento ramificati prima di concludere.
  • Truncation

    Troncamento sequenza. Taglio del testo che eccede la lunghezza massima ammessa dal modello.
  • U

  • Unigram Language Model

    Tokenizzazione probabilistica. Metodo che parte da un vocabolario ampio e rimuove i token meno utili secondo un modello unigramma.
  • V

  • Vocabolario di token

    Insieme dei simboli. Elenco finito di unità testuali che un modello sa riconoscere e produrre.
  • Vocabolario fuori distribuzione

    Parola sconosciuta. Termine non presente nel vocabolario, gestito con token speciali o subword.
  • W

  • Warmup del learning rate

    Riscaldamento iniziale. Fase in cui il tasso di apprendimento cresce gradualmente all'inizio dell'addestramento.
  • Word Error Rate (WER)

    Tasso di errore. Misura della trascrizione che conta inserimenti, cancellazioni e sostituzioni rispetto al riferimento.
  • Word sense disambiguation

    Disambiguazione semantica. Scelta del significato corretto di una parola polisemica in base al contesto.
  • Word2Vec

    Embedding di parole. Modello che apprende vettori densi associando parole a contesti tramite reti neurali superficiali.
  • WordPiece

    Tokenizzazione a subword. Metodo usato da BERT che divide le parole in unità scelte massimizzando la verosimiglianza del corpus.
  • X

  • XLNet

    Permutazione autoregressiva. Modello che predice i token considerando tutti gli ordini possibili della sequenza.
1.500
Termini pubblicati
10
Glossari verticali
5
Aree tematiche
69
Tag tematici

Preferenze cookie

Gestisci i cookie usati su Glossario Italiano. Puoi modificare le preferenze in qualsiasi momento dal link "Gestisci preferenze" in fondo a ogni pagina.

  • Necessari
    Login, sicurezza (CSRF), preferenze cookie. Sempre attivi.
    Sempre on
  • Statistici
    Misurano in forma aggregata come viene usato il sito. Nessun profilo personale.
  • Marketing
    Cookie di reti pubblicitarie esterne, se attivati in futuro. Oggi GLS non usa script di terze parti e i nostri sponsor sono editoriali, non profilano.