Intelligenza Artificiale
NLP e LLM
Il linguaggio naturale per le macchine: NLP, modelli linguistici, token e prompt. I termini di LLM e AI generativa spiegati semplice.
150 termini
-
A
-
Adapter
Modulo inserito. Piccolo strato aggiunto dentro il modello e addestrato per specializzarlo su un compito. -
ALiBi
Bias di attenzione. Metodo che penalizza linearmente l'attenzione in base alla distanza tra i token. -
Analisi lessicale
Studio del lessico. Esame delle unità lessicali di un testo per identificarne forma e funzione di base. -
Analisi morfologica
Studio delle forme. Scomposizione delle parole nei loro morfemi per analizzarne radice, prefissi e suffissi. -
Attention mask
Maschera di attenzione. Filtro che impedisce a un token di attendere posizioni non consentite come quelle future. -
Attention weights
Pesi di attenzione. Coefficienti che indicano quanto ogni token influenza la rappresentazione di un altro. -
B
-
Backtranslation
Retro-traduzione. Metodo di aumento dati che traduce un testo in un'altra lingua e poi di nuovo nella prima. -
Bag of Words
Rappresentazione a sacco. Modello che conta le parole ignorando ordine e struttura sintattica del testo. -
BART
Autoencoder denoising. Modello seq2seq che impara ricostruendo testo volutamente corrotto in fase di addestramento. -
Batch dinamico
Raggruppamento variabile. Composizione di lotti di lunghezza simile per ridurre il riempimento inutile. -
Beam search
Ricerca a fascio. Strategia che mantiene più sequenze candidate per trovare un'uscita complessivamente più probabile. -
Benchmark linguistico
Banco di prova. Insieme standardizzato di compiti usato per confrontare le prestazioni dei modelli. -
BERT
Encoder bidirezionale. Modello che apprende rappresentazioni leggendo il contesto a sinistra e a destra simultaneamente. -
BERTScore
Similarità semantica. Metrica che valuta la qualità del testo confrontando embedding contestuali anziché parole esatte. -
Bi-encoder
Codifica separata. Modello che vettorizza query e documenti indipendentemente per confronti rapidi su larga scala. -
Bias linguistico
Distorsione del linguaggio. Tendenza del modello a riprodurre pregiudizi presenti nei dati di addestramento. -
BLEU
Metrica di traduzione. Punteggio che confronta gli n-grammi dell'output con quelli di traduzioni di riferimento. -
Byte Pair Encoding (BPE)
Algoritmo di tokenizzazione. Tecnica che fonde iterativamente le coppie di simboli più frequenti per costruire un vocabolario di subword. -
C
-
Calibrazione
Affidabilità della confidenza. Corrispondenza tra la probabilità stimata dal modello e la reale correttezza. -
Catastrophic forgetting
Dimenticanza catastrofica. Perdita delle competenze precedenti quando un modello viene riaddestrato su nuovi dati. -
Causal masking
Mascheramento causale. Vincolo che permette a ogni token di guardare solo i token precedenti durante la generazione. -
CBOW
Predizione del centro. Architettura di Word2Vec che predice una parola a partire dal suo contesto circostante. -
Character Error Rate (CER)
Errore a caratteri. Variante del WER calcolata sui singoli caratteri anziché sulle parole. -
Chunking
Segmentazione sintattica. Raggruppamento di parole adiacenti in unità non sovrapposte come sintagmi nominali. -
Code-switching
Alternanza di codice. Passaggio tra lingue diverse all'interno della stessa frase o conversazione. -
Constituency parsing
Analisi a costituenti. Tecnica che scompone una frase in sintagmi annidati secondo una grammatica. -
Constrained decoding
Decodifica vincolata. Generazione forzata a rispettare uno schema o una grammatica predefinita. -
Context length extension
Estensione del contesto. Tecniche che permettono a un modello di gestire sequenze più lunghe di quelle di addestramento. -
Contrastive decoding
Decodifica contrastiva. Tecnica che migliora la qualità confrontando le uscite di un modello forte e uno debole. -
Contrastive learning testuale
Apprendimento contrastivo. Addestramento che avvicina coppie simili e allontana coppie diverse nello spazio. -
Coreference resolution
Risoluzione dei riferimenti. Identificazione delle espressioni che si riferiscono alla stessa entità in un testo. -
Cross-attention
Attenzione incrociata. Meccanismo in cui il decoder attende le rappresentazioni prodotte dall'encoder. -
Cross-encoder
Codifica congiunta. Modello che elabora insieme query e documento per stimarne la rilevanza con precisione. -
Curriculum learning
Apprendimento graduale. Strategia che presenta esempi dal più semplice al più complesso durante l'addestramento. -
D
-
Data contamination
Contaminazione dei dati. Presenza nei dati di addestramento di esempi del set di test, che falsa la valutazione. -
Decoder
Blocco di decodifica. Componente che genera la sequenza di output a partire dalle rappresentazioni e dai token già prodotti. -
Dense retrieval
Recupero denso. Ricerca che confronta embedding vettoriali invece di parole chiave esatte. -
Dependency parsing
Analisi delle dipendenze. Tecnica che individua i legami grammaticali tra parole costruendo un albero di relazioni. -
Detokenizzazione
Ricostruzione del testo. Processo inverso che riassembla i token in stringhe leggibili dall'utente. -
Direct Preference Optimization
Ottimizzazione diretta. Metodo che allinea un modello alle preferenze umane senza addestrare un modello di ricompensa separato. -
Distillazione della conoscenza
Trasferimento compatto. Tecnica in cui un modello piccolo impara a imitare le uscite di uno più grande. -
Document chunking
Spezzettamento documenti. Suddivisione di testi lunghi in frammenti gestibili per indicizzazione e recupero. -
E
-
ELECTRA
Rilevamento di token. Modello pre-addestrato a distinguere token reali da quelli sostituiti da un generatore. -
ELMo
Embedding contestuali. Rappresentazioni di parole che cambiano in base alla frase, prodotte da reti ricorrenti profonde. -
Embedding semantico
Vettore di significato. Rappresentazione numerica che colloca testi simili vicini in uno spazio multidimensionale. -
Encoder
Blocco di codifica. Componente che trasforma l'input in una rappresentazione interna ricca di contesto. -
Exact Match
Corrispondenza esatta. Metrica binaria che premia solo le risposte identiche al riferimento atteso. -
F
-
F1 a livello di token
Bilanciamento token. Metrica che media precisione e richiamo sui token condivisi tra risposta e riferimento. -
Faithfulness
Fedeltà al contesto. Grado in cui una risposta resta coerente con le fonti fornite senza inventare. -
FastText
Embedding a sottoparole. Estensione di Word2Vec che rappresenta una parola come somma di n-grammi di caratteri. -
Feed-forward network
Rete densa interna. Strato pienamente connesso applicato a ogni posizione dentro un blocco transformer. -
Flash attention
Attenzione efficiente. Implementazione ottimizzata che calcola l'attenzione riducendo accessi alla memoria. -
Function calling
Chiamata di funzione. Capacità di un modello di produrre l'invocazione strutturata di uno strumento esterno. -
G
-
GloVe
Embedding globale. Modello che costruisce vettori di parole dalle statistiche di co-occorrenza dell'intero corpus. -
GPT-2
Generatore autoregressivo. Modello decoder-only che ha mostrato la capacità di produrre testo coerente su larga scala. -
Gradient accumulation
Accumulo dei gradienti. Tecnica che somma i gradienti di più mini-batch prima di aggiornare i pesi. -
Greedy decoding
Decodifica avida. Strategia che sceglie sempre il token più probabile a ogni passo, senza esplorare alternative. -
Grouped-query attention
Attenzione raggruppata. Variante che condivide chiavi e valori tra più teste per ridurre la memoria. -
H
-
Hybrid search
Ricerca ibrida. Combinazione di recupero denso e sparso per unire precisione semantica e lessicale. -
HyDE
Documento ipotetico. Tecnica che genera una risposta fittizia per migliorare il recupero dei documenti. -
J
-
Jailbreak
Aggiramento dei vincoli. Tecnica che induce il modello a ignorare le proprie regole di sicurezza. -
K
-
KV cache
Memoria chiave-valore. Archivio dei tensori già calcolati che velocizza la generazione token dopo token. -
L
-
Label smoothing
Ammorbidimento etichette. Tecnica che distribuisce parte della probabilità target per evitare eccessiva sicurezza. -
Layer normalization
Normalizzazione di strato. Tecnica che stabilizza l'addestramento riscalando le attivazioni di ciascun token. -
Lemmatizzazione
Riduzione al lemma. Tecnica che riporta le parole alla loro forma base canonica usando regole morfologiche e dizionari. -
Llama
Famiglia open. Serie di modelli linguistici decoder-only rilasciati da Meta per ricerca e uso aperto. -
LLM-as-a-judge
Modello giudice. Uso di un LLM per valutare automaticamente la qualità delle risposte di un altro modello. -
Logit
Punteggio grezzo. Valore non normalizzato prodotto dal modello prima della trasformazione in probabilità. -
Logit bias
Sbilanciamento dei logit. Regolazione manuale che aumenta o riduce la probabilità di token specifici. -
Long-context model
Modello a contesto lungo. LLM capace di elaborare input molto estesi mantenendo coerenza tra parti distanti. -
LoRA
Adattamento a basso rango. Tecnica che addestra piccole matrici aggiuntive lasciando congelati i pesi originali. -
M
-
Masked Language Modeling
Predizione mascherata. Obiettivo di addestramento in cui il modello indovina parole nascoste nella frase. -
Matrice di co-occorrenza
Conteggio di vicinanza. Tabella che registra quante volte due parole compaiono insieme in una finestra di contesto. -
METEOR
Metrica allineata. Punteggio di traduzione che considera sinonimi, radici e ordine oltre alla corrispondenza esatta. -
Min-p sampling
Soglia relativa. Campionamento che scarta i token sotto una frazione della probabilità del token più alto. -
Mistral
Modello efficiente. LLM open che combina prestazioni elevate con dimensioni contenute e attenzione a finestra scorrevole. -
Mixed precision
Precisione mista. Addestramento che combina formati a bassa e alta precisione per accelerare i calcoli. -
Modello decoder-only
Solo decodifica. Architettura autoregressiva che genera testo predicendo un token alla volta, base dei modelli generativi. -
Modello encoder-only
Solo codifica. Architettura che trasforma l'input in rappresentazioni, adatta a classificazione e comprensione. -
Modello seq2seq
Sequenza a sequenza. Architettura con encoder e decoder che mappa una sequenza di input in una di output. -
Multi-head attention
Attenzione multi-testa. Tecnica che esegue più attenzioni in parallelo per catturare relazioni diverse. -
Multilinguismo
Capacità multilingue. Abilità di un modello di comprendere e generare testo in più lingue. -
N
-
N-gram
Sequenza contigua. Gruppo di n elementi consecutivi, parole o caratteri, usato per modellare il linguaggio. -
Negative sampling
Campionamento negativo. Tecnica che addestra usando esempi non correlati per definire i confini di similarità. -
Next Sentence Prediction
Predizione della frase. Compito che insegna a un modello se due frasi si susseguono logicamente. -
Normalizzazione del testo
Pulizia uniformante. Trasformazione del testo in forma standard come minuscole, accenti e punteggiatura coerenti. -
O
-
One-hot encoding
Codifica sparsa. Rappresentazione in cui ogni parola è un vettore con un solo elemento attivo nel vocabolario. -
P
-
Padding
Riempimento uniforme. Aggiunta di token fittizi per portare tutte le sequenze alla stessa lunghezza. -
PEFT
Fine-tuning efficiente. Famiglia di tecniche che adatta un modello aggiornando solo una frazione dei parametri. -
Perplexity
Misura di sorpresa. Indica quanto un modello è incerto nel predire una sequenza, più bassa è meglio. -
Pooling delle rappresentazioni
Aggregazione dei vettori. Combinazione dei vettori dei token in un'unica rappresentazione, ad esempio per media. -
POS tagging
Etichettatura grammaticale. Assegnazione a ogni parola della sua categoria sintattica come nome, verbo o aggettivo. -
Positional encoding
Codifica posizionale. Informazione aggiunta agli embedding per indicare l'ordine dei token nella sequenza. -
Prefix tuning
Prefisso addestrabile. Tecnica che antepone vettori appresi a ogni strato per condizionare il comportamento. -
Prompt injection
Iniezione di istruzioni. Attacco che inserisce comandi malevoli nel testo per dirottare il comportamento del modello. -
Prompt template linguistico
Schema di istruzione. Struttura riutilizzabile con segnaposto in cui inserire input variabili. -
Prompt tuning
Ottimizzazione del prompt. Apprendimento di vettori di prompt continui lasciando il modello immutato. -
Pruning
Potatura dei pesi. Eliminazione di parametri poco influenti per alleggerire e velocizzare il modello. -
Q
-
QLoRA
LoRA quantizzato. Metodo che applica LoRA su un modello compresso a bassa precisione per ridurre la memoria. -
Quantizzazione
Riduzione di precisione. Compressione che rappresenta i pesi con meno bit per risparmiare memoria e calcolo. -
Query, Key, Value
Triade dell'attenzione. I tre vettori derivati da ogni token che determinano pesi e contenuto dell'attenzione. -
R
-
ReAct
Ragiona e agisci. Schema che alterna passi di ragionamento e azioni verso strumenti esterni. -
Red teaming
Test avversariale. Pratica di sollecitare un modello con input ostili per scoprirne le vulnerabilità. -
Repetition penalty
Penalità di ripetizione. Aggiustamento che riduce la probabilità dei token già generati per evitare loop. -
Reranking
Riordinamento dei risultati. Tecnica che riorganizza documenti recuperati secondo la rilevanza rispetto alla query. -
Residual connection
Connessione residua. Scorciatoia che somma l'input di uno strato alla sua uscita per agevolare il flusso del gradiente. -
Retrieval reranker
Filtro di rilevanza. Componente che affina i risultati di recupero ordinandoli per pertinenza fine. -
RoBERTa
BERT ottimizzato. Variante addestrata più a lungo e su più dati, senza il compito di predizione della frase successiva. -
RoPE
Rotazione posizionale. Tecnica che codifica la posizione ruotando i vettori query e key in funzione dell'indice. -
Rotary embeddings
Codifica rotante. Tecnica che incorpora la posizione tramite rotazioni applicate ai vettori di attenzione. -
ROUGE
Metrica di riassunto. Misura della sovrapposizione tra testo generato e riassunti di riferimento. -
S
-
Sampling
Campionamento casuale. Generazione che estrae il token successivo secondo la distribuzione di probabilità del modello. -
Self-attention
Auto-attenzione. Meccanismo in cui ogni token pesa la rilevanza di tutti gli altri token della stessa sequenza. -
Self-consistency
Coerenza interna. Tecnica che genera più ragionamenti e sceglie la risposta più frequente tra essi. -
Sentence embedding
Vettore di frase. Rappresentazione numerica che cattura il significato complessivo di un'intera frase. -
SentencePiece
Tokenizzatore agnostico. Sistema che tratta il testo come flusso grezzo di byte o caratteri, senza dipendere da spazi o lingua specifica. -
Similarità del coseno
Misura angolare. Indice che valuta la vicinanza tra due vettori in base all'angolo che li separa. -
Skip-gram
Predizione del contesto. Architettura di Word2Vec che predice le parole di contorno data una parola centrale. -
Sliding window attention
Attenzione a finestra. Meccanismo che limita ogni token ad attendere solo i vicini entro una finestra fissa. -
Softmax
Normalizzazione probabilistica. Funzione che converte i logit in una distribuzione di probabilità sui token. -
Sparse retrieval
Recupero sparso. Ricerca basata su corrispondenza di termini e pesi come nei modelli a parole chiave. -
Special token
Token di controllo. Simbolo riservato come inizio sequenza o separatore che guida il comportamento del modello. -
Speculative decoding
Decodifica speculativa. Tecnica che usa un modello piccolo per proporre token poi verificati dal modello grande. -
Stemming
Riduzione alla radice. Tecnica che taglia i suffissi delle parole per ricondurle a una forma comune approssimata. -
Step-back prompting
Prompt a ritroso. Strategia che invita il modello a generalizzare il problema prima di affrontarlo. -
Stopwords
Parole vuote. Termini molto frequenti come articoli e preposizioni spesso rimossi perché poco informativi. -
Structured output
Output strutturato. Generazione vincolata a un formato preciso come JSON conforme a uno schema. -
Subword
Unità intermedia. Frammento di parola più piccolo del termine ma più grande del carattere, usato per gestire termini rari. -
Subword regularization
Regolarizzazione subword. Tecnica che varia la tokenizzazione durante l'addestramento per maggiore robustezza. -
Supervised Fine-Tuning
Affinamento supervisionato. Fase in cui il modello impara da coppie di istruzioni e risposte etichettate. -
T
-
T5
Tutto testo-a-testo. Modello che riformula ogni compito linguistico come trasformazione da testo di input a testo di output. -
Teacher forcing
Forzatura del docente. Tecnica che alimenta il token corretto invece di quello predetto durante l'addestramento. -
TF-IDF
Pesatura dei termini. Misura che valorizza le parole frequenti in un documento ma rare nell'intera collezione. -
Tokenizzazione a caratteri
Suddivisione minima. Approccio che spezza il testo nei singoli caratteri anziché in parole o subword. -
Tokenizzazione a parole
Suddivisione lessicale. Approccio che separa il testo in parole intere usando spazi e punteggiatura. -
Tokenizzazione di frase
Segmentazione in frasi. Suddivisione di un testo nelle sue singole frasi individuando i confini di senso. -
Top-k sampling
Campionamento top-k. Tecnica che limita la scelta ai k token più probabili prima di campionare. -
Toxicity detection
Rilevamento tossicità. Identificazione automatica di linguaggio offensivo o dannoso nei testi. -
Tree of Thoughts
Albero di pensieri. Strategia che esplora più percorsi di ragionamento ramificati prima di concludere. -
Truncation
Troncamento sequenza. Taglio del testo che eccede la lunghezza massima ammessa dal modello. -
U
-
Unigram Language Model
Tokenizzazione probabilistica. Metodo che parte da un vocabolario ampio e rimuove i token meno utili secondo un modello unigramma. -
V
-
Vocabolario di token
Insieme dei simboli. Elenco finito di unità testuali che un modello sa riconoscere e produrre. -
Vocabolario fuori distribuzione
Parola sconosciuta. Termine non presente nel vocabolario, gestito con token speciali o subword. -
W
-
Warmup del learning rate
Riscaldamento iniziale. Fase in cui il tasso di apprendimento cresce gradualmente all'inizio dell'addestramento. -
Word Error Rate (WER)
Tasso di errore. Misura della trascrizione che conta inserimenti, cancellazioni e sostituzioni rispetto al riferimento. -
Word sense disambiguation
Disambiguazione semantica. Scelta del significato corretto di una parola polisemica in base al contesto. -
Word2Vec
Embedding di parole. Modello che apprende vettori densi associando parole a contesti tramite reti neurali superficiali. -
WordPiece
Tokenizzazione a subword. Metodo usato da BERT che divide le parole in unità scelte massimizzando la verosimiglianza del corpus. -
X
-
XLNet
Permutazione autoregressiva. Modello che predice i token considerando tutti gli ordini possibili della sequenza.