Glossario di Computer Vision: 150 voci spiegate con chiarezza

Intelligenza Artificiale

Computer Vision

Far vedere le macchine: riconoscimento immagini, rilevamento oggetti e modelli visivi. I termini della computer vision spiegati chiaro.

150 termini

  • A

  • Affine Transform

    Trasformazione affine. Trasformazione che preserva linee parallele tramite rotazione, scala, traslazione e taglio.
  • Anchor Box

    Riquadro di ancoraggio. Riquadro predefinito di forma e dimensione fissa usato come riferimento nel rilevamento.
  • Average Pooling

    Pooling medio. Riduce le feature map sostituendo ogni regione con la media dei suoi valori.
  • B

  • Backbone

    Rete dorsale. Rete convoluzionale di base che estrae le caratteristiche riutilizzate dai vari task.
  • Background Subtraction

    Sottrazione dello sfondo. Isola gli oggetti in movimento rimuovendo lo sfondo statico di una scena.
  • Bag of Visual Words

    Sacco di parole visive. Rappresentazione che descrive un'immagine come frequenza di caratteristiche locali raggruppate.
  • Bilateral Filter

    Filtro bilaterale. Filtro che riduce il rumore preservando i bordi, pesando i pixel per vicinanza e somiglianza.
  • Bilinear Interpolation

    Interpolazione bilineare. Metodo che stima il valore di un pixel mediando i quattro pixel vicini, usato nel ridimensionamento.
  • Bundle Adjustment

    Aggiustamento dei fasci. Ottimizzazione che affina insieme punti 3D e parametri di camera minimizzando l'errore di proiezione.
  • C

  • Camera Calibration

    Calibrazione della camera. Stima i parametri interni dell'obiettivo per correggere distorsioni e misurare la scena.
  • Canny Edge Detector

    Rilevatore di Canny. Algoritmo multi-fase che individua bordi netti con soppressione e doppia soglia.
  • Class Imbalance

    Sbilanciamento delle classi. Situazione in cui alcune categorie sono molto più rare di altre nei dati.
  • Class Token

    Token di classe. Vettore speciale aggiunto in un ViT che raccoglie l'informazione per la classificazione finale.
  • CLIP

    Allineamento testo-immagine. Modello che apprende rappresentazioni condivise di immagini e descrizioni testuali.
  • Closing

    Chiusura morfologica. Dilatazione seguita da erosione, utile per colmare piccoli buchi negli oggetti.
  • Color Histogram

    Istogramma dei colori. Distribuzione delle frequenze dei colori in un'immagine, usata per descriverla.
  • Confidence Threshold

    Soglia di confidenza. Valore minimo di sicurezza sotto il quale una predizione viene scartata.
  • Confusion Matrix

    Matrice di confusione. Tabella che confronta classi predette e reali per analizzare gli errori del modello.
  • Connected Components

    Componenti connesse. Etichettatura di regioni di pixel contigui appartenenti allo stesso oggetto.
  • Contour Detection

    Rilevamento di contorni. Individua le curve continue che delimitano gli oggetti in un'immagine binaria.
  • ConvNeXt

    Rete convoluzionale moderna. Architettura che aggiorna le CNN classiche ispirandosi ai vincenti trasformer.
  • Convolution

    Convoluzione. Operazione che fa scorrere un kernel sull'immagine per estrarre caratteristiche locali.
  • D

  • Data Annotation

    Annotazione dei dati. Processo di etichettatura manuale di immagini per creare dati di addestramento.
  • Depth Estimation

    Stima della profondità. Calcola la distanza di ogni punto della scena dalla telecamera a partire da una o più immagini.
  • Depthwise Separable Convolution

    Convoluzione separabile in profondità. Scompone la convoluzione per ridurre calcolo e parametri, usata in reti leggere.
  • DETR

    Rilevamento con trasformer. Modello end-to-end che vede il rilevamento come predizione diretta di insiemi di oggetti.
  • Dice Coefficient

    Coefficiente di Dice. Metrica di segmentazione che misura la sovrapposizione tra maschera predetta e reale.
  • Dilated Convolution

    Convoluzione dilatata. Convoluzione con kernel espanso che amplia il campo recettivo senza aumentare i parametri.
  • Dilation

    Dilatazione. Operazione morfologica che ingrandisce gli oggetti aggiungendo pixel ai loro bordi.
  • Disparity Map

    Mappa di disparità. Rappresenta lo spostamento tra pixel corrispondenti in una coppia stereo, legato alla profondità.
  • E

  • EfficientNet

    Rete bilanciata. Architettura che scala in modo coordinato profondità, larghezza e risoluzione.
  • Epipolar Geometry

    Geometria epipolare. Descrive le relazioni geometriche tra due viste della stessa scena.
  • Erosion

    Erosione. Operazione morfologica che assottiglia gli oggetti rimuovendo i pixel sui bordi.
  • Essential Matrix

    Matrice essenziale. Versione calibrata della matrice fondamentale, lega due viste con camera nota.
  • Extrinsic Parameters

    Parametri estrinseci. Posizione e orientamento della camera rispetto al mondo.
  • F

  • Fast R-CNN

    R-CNN accelerato. Versione che condivide il calcolo convoluzionale su tutta l'immagine per velocizzare il rilevamento.
  • Faster R-CNN

    Rilevatore a due stadi. Introduce una rete di proposta di regioni integrata, eliminando i metodi esterni lenti.
  • Feature Map

    Mappa di caratteristiche. Output di un filtro convoluzionale che evidenzia dove appare una certa caratteristica.
  • Feature Matching

    Corrispondenza di caratteristiche. Associazione di punti chiave tra immagini diverse confrontandone i descrittori.
  • Feature Pyramid Network

    Rete a piramide di caratteristiche. Struttura che combina feature a più scale per rilevare oggetti di dimensioni diverse.
  • Focal Loss

    Focal loss. Funzione di perdita che riduce il peso degli esempi facili per concentrarsi su quelli difficili.
  • Frame Differencing

    Differenza tra fotogrammi. Rileva movimento confrontando pixel di fotogrammi consecutivi.
  • Fundamental Matrix

    Matrice fondamentale. Matrice che descrive la relazione epipolare tra due immagini non calibrate.
  • G

  • Gaussian Blur

    Sfocatura gaussiana. Filtro che attenua dettagli e rumore mediando i pixel secondo una distribuzione gaussiana.
  • Gaussian Pyramid

    Piramide gaussiana. Piramide ottenuta sfocando e sottocampionando ripetutamente l'immagine.
  • GrabCut

    Segmentazione interattiva. Metodo che separa primo piano e sfondo a partire da un riquadro fornito dall'utente.
  • Grad-CAM

    Grad-CAM. Tecnica che evidenzia le regioni dell'immagine più rilevanti per la decisione di una rete.
  • Ground Truth Mask

    Maschera di riferimento. Segmentazione corretta annotata a mano usata per valutare le predizioni.
  • H

  • Hard Negative Mining

    Selezione dei negativi difficili. Tecnica che addestra il modello sugli esempi di sfondo più ingannevoli.
  • Harris Corner Detector

    Rilevatore di angoli. Algoritmo che individua punti dove l'intensità varia in più direzioni.
  • Heatmap

    Mappa di calore. Rappresentazione a colori dell'intensità di un valore su una superficie, usata per pose e attenzione.
  • Histogram Equalization

    Equalizzazione dell'istogramma. Tecnica che ridistribuisce le intensità per migliorare il contrasto dell'immagine.
  • HOG

    Istogramma dei gradienti. Descrittore che riassume le direzioni dei gradienti locali, usato per riconoscere forme.
  • Homography

    Omografia. Trasformazione che mappa punti tra due piani, usata per allineare immagini complanari.
  • Hough Transform

    Trasformata di Hough. Metodo che individua forme geometriche come rette e cerchi votando in uno spazio di parametri.
  • HSV Color Space

    Spazio colore HSV. Modello che descrive il colore tramite tonalità, saturazione e valore di luminosità.
  • Hu Moments

    Momenti di Hu. Set di sette descrittori invarianti a traslazione, scala e rotazione per riconoscere forme.
  • I

  • Image Classification

    Classificazione di immagini. Task che assegna a un'intera immagine una sola etichetta tra categorie predefinite.
  • Image Denoising

    Riduzione del rumore. Rimuove disturbi e granulosità da un'immagine preservandone i dettagli reali.
  • Image Gradient

    Gradiente di immagine. Vettore che indica direzione e intensità della variazione di luminosità in un punto.
  • Image Kernel

    Kernel di immagine. Piccola matrice di pesi applicata in convoluzione per filtrare o trasformare un'immagine.
  • Image Moments

    Momenti dell'immagine. Misure statistiche di una regione usate per calcolarne area, centroide e orientamento.
  • Image Pyramid

    Piramide di immagini. Serie di versioni della stessa immagine a risoluzioni decrescenti, usata per analisi multiscala.
  • Image Registration

    Allineamento di immagini. Sovrappone due o più immagini della stessa scena in un sistema di coordinate comune.
  • Image Retrieval

    Recupero di immagini. Cerca in un archivio le immagini più simili a una query visiva data.
  • Inception

    Modulo Inception. Architettura che applica filtri di dimensioni diverse in parallelo nello stesso livello.
  • Inpainting

    Ricostruzione di aree mancanti. Riempie regioni rovinate o rimosse di un'immagine in modo coerente con il contesto.
  • Instance Segmentation

    Segmentazione di istanze. Identifica e separa singoli oggetti distinti della stessa classe, mascherandoli pixel per pixel.
  • Intersection over Union Loss

    Perdita IoU. Funzione di costo che ottimizza direttamente la sovrapposizione tra riquadri predetti e reali.
  • Intrinsic Parameters

    Parametri intrinseci. Caratteristiche interne della camera come lunghezza focale e centro ottico.
  • IoU

    Intersezione su unione. Metrica che misura la sovrapposizione tra riquadro predetto e riquadro reale.
  • K

  • Kalman Filter

    Filtro di Kalman. Algoritmo che stima e predice lo stato di un oggetto in movimento riducendo il rumore.
  • Keypoint Detection

    Rilevamento di punti chiave. Localizza punti caratteristici di un oggetto, come articolazioni del corpo o tratti del volto.
  • L

  • Laplacian Operator

    Operatore laplaciano. Filtro basato sulla derivata seconda che evidenzia bordi e zone di rapida variazione.
  • Laplacian Pyramid

    Piramide laplaciana. Rappresentazione che memorizza i dettagli persi tra i livelli di una piramide gaussiana.
  • Lens Distortion

    Distorsione dell'obiettivo. Deformazione geometrica introdotta dall'ottica, come l'effetto barile o cuscinetto.
  • LiDAR

    LiDAR. Sensore che misura distanze con impulsi laser per produrre nuvole di punti 3D.
  • M

  • mAP

    Precisione media. Metrica principale del rilevamento, media delle precisioni su classi e soglie di sovrapposizione.
  • Mask R-CNN

    Rilevatore con maschere. Estende Faster R-CNN aggiungendo un ramo che produce maschere di segmentazione per ogni istanza.
  • Max Pooling

    Pooling massimo. Riduce le feature map mantenendo il valore più alto di ogni regione.
  • Mean Average Precision

    Precisione media globale. Sintesi delle prestazioni di rilevamento mediando la precisione su tutte le classi.
  • Median Filter

    Filtro mediano. Filtro che sostituisce ogni pixel con il valore mediano dei vicini, efficace contro il rumore impulsivo.
  • Mesh

    Mesh poligonale. Rappresentazione 3D di superfici tramite vertici, spigoli e facce.
  • MobileNet

    Rete per dispositivi mobili. Architettura leggera ottimizzata per girare su smartphone e dispositivi embedded.
  • Morphological Operations

    Operazioni morfologiche. Trasformazioni come erosione e dilatazione che modificano la forma di regioni binarie.
  • N

  • Nearest Neighbor Interpolation

    Interpolazione al vicino più prossimo. Ridimensiona copiando il valore del pixel più vicino, veloce ma a blocchi.
  • NeRF

    Campi di radianza neurali. Modello che ricostruisce scene 3D fotorealistiche da immagini per sintetizzare nuove viste.
  • Non-Maximum Suppression

    Soppressione dei non massimi. Tecnica che elimina i riquadri ridondanti mantenendo solo quello con confidenza maggiore.
  • O

  • Object Tracking

    Inseguimento di oggetti. Segue la posizione di uno o più oggetti attraverso i fotogrammi di un video.
  • Opening

    Apertura morfologica. Erosione seguita da dilatazione, utile per rimuovere piccoli disturbi.
  • Optical Character Recognition Pipeline

    Pipeline OCR. Sequenza di passi che individua, ritaglia e riconosce il testo presente in un'immagine.
  • Optical Flow

    Flusso ottico. Stima il movimento apparente di pixel tra fotogrammi successivi di un video.
  • Optical Flow Lucas-Kanade

    Flusso ottico di Lucas-Kanade. Metodo che stima il movimento di piccoli intorni di pixel assumendolo localmente costante.
  • ORB

    Descrittore efficiente. Combinazione veloce e libera da brevetti di rilevatore di angoli e descrittore binario.
  • Otsu Thresholding

    Sogliatura di Otsu. Metodo che sceglie automaticamente la soglia ottimale massimizzando la separazione tra classi.
  • P

  • Padding

    Riempimento. Aggiunta di pixel ai bordi dell'immagine per controllare la dimensione dell'output convoluzionale.
  • Panoptic Segmentation

    Segmentazione panottica. Unisce segmentazione semantica e di istanze etichettando ogni pixel sia per classe sia per istanza.
  • Patch Embedding

    Embedding di patch. Conversione delle porzioni di immagine in vettori numerici per i Vision Transformer.
  • Perspective Transform

    Trasformazione prospettica. Modifica un'immagine per correggere o simulare il punto di vista.
  • Photogrammetry

    Fotogrammetria. Tecnica che ricostruisce misure e modelli 3D a partire da fotografie.
  • Pinhole Camera Model

    Modello di camera stenopeica. Modello geometrico ideale che proietta i punti 3D attraverso un singolo foro.
  • Pixel

    Pixel. Unità minima di un'immagine digitale, definita da una posizione e un valore di colore.
  • Point Cloud

    Nuvola di punti. Insieme di punti 3D che rappresenta la superficie di oggetti o scene nello spazio.
  • Pooling

    Sottocampionamento. Operazione che riduce la dimensione delle feature map aggregando valori vicini.
  • Positional Encoding

    Codifica posizionale. Informazione aggiunta agli input per indicare la posizione spaziale delle patch.
  • Precision-Recall Curve

    Curva precisione-richiamo. Grafico che mostra il compromesso tra precisione e capacità di trovare tutti gli oggetti.
  • PSNR

    Rapporto segnale-rumore di picco. Metrica che misura la qualità di un'immagine ricostruita rispetto all'originale.
  • R

  • R-CNN

    Rilevatore a regioni. Architettura che propone regioni candidate e le classifica con una rete convoluzionale.
  • RANSAC

    Stima robusta. Algoritmo che adatta un modello ai dati ignorando i valori anomali tramite campionamento casuale.
  • Receptive Field

    Campo recettivo. Porzione dell'immagine di ingresso che influenza un singolo valore in una feature map.
  • Rectification

    Rettifica stereo. Allinea due immagini in modo che i punti corrispondenti stiano sulla stessa riga.
  • Region Growing

    Crescita di regioni. Segmentazione che parte da pixel seme e aggrega i vicini simili.
  • Region of Interest

    Regione di interesse. Porzione dell'immagine selezionata per l'analisi mirata.
  • Region Proposal Network

    Rete di proposta regioni. Componente che genera rapidamente riquadri candidati dove cercare oggetti.
  • ResNet

    Rete residua. Architettura con connessioni di salto che permette di addestrare reti molto profonde.
  • RetinaNet

    Rilevatore one-stage. Modello che usa la focal loss per gestire lo sbilanciamento tra sfondo e oggetti.
  • RGB Channel

    Canale RGB. Una delle tre componenti rosso, verde e blu che insieme formano un'immagine a colori.
  • ROI Align

    Allineamento di regione. Versione precisa del ROI pooling che evita arrotondamenti, usata in Mask R-CNN.
  • ROI Pooling

    Pooling di regione. Operazione che estrae feature di dimensione fissa da regioni candidate di varia grandezza.
  • S

  • Saliency Map

    Mappa di salienza. Visualizzazione delle aree dell'immagine che attirano l'attenzione o influenzano la predizione.
  • SAM

    Segmentazione universale. Modello che produce maschere di qualsiasi oggetto partendo da prompt come punti o riquadri.
  • Self-Attention

    Auto-attenzione. Meccanismo che mette in relazione ogni elemento dell'input con tutti gli altri.
  • Semantic Segmentation

    Segmentazione semantica. Assegna a ogni pixel dell'immagine la classe dell'oggetto a cui appartiene, senza distinguere istanze.
  • SIFT

    Caratteristiche invarianti. Algoritmo che estrae punti chiave robusti a scala e rotazione per il matching tra immagini.
  • SLIC

    Superpixel SLIC. Algoritmo efficiente che genera superpixel regolari raggruppando pixel per colore e posizione.
  • Sobel Operator

    Operatore di Sobel. Filtro che evidenzia i bordi calcolando il gradiente di intensità lungo gli assi.
  • SSD

    Rilevatore single-shot. Predice oggetti e classi in un unico passaggio usando feature map a più scale.
  • SSIM

    Similarità strutturale. Metrica che valuta la qualità percepita confrontando struttura, luminanza e contrasto.
  • Stereo Vision

    Visione stereoscopica. Stima la profondità confrontando due immagini riprese da punti di vista diversi.
  • Stride

    Passo. Numero di pixel di cui il kernel si sposta a ogni applicazione durante la convoluzione.
  • Structure from Motion

    Struttura dal movimento. Ricostruisce geometria 3D e posizioni della camera da una sequenza di immagini.
  • Super-Resolution

    Aumento di risoluzione. Ricostruisce un'immagine ad alta risoluzione a partire da una versione a bassa risoluzione.
  • Superpixel

    Superpixel. Raggruppamento di pixel adiacenti e simili che semplifica l'immagine in regioni coerenti.
  • SURF

    Caratteristiche accelerate. Versione più veloce di SIFT che approssima i calcoli per estrarre descrittori robusti.
  • Swin Transformer

    Trasformer a finestre. Vision Transformer gerarchico che calcola l'attenzione su finestre locali scorrevoli.
  • T

  • Template Matching

    Confronto con modello. Tecnica che cerca in un'immagine la posizione che meglio corrisponde a un'immagine campione.
  • Text Detection

    Rilevamento del testo. Localizzazione delle aree contenenti testo all'interno di un'immagine.
  • Thresholding

    Sogliatura. Converte un'immagine in binaria separando i pixel sopra e sotto un valore di intensità.
  • Top-5 Accuracy

    Accuratezza top-5. Metrica che considera corretta una predizione se la classe giusta è tra le prime cinque proposte.
  • Transposed Convolution

    Convoluzione trasposta. Operazione che aumenta la risoluzione delle feature map, usata nei decoder.
  • Triangulation

    Triangolazione. Determina la posizione 3D di un punto incrociando le sue proiezioni in più viste.
  • U

  • U-Net

    Rete a U per segmentazione. Architettura con percorso di compressione ed espansione e connessioni skip, nata in ambito medico.
  • V

  • VGG

    Rete VGG. Architettura profonda e regolare basata su piccoli kernel convoluzionali impilati.
  • Vision Transformer

    Trasformer per immagini. Architettura che divide l'immagine in patch e le elabora con meccanismi di attenzione.
  • Visual Odometry

    Odometria visiva. Stima il movimento della camera analizzando la sequenza di immagini riprese.
  • Volumetric Rendering

    Rendering volumetrico. Tecnica che genera immagini accumulando colore e densità lungo i raggi nello spazio.
  • Voxel

    Voxel. Equivalente tridimensionale del pixel, rappresenta un valore in una griglia di volume.
  • W

  • Watershed

    Spartiacque. Algoritmo di segmentazione che tratta l'immagine come un rilievo e separa le regioni come bacini.
  • Y

  • YOLO

    Rilevatore in tempo reale. Famiglia di modelli che individua oggetti in un solo passaggio sulla rete, molto veloce.
  • YUV Color Space

    Spazio colore YUV. Modello che separa la luminanza dalle informazioni di crominanza, usato nei video.
1.500
Termini pubblicati
10
Glossari verticali
5
Aree tematiche
69
Tag tematici

Preferenze cookie

Gestisci i cookie usati su Glossario Italiano. Puoi modificare le preferenze in qualsiasi momento dal link "Gestisci preferenze" in fondo a ogni pagina.

  • Necessari
    Login, sicurezza (CSRF), preferenze cookie. Sempre attivi.
    Sempre on
  • Statistici
    Misurano in forma aggregata come viene usato il sito. Nessun profilo personale.
  • Marketing
    Cookie di reti pubblicitarie esterne, se attivati in futuro. Oggi GLS non usa script di terze parti e i nostri sponsor sono editoriali, non profilano.