Intelligenza Artificiale
Computer Vision
Far vedere le macchine: riconoscimento immagini, rilevamento oggetti e modelli visivi. I termini della computer vision spiegati chiaro.
150 termini
-
A
-
Affine Transform
Trasformazione affine. Trasformazione che preserva linee parallele tramite rotazione, scala, traslazione e taglio. -
Anchor Box
Riquadro di ancoraggio. Riquadro predefinito di forma e dimensione fissa usato come riferimento nel rilevamento. -
Average Pooling
Pooling medio. Riduce le feature map sostituendo ogni regione con la media dei suoi valori. -
B
-
Backbone
Rete dorsale. Rete convoluzionale di base che estrae le caratteristiche riutilizzate dai vari task. -
Background Subtraction
Sottrazione dello sfondo. Isola gli oggetti in movimento rimuovendo lo sfondo statico di una scena. -
Bag of Visual Words
Sacco di parole visive. Rappresentazione che descrive un'immagine come frequenza di caratteristiche locali raggruppate. -
Bilateral Filter
Filtro bilaterale. Filtro che riduce il rumore preservando i bordi, pesando i pixel per vicinanza e somiglianza. -
Bilinear Interpolation
Interpolazione bilineare. Metodo che stima il valore di un pixel mediando i quattro pixel vicini, usato nel ridimensionamento. -
Bundle Adjustment
Aggiustamento dei fasci. Ottimizzazione che affina insieme punti 3D e parametri di camera minimizzando l'errore di proiezione. -
C
-
Camera Calibration
Calibrazione della camera. Stima i parametri interni dell'obiettivo per correggere distorsioni e misurare la scena. -
Canny Edge Detector
Rilevatore di Canny. Algoritmo multi-fase che individua bordi netti con soppressione e doppia soglia. -
Class Imbalance
Sbilanciamento delle classi. Situazione in cui alcune categorie sono molto più rare di altre nei dati. -
Class Token
Token di classe. Vettore speciale aggiunto in un ViT che raccoglie l'informazione per la classificazione finale. -
CLIP
Allineamento testo-immagine. Modello che apprende rappresentazioni condivise di immagini e descrizioni testuali. -
Closing
Chiusura morfologica. Dilatazione seguita da erosione, utile per colmare piccoli buchi negli oggetti. -
Color Histogram
Istogramma dei colori. Distribuzione delle frequenze dei colori in un'immagine, usata per descriverla. -
Confidence Threshold
Soglia di confidenza. Valore minimo di sicurezza sotto il quale una predizione viene scartata. -
Confusion Matrix
Matrice di confusione. Tabella che confronta classi predette e reali per analizzare gli errori del modello. -
Connected Components
Componenti connesse. Etichettatura di regioni di pixel contigui appartenenti allo stesso oggetto. -
Contour Detection
Rilevamento di contorni. Individua le curve continue che delimitano gli oggetti in un'immagine binaria. -
ConvNeXt
Rete convoluzionale moderna. Architettura che aggiorna le CNN classiche ispirandosi ai vincenti trasformer. -
Convolution
Convoluzione. Operazione che fa scorrere un kernel sull'immagine per estrarre caratteristiche locali. -
D
-
Data Annotation
Annotazione dei dati. Processo di etichettatura manuale di immagini per creare dati di addestramento. -
Depth Estimation
Stima della profondità. Calcola la distanza di ogni punto della scena dalla telecamera a partire da una o più immagini. -
Depthwise Separable Convolution
Convoluzione separabile in profondità. Scompone la convoluzione per ridurre calcolo e parametri, usata in reti leggere. -
DETR
Rilevamento con trasformer. Modello end-to-end che vede il rilevamento come predizione diretta di insiemi di oggetti. -
Dice Coefficient
Coefficiente di Dice. Metrica di segmentazione che misura la sovrapposizione tra maschera predetta e reale. -
Dilated Convolution
Convoluzione dilatata. Convoluzione con kernel espanso che amplia il campo recettivo senza aumentare i parametri. -
Dilation
Dilatazione. Operazione morfologica che ingrandisce gli oggetti aggiungendo pixel ai loro bordi. -
Disparity Map
Mappa di disparità. Rappresenta lo spostamento tra pixel corrispondenti in una coppia stereo, legato alla profondità. -
E
-
EfficientNet
Rete bilanciata. Architettura che scala in modo coordinato profondità, larghezza e risoluzione. -
Epipolar Geometry
Geometria epipolare. Descrive le relazioni geometriche tra due viste della stessa scena. -
Erosion
Erosione. Operazione morfologica che assottiglia gli oggetti rimuovendo i pixel sui bordi. -
Essential Matrix
Matrice essenziale. Versione calibrata della matrice fondamentale, lega due viste con camera nota. -
Extrinsic Parameters
Parametri estrinseci. Posizione e orientamento della camera rispetto al mondo. -
F
-
Fast R-CNN
R-CNN accelerato. Versione che condivide il calcolo convoluzionale su tutta l'immagine per velocizzare il rilevamento. -
Faster R-CNN
Rilevatore a due stadi. Introduce una rete di proposta di regioni integrata, eliminando i metodi esterni lenti. -
Feature Map
Mappa di caratteristiche. Output di un filtro convoluzionale che evidenzia dove appare una certa caratteristica. -
Feature Matching
Corrispondenza di caratteristiche. Associazione di punti chiave tra immagini diverse confrontandone i descrittori. -
Feature Pyramid Network
Rete a piramide di caratteristiche. Struttura che combina feature a più scale per rilevare oggetti di dimensioni diverse. -
Focal Loss
Focal loss. Funzione di perdita che riduce il peso degli esempi facili per concentrarsi su quelli difficili. -
Frame Differencing
Differenza tra fotogrammi. Rileva movimento confrontando pixel di fotogrammi consecutivi. -
Fundamental Matrix
Matrice fondamentale. Matrice che descrive la relazione epipolare tra due immagini non calibrate. -
G
-
Gaussian Blur
Sfocatura gaussiana. Filtro che attenua dettagli e rumore mediando i pixel secondo una distribuzione gaussiana. -
Gaussian Pyramid
Piramide gaussiana. Piramide ottenuta sfocando e sottocampionando ripetutamente l'immagine. -
GrabCut
Segmentazione interattiva. Metodo che separa primo piano e sfondo a partire da un riquadro fornito dall'utente. -
Grad-CAM
Grad-CAM. Tecnica che evidenzia le regioni dell'immagine più rilevanti per la decisione di una rete. -
Ground Truth Mask
Maschera di riferimento. Segmentazione corretta annotata a mano usata per valutare le predizioni. -
H
-
Hard Negative Mining
Selezione dei negativi difficili. Tecnica che addestra il modello sugli esempi di sfondo più ingannevoli. -
Harris Corner Detector
Rilevatore di angoli. Algoritmo che individua punti dove l'intensità varia in più direzioni. -
Heatmap
Mappa di calore. Rappresentazione a colori dell'intensità di un valore su una superficie, usata per pose e attenzione. -
Histogram Equalization
Equalizzazione dell'istogramma. Tecnica che ridistribuisce le intensità per migliorare il contrasto dell'immagine. -
HOG
Istogramma dei gradienti. Descrittore che riassume le direzioni dei gradienti locali, usato per riconoscere forme. -
Homography
Omografia. Trasformazione che mappa punti tra due piani, usata per allineare immagini complanari. -
Hough Transform
Trasformata di Hough. Metodo che individua forme geometriche come rette e cerchi votando in uno spazio di parametri. -
HSV Color Space
Spazio colore HSV. Modello che descrive il colore tramite tonalità, saturazione e valore di luminosità. -
Hu Moments
Momenti di Hu. Set di sette descrittori invarianti a traslazione, scala e rotazione per riconoscere forme. -
I
-
Image Classification
Classificazione di immagini. Task che assegna a un'intera immagine una sola etichetta tra categorie predefinite. -
Image Denoising
Riduzione del rumore. Rimuove disturbi e granulosità da un'immagine preservandone i dettagli reali. -
Image Gradient
Gradiente di immagine. Vettore che indica direzione e intensità della variazione di luminosità in un punto. -
Image Kernel
Kernel di immagine. Piccola matrice di pesi applicata in convoluzione per filtrare o trasformare un'immagine. -
Image Moments
Momenti dell'immagine. Misure statistiche di una regione usate per calcolarne area, centroide e orientamento. -
Image Pyramid
Piramide di immagini. Serie di versioni della stessa immagine a risoluzioni decrescenti, usata per analisi multiscala. -
Image Registration
Allineamento di immagini. Sovrappone due o più immagini della stessa scena in un sistema di coordinate comune. -
Image Retrieval
Recupero di immagini. Cerca in un archivio le immagini più simili a una query visiva data. -
Inception
Modulo Inception. Architettura che applica filtri di dimensioni diverse in parallelo nello stesso livello. -
Inpainting
Ricostruzione di aree mancanti. Riempie regioni rovinate o rimosse di un'immagine in modo coerente con il contesto. -
Instance Segmentation
Segmentazione di istanze. Identifica e separa singoli oggetti distinti della stessa classe, mascherandoli pixel per pixel. -
Intersection over Union Loss
Perdita IoU. Funzione di costo che ottimizza direttamente la sovrapposizione tra riquadri predetti e reali. -
Intrinsic Parameters
Parametri intrinseci. Caratteristiche interne della camera come lunghezza focale e centro ottico. -
IoU
Intersezione su unione. Metrica che misura la sovrapposizione tra riquadro predetto e riquadro reale. -
K
-
Kalman Filter
Filtro di Kalman. Algoritmo che stima e predice lo stato di un oggetto in movimento riducendo il rumore. -
Keypoint Detection
Rilevamento di punti chiave. Localizza punti caratteristici di un oggetto, come articolazioni del corpo o tratti del volto. -
L
-
Laplacian Operator
Operatore laplaciano. Filtro basato sulla derivata seconda che evidenzia bordi e zone di rapida variazione. -
Laplacian Pyramid
Piramide laplaciana. Rappresentazione che memorizza i dettagli persi tra i livelli di una piramide gaussiana. -
Lens Distortion
Distorsione dell'obiettivo. Deformazione geometrica introdotta dall'ottica, come l'effetto barile o cuscinetto. -
LiDAR
LiDAR. Sensore che misura distanze con impulsi laser per produrre nuvole di punti 3D. -
M
-
mAP
Precisione media. Metrica principale del rilevamento, media delle precisioni su classi e soglie di sovrapposizione. -
Mask R-CNN
Rilevatore con maschere. Estende Faster R-CNN aggiungendo un ramo che produce maschere di segmentazione per ogni istanza. -
Max Pooling
Pooling massimo. Riduce le feature map mantenendo il valore più alto di ogni regione. -
Mean Average Precision
Precisione media globale. Sintesi delle prestazioni di rilevamento mediando la precisione su tutte le classi. -
Median Filter
Filtro mediano. Filtro che sostituisce ogni pixel con il valore mediano dei vicini, efficace contro il rumore impulsivo. -
Mesh
Mesh poligonale. Rappresentazione 3D di superfici tramite vertici, spigoli e facce. -
MobileNet
Rete per dispositivi mobili. Architettura leggera ottimizzata per girare su smartphone e dispositivi embedded. -
Morphological Operations
Operazioni morfologiche. Trasformazioni come erosione e dilatazione che modificano la forma di regioni binarie. -
N
-
Nearest Neighbor Interpolation
Interpolazione al vicino più prossimo. Ridimensiona copiando il valore del pixel più vicino, veloce ma a blocchi. -
NeRF
Campi di radianza neurali. Modello che ricostruisce scene 3D fotorealistiche da immagini per sintetizzare nuove viste. -
Non-Maximum Suppression
Soppressione dei non massimi. Tecnica che elimina i riquadri ridondanti mantenendo solo quello con confidenza maggiore. -
O
-
Object Tracking
Inseguimento di oggetti. Segue la posizione di uno o più oggetti attraverso i fotogrammi di un video. -
Opening
Apertura morfologica. Erosione seguita da dilatazione, utile per rimuovere piccoli disturbi. -
Optical Character Recognition Pipeline
Pipeline OCR. Sequenza di passi che individua, ritaglia e riconosce il testo presente in un'immagine. -
Optical Flow
Flusso ottico. Stima il movimento apparente di pixel tra fotogrammi successivi di un video. -
Optical Flow Lucas-Kanade
Flusso ottico di Lucas-Kanade. Metodo che stima il movimento di piccoli intorni di pixel assumendolo localmente costante. -
ORB
Descrittore efficiente. Combinazione veloce e libera da brevetti di rilevatore di angoli e descrittore binario. -
Otsu Thresholding
Sogliatura di Otsu. Metodo che sceglie automaticamente la soglia ottimale massimizzando la separazione tra classi. -
P
-
Padding
Riempimento. Aggiunta di pixel ai bordi dell'immagine per controllare la dimensione dell'output convoluzionale. -
Panoptic Segmentation
Segmentazione panottica. Unisce segmentazione semantica e di istanze etichettando ogni pixel sia per classe sia per istanza. -
Patch Embedding
Embedding di patch. Conversione delle porzioni di immagine in vettori numerici per i Vision Transformer. -
Perspective Transform
Trasformazione prospettica. Modifica un'immagine per correggere o simulare il punto di vista. -
Photogrammetry
Fotogrammetria. Tecnica che ricostruisce misure e modelli 3D a partire da fotografie. -
Pinhole Camera Model
Modello di camera stenopeica. Modello geometrico ideale che proietta i punti 3D attraverso un singolo foro. -
Pixel
Pixel. Unità minima di un'immagine digitale, definita da una posizione e un valore di colore. -
Point Cloud
Nuvola di punti. Insieme di punti 3D che rappresenta la superficie di oggetti o scene nello spazio. -
Pooling
Sottocampionamento. Operazione che riduce la dimensione delle feature map aggregando valori vicini. -
Positional Encoding
Codifica posizionale. Informazione aggiunta agli input per indicare la posizione spaziale delle patch. -
Precision-Recall Curve
Curva precisione-richiamo. Grafico che mostra il compromesso tra precisione e capacità di trovare tutti gli oggetti. -
PSNR
Rapporto segnale-rumore di picco. Metrica che misura la qualità di un'immagine ricostruita rispetto all'originale. -
R
-
R-CNN
Rilevatore a regioni. Architettura che propone regioni candidate e le classifica con una rete convoluzionale. -
RANSAC
Stima robusta. Algoritmo che adatta un modello ai dati ignorando i valori anomali tramite campionamento casuale. -
Receptive Field
Campo recettivo. Porzione dell'immagine di ingresso che influenza un singolo valore in una feature map. -
Rectification
Rettifica stereo. Allinea due immagini in modo che i punti corrispondenti stiano sulla stessa riga. -
Region Growing
Crescita di regioni. Segmentazione che parte da pixel seme e aggrega i vicini simili. -
Region of Interest
Regione di interesse. Porzione dell'immagine selezionata per l'analisi mirata. -
Region Proposal Network
Rete di proposta regioni. Componente che genera rapidamente riquadri candidati dove cercare oggetti. -
ResNet
Rete residua. Architettura con connessioni di salto che permette di addestrare reti molto profonde. -
RetinaNet
Rilevatore one-stage. Modello che usa la focal loss per gestire lo sbilanciamento tra sfondo e oggetti. -
RGB Channel
Canale RGB. Una delle tre componenti rosso, verde e blu che insieme formano un'immagine a colori. -
ROI Align
Allineamento di regione. Versione precisa del ROI pooling che evita arrotondamenti, usata in Mask R-CNN. -
ROI Pooling
Pooling di regione. Operazione che estrae feature di dimensione fissa da regioni candidate di varia grandezza. -
S
-
Saliency Map
Mappa di salienza. Visualizzazione delle aree dell'immagine che attirano l'attenzione o influenzano la predizione. -
SAM
Segmentazione universale. Modello che produce maschere di qualsiasi oggetto partendo da prompt come punti o riquadri. -
Self-Attention
Auto-attenzione. Meccanismo che mette in relazione ogni elemento dell'input con tutti gli altri. -
Semantic Segmentation
Segmentazione semantica. Assegna a ogni pixel dell'immagine la classe dell'oggetto a cui appartiene, senza distinguere istanze. -
SIFT
Caratteristiche invarianti. Algoritmo che estrae punti chiave robusti a scala e rotazione per il matching tra immagini. -
SLIC
Superpixel SLIC. Algoritmo efficiente che genera superpixel regolari raggruppando pixel per colore e posizione. -
Sobel Operator
Operatore di Sobel. Filtro che evidenzia i bordi calcolando il gradiente di intensità lungo gli assi. -
SSD
Rilevatore single-shot. Predice oggetti e classi in un unico passaggio usando feature map a più scale. -
SSIM
Similarità strutturale. Metrica che valuta la qualità percepita confrontando struttura, luminanza e contrasto. -
Stereo Vision
Visione stereoscopica. Stima la profondità confrontando due immagini riprese da punti di vista diversi. -
Stride
Passo. Numero di pixel di cui il kernel si sposta a ogni applicazione durante la convoluzione. -
Structure from Motion
Struttura dal movimento. Ricostruisce geometria 3D e posizioni della camera da una sequenza di immagini. -
Super-Resolution
Aumento di risoluzione. Ricostruisce un'immagine ad alta risoluzione a partire da una versione a bassa risoluzione. -
Superpixel
Superpixel. Raggruppamento di pixel adiacenti e simili che semplifica l'immagine in regioni coerenti. -
SURF
Caratteristiche accelerate. Versione più veloce di SIFT che approssima i calcoli per estrarre descrittori robusti. -
Swin Transformer
Trasformer a finestre. Vision Transformer gerarchico che calcola l'attenzione su finestre locali scorrevoli. -
T
-
Template Matching
Confronto con modello. Tecnica che cerca in un'immagine la posizione che meglio corrisponde a un'immagine campione. -
Text Detection
Rilevamento del testo. Localizzazione delle aree contenenti testo all'interno di un'immagine. -
Thresholding
Sogliatura. Converte un'immagine in binaria separando i pixel sopra e sotto un valore di intensità. -
Top-5 Accuracy
Accuratezza top-5. Metrica che considera corretta una predizione se la classe giusta è tra le prime cinque proposte. -
Transposed Convolution
Convoluzione trasposta. Operazione che aumenta la risoluzione delle feature map, usata nei decoder. -
Triangulation
Triangolazione. Determina la posizione 3D di un punto incrociando le sue proiezioni in più viste. -
U
-
U-Net
Rete a U per segmentazione. Architettura con percorso di compressione ed espansione e connessioni skip, nata in ambito medico. -
V
-
VGG
Rete VGG. Architettura profonda e regolare basata su piccoli kernel convoluzionali impilati. -
Vision Transformer
Trasformer per immagini. Architettura che divide l'immagine in patch e le elabora con meccanismi di attenzione. -
Visual Odometry
Odometria visiva. Stima il movimento della camera analizzando la sequenza di immagini riprese. -
Volumetric Rendering
Rendering volumetrico. Tecnica che genera immagini accumulando colore e densità lungo i raggi nello spazio. -
Voxel
Voxel. Equivalente tridimensionale del pixel, rappresenta un valore in una griglia di volume. -
W
-
Watershed
Spartiacque. Algoritmo di segmentazione che tratta l'immagine come un rilievo e separa le regioni come bacini. -
Y
-
YOLO
Rilevatore in tempo reale. Famiglia di modelli che individua oggetti in un solo passaggio sulla rete, molto veloce. -
YUV Color Space
Spazio colore YUV. Modello che separa la luminanza dalle informazioni di crominanza, usato nei video.