Descriptores visuales

Los descriptores visuales describen las características visuales de los contenidos dispuestos en imágenes o en vídeos. Describen características elementales tales como la forma, el color, la textura o el movimiento, entre otros.

Introducción

Como consecuencia de las nuevas tecnologías de comunicación y al uso masivo de Internet en la sociedad actual, la cantidad de información audiovisual disponible en formato digital está alcanzando cifras realmente elevadas. Es por ese motivo que ha sido preciso diseñar sistemas que nos permitan describir el contenido de varios tipos de información multimedia para poderlos buscar y clasificar.

Los encargados de describir el contenido son los llamados descriptores audiovisuales. Estos tienen un buen conocimiento de los objetos y eventos presentes en un vídeo, imagen o audio y permiten la búsqueda rápida y eficiente de dicho contenido audiovisual.

Este sistema se puede comparar con los buscadores de contenido textual. Si bien es cierto que es relativamente fácil encontrar texto con un ordenador, resulta mucho más difícil encontrar partes concretas de audio y vídeo. Por ejemplo, imaginemos alguien buscando una escena de una persona feliz. La felicidad es un sentimiento y no es evidente la descripción de su forma, color y textura en las imágenes.

La descripción del contenido audiovisual no es una tarea superficial y es esencial para la utilización eficaz de este tipo de archivos. El sistema de estandarización por excelencia que explota los descriptores audiovisuales es el MPEG-7 (Motion Picture Expert Group - 7).

Tipos de descriptores visuales

Los descriptores son el primer paso para poder encontrar la conexión entre los píxeles contenidos en una Imagen digital y aquello que los humanos recordamos después de haber observado durante unos minutos una Imagen o un conjunto de las mismas.

Los descriptores visuales se dividen en dos grandes grupos:

Descriptores de información general: contienen descriptores de bajo nivel, proporcionando una descripción acerca del color, formas y regiones, texturas y movimiento.
Descriptores de información de dominio específico: proporcionan información acerca de los objetos y eventos que van apareciendo en la escena. Un ejemplo muy concreto sería el de reconocimiento facial.

Descriptores de información general

Los descriptores de información general consisten en descriptores que cubren distintas características visuales básicas y elementales como son: el color, textura, forma, movimiento y localización, entre otras. La descripción es generada automáticamente mediante procesamiento digital de señales.

Color: es la cualidad más básica del contenido visual. Se definen cinco herramientas para describir el color. Las tres primeras herramientas representan la distribución del color. Las dos restantes, describen la distribución espacial del color y la relación de éste entre una secuencia o conjunto de imágenes:
- Dominant Color Descriptor (DCD)
- Scalable Color Descriptor (SCD)
- Color Structure Descriptor (CSD)
- Color Layout Descriptor (CLD)
- Group of frame (GoF) o Group-of-pictures (GoP)

Textura: es otra cualidad muy importante para describir una Imagen. Se diseña para caracterizar las texturas o regiones de una Imagen. Observan la homogeneidad de las regiones y los histogramas de los bordes de dichas regiones. El conjunto de descriptores está formado por:
- Homogeneous Texture Descriptor (HTD)
- Texture Browsing Descriptor (TBD)
- Edge Histogram Descriptor (EHD)

Forma: posee una información semántica muy importante, debido a que los humanos somos capaces de reconocer los objetos solo viendo su forma. No obstante, esta información solo puede ser extraída mediante una segmentación similar a la que realiza el sistema visual humano. En la actualidad todavía no está disponible, pero si existen una serie de algoritmos que nos permiten una buena aproximación. Estos descriptores describen las regiones, contornos y formas para imágenes 2D y volúmenes 3D. El conjunto de descriptores está formado por:
- Region-based Shape Descriptor (RSD)
- Contour-based Shape Descriptor (CSD)
- 3-D Shape Descriptor (3-D SD)

Movimiento: se define mediante cuatro descriptores que describen el movimiento en las secuencias de vídeo. Este movimiento va asociado a los objetos de la secuencia o bien al movimiento propio de la cámara. Esta última información es proporcionada por el dispositivo de captura, mientras que el resto se realiza con procesamiento digital de señales. El conjunto de descriptores está formado por:
- Motion Activity Descriptor (MAD)
- Camera Motion Descriptor (CMD)
- Motion Trajectory Descriptor (MTD)
- Warping and Parametric Motion Descriptor (WMD and PMD)

LOCALIZACIÓN: de los elementos dentro de una Imagen se utiliza para describir elementos en el dominio espacial o temporal dentro de la secuencia de vídeo. Los dos descriptores que lo permiten son los siguientes:
- Region Locator Descriptor (RLD)
- Spatio Temporal Locator Descriptor (STLD)

Descriptores de información de dominio específico

Estos descriptores, que proporcionan información sobre objetos y eventos en la escena, no son fáciles de extraer, aún más si se pretende realizar una extracción automática. Sin embargo, siempre cabe la posibilidad, aunque ardua, de realizar un procesado manual.

Tal y como se ha mencionado anteriormente, un ejemplo concreto de una aplicación que intenta extraer este tipo de información de forma automática sería el de reconocimiento facial.

Aplicaciones de los descriptores

Entre todas sus aplicaciones, las más relevantes son:

Buscadores y clasificadores de documentos multimedia.

Bibliotecas Digitales. Permite una búsqueda muy detallada y concreta de cualquier vídeo o imagen, mediante diferentes tipos de parámetros de búsqueda: desde la búsqueda de la última película donde salga un actor conocido, hasta buscar todos los vídeos donde salga la montaña Everest.

Servicio de noticias electrónicas personalizado.

Posibilidad de una conexión automática a un canal de televisión, que esté emitiendo un partido de fútbol, cada vez que un jugador se acerque al área de gol, por ejemplo.

Filtrado y control de cierto contenido audiovisual. Por ejemplo material violento o pornográfico no apto para ciertas personas. Y también autorización para algunos contenidos multimedia.

Véase también

Referencias

B.S. Manjunath (Editor), Philippe Salembier (Editor), and Thomas Sikora (Editor): Introduction to MPEG-7: Multimedia Content Description Interface. Wiley & Sons, April 2002 - ISBN 0-471-48678-7

Enlaces externos

Multimedia Content Analysis Using both Audio and Video Clues[1] — PDF (en inglés)

Relating Visual and Semantic Image Descriptors[2]

Fusing MPEG-7 visual descriptors for image classication[3]

MPEG-7 Quick Reference[4]

Datos: Q4894627