Archivos de la etiqueta: Estándares
Propuesta de un modelo base para un sistema de búsqueda de vídeos digitales a través de su contenido
Propuesta de un modelo base para un sistema de búsqueda de vídeos digitales a través de su contenido
Autor(es): Ing. Ivis Cabrera Guerra Ing. Roexcy Vega Prieto Tutor: Ing. Guillermo Báez Ramos Universidad de las Ciencia Informáticas.
Resumen
Actualmente, la investigación y la práctica han demostrado que las búsquedas de archivos audiovisuales son más eficientes si están basadas en su contenido, lo que lo hace una necesidad para este tipo de sistemas. De manera general las búsquedas se hacen tradicionalmente a partir de descripciones de las medias, para almacenar la duración, el título, las extensiones, entre otras características que no logran describir el contenido. Es por ello que la eficiencia de las búsquedas no es la deseada en estos sistemas. El objetivo fundamental del presente trabajo está centrado en crear una propuesta de un modelo para el procesamiento y la búsqueda de medias siguiendo este criterio. Se propone el modelo de un sistema capaz de analizar los archivos audiovisuales y extraer las características que describen su contenido, para usarlas posteriormente en el proceso de búsqueda especificada. La propuesta cuenta con los elementos requeridos en materia de procesamiento de medias y para ello utiliza el estándar de descripción de archivos MPEG-7.
Palabras claves: Archivos audiovisuales, videos digitales, metadatos, estándares.
Abstract
Nowadays, it has been demonstrated by both research and practice that the search for audiovisual files is more efficient if it is based on their content, which makes it a need for this kind of system. In general, these searches are traditionally made from media descriptions, in order to store the length, title, extensions and other features that do not correctly describe the content. This is the reason why those searches do not have the expected efficiency. Due to this, the main objective of this research work is to propose a model for processing and searching for audiovisual files following this criterion. A model of a system is proposed. The system is capable of analyzing the audiovisual files, and extracting the features that describe their content, to use them later in the search process. The proposal contains all the elements required to handle audiovisual files. The standard for file description proposed is MPEG-7.
Keywords: Audiovisual files, digital video, metadata and standards.
Contenido
Introducción ……………………………………………………………………………………………………………… 5
Capítulo I: Búsqueda de videos digitales. ……………………………………………………………………….. 8
1.1 Introducción. ………………………………………………………………………………………………………. 8
1.2. Principales conceptos asociados al dominio del problema. ………………………………………….. 8
1.3. Búsqueda de contenidos audiovisuales. …………………………………………………………………… 9
1.4. Proceso de búsqueda tradicional …………………………………………………………………………. 15
1.4.1. Modelos de recuperación. ……………………………………………………………………. ………… 19
1.5. Proceso de búsqueda en contenidos audiovisuales. …………………………………………………. 20
1.6. Resumen del capítulo. ……………………………………………………………………………………….. 23
Capítulo II: Metadatos en la búsqueda de videos digitales ………………………………………………. 24
2.1. Metadatos. ……………………………………………………………………………………………………… 24
2.2. Tipos de metadatos. …………………………………………………………………………………………. 26
2.3. Estándares de metadatos. ………………………………………………………………………………….. 27
2.3.1. Estándar MPEG-7. ……………………………………………………………………………………….. 27
2.4. …………………………………………………………………………………………………………………….. 36
2.5. Resumen del capítulo. ………………………………………………………………………………………. 37
Capítulo III: Propuesta d el modelo conceptual del sistema de búsqueda. …………………………. 38
3.1. Propuesta del modelo conceptual del sistema de búsqueda. …………………………………….. 38
Conclusiones ………………………………………………………………………………………………………… 49
Recomendaciones …………………………………………………………………………………………………. 50
Referencias Bibliográficas ……………………………………………………………………………………….. 51
Introducción
Con el vertiginoso desarrollo de las TIC (Tecnologías de la Información y las Comunicaciones) el mundo comenzó una nueva era, la Era de la Información. Grandes volúmenes de datos recorren todo el planeta y se hace indispensable su manipulación. El uso generalizado de Internet ha provocado que el flujo de información que transita por la red aumente cada día, y en especial aquella información relacionada con archivos multimedias, entre los que se encuentran los videos digitales.
Debido a sus características, los videos digitales han adquirido un lugar importante en la preferencia de los usuarios de Internet y en general de las personas que tienen acceso a él. Su utilización brinda la posibilidad de ir más allá de las capacidades de la televisión tradicional, pueden adquirirlo, manipularlo y almacenarlo. Además, les brinda no sólo imágenes en movimiento, sino también la palabra hablada, el sonido, las texturas de luz y oscuridad, el color y el tiempo.
Sin embargo la búsqueda de videos digitales no está siendo para los usuarios una tarea fácil, pues aunque se hace sencillo realizarla a través de buscadores disponibles en la red, por palabras claves que describen solo el título, el autor, y otras características del video digital que el usuario domina; se presentan problemas a la hora de responder a las necesidades y preferencias específicas de los clientes, ya que los resultados son ineficaces, debido a que la mayoría de los buscadores se limitan a las características antes citadas y no al contenido del video digital (Amengual Galdón, 2006).
Este problema se acentúa más en el caso de las empresas, entidades y grupos de desarrollo dedicados a la producción y/o distribución de materiales audiovisuales, pues a menudo cuentan con gigantescas bibliotecas de videos digitales que muy pocas veces tienen descripciones profundas, lo que impide realizar búsquedas tanto por características de alto nivel (como las antes mencionadas); como por la información de bajo nivel de abstracción (color, texturas, formas,), que solo se pueden obtener a través del procesamiento del video.
Contar con un método eficaz y sencillo de buscar, gestionar, adquirir y recuperar el video digital que se necesite, es el mayor reto que enfrentan las tecnologías y estándares que dan soporte a la creación, desarrollo, codificación, decodificación y descripción de video independientemente de la plataforma.
La manera común de buscar un video digital actualmente es a través de buscadores disponibles en la red, o sistemas que realizan la búsqueda creados por diferentes compañías que se dedican al manejo de la información, o creados por organizaciones y empresas para las cuales se hace indispensable la gestión de videos digitales.
Existen dos generaciones de buscadores de video según la tecnología que utilizan (Casares, 2003). La primera generación son aquellos en los que la forma de organizar los resultados se basa en los metadatos del video, es decir, los datos que puede incorporar el propio video junto al contenido que hay en la página donde se encuentra (título, descripción, etiquetas, resumen, trascripción, resolución).
La segunda generación aunque también incorpora los elementos anteriores, llevan la tecnología un paso más allá, siendo ellos mismos los que utilizan reconocimiento de voz, análisis visual, reconocimiento del texto que puede aparecer por pantalla.
La mayoría de los buscadores existentes actualmente son del primer tipo, realizan las búsquedas basados solamente en las características que vienen acompañando al video como se describió en la definición de buscadores de primera generación; esto provoca que los resultados arrojados no sean los esperados por los usuarios.
Los del segundo tipo están menos generalizados debido a que su implementación es bastante difícil porque se requiere de robustos métodos de búsquedas, que realicen el proceso en el contenido del video, además se debe contar con un estándar de metadatos que los represente de una forma normalizada. Permiten recuperar un video a través de una imagen, forma, textura o color, así como otras características; por ejemplo, un video que contenga una secuencia del Che realizando un trabajo voluntario, solo especificando una foto de él sin la necesidad de especificar el nombre del fichero.
Un punto de partida esencial para lograr la eficiencia en el funcionamiento de sistemas de búsquedas de videos digitales, son los datos asociados al mismo material, más conocidos como metadatos. En ellos se resume la información del contenido de los videos, lo que permite el desarrollo de sistemas de búsquedas robustos que brinden respuestas rápidas y precisas, sin la necesidad de reprocesar nuevamente el material audiovisual.
Los metadatos de materiales audiovisuales provienen de diferentes fuentes: desarrolladores de contenido, editores, terceras partes o usuarios. Algunos de los metadatos se crean automáticamente y otros se añaden de forma manual; son parte del contenido o externos al mismo.
Capítulo I: Búsqueda de videos digitales.
1.1 Introducción.
En el capítulo se esclarecen conceptos importantes que sustentan el presente trabajo. Se realiza un análisis sobre el sistema de búsqueda de videos digitales, a través de sus tendencias actuales. Se exponen puntos importantes sobre las principales directrices en la realización de sistemas de búsqueda de videos digitales, que tienen repercusión directa en la creación de la propuesta del modelo.
1.2. Principales conceptos asociados al dominio del problema.
Contenidos audiovisuales:
lo constituyen cualquier producción que combine imágenes y sonidos, como por ejemplo: películas, grabaciones de video.
Video digital: es una secuencia de imágenes y audio que son almacenadas y reproducidas en forma digital (López Guzmán, 2000). El video hace referencia a la captación, procesamiento, transmisión y reconstrucción de una secuencia de imágenes y sonidos que representan escenas en movimiento. Está compuesto por fotogramas, que son cada una de las imágenes individuales de una secuencia o animación; por tomas, que son las secuencias de imágenes realizadas en un mismo plano y por escenas, que representan un conjunto de tomas relacionadas entre sí.
Recuperación de información: se define a través de la representación, almacenamiento, organización y su posterior acceso y recuperación para responder a las necesidades de un usuario. Es la disciplina encargada de la búsqueda de información en documentos, búsqueda de metadatos que describen un documento, o la búsqueda en base de datos de textos, sonidos, imágenes, videos.
Metadatos: son objetos que describen o proporcionan información sobre otros datos (Paulus Velázquez, 2005), se pueden definir además, como «datos sobre datos» (INFLANET, 1998)
Buscador o motor de búsqueda
(también llamado «Searchbot»): Es una herramienta usada para localizar los documentos en un repositorio por medio de palabras claves o una clasificación temática. Algunos requieren el usos de los operadores booleanos (or, and, not), los más avanzados permiten la interrogación en lenguaje natural. Mayormente son utilizados en sitios Web de Internet para ser empleados por los usuarios conectados a la red, con la necesidad de adquirir algún servicio o información; aunque también existen los buscadores realizados para trabajos específicos, en los que los trabajadores necesitan de una herramienta que sea capaz de brindarle el acceso a la información con la que cuentan, de una manera más rápida y eficiente.
Metabuscador: Sistemas que realizan el proceso de búsqueda en diferentes buscadores.
Indexación: Operación de registrar de forma ordenada la información para confeccionar un índice.
1.3. Búsqueda de contenidos audiovisuales.
El concepto de búsqueda ha estado presente desde los comienzos de la informática y ha ido evolucionando hasta los días actuales. Los primeros algoritmos de búsqueda que fueron creados, trataban de localizar de la forma más rápida posible los datos almacenados dentro de una base de datos local. Con los avances de la informática se descubrió rápidamente que mediante la indexación de estos datos el proceso de búsqueda podía ser acelerado considerablemente. De esta forma, surgieron los primeros motores de búsqueda, cuyo proceso consistía en facilitar la localización de contenidos dentro de bases de datos. Estos buscadores procesaban únicamente datos textuales y no eran capaces de realizar una adquisición activa de contenidos.
La aparición de las bases de datos distribuidas, unido a la aparición de Internet, propiciaron la creación de un nuevo concepto de buscador: sistema que de forma activa es capaz de explorar e indexar los contenidos independientemente de que se haya solicitado su búsqueda.
Así surge el concepto de buscador existente en la actualidad: un sistema informático que indexa archivos almacenados en servidores, como, por ejemplo, los buscadores de Internet (Siri, 2000).
Actualmente, estos buscadores tienen el desafío de enfrentarse a los contenidos audiovisuales. La cantidad de contenidos de video y audio se incrementa cada día, y éstos no pueden ser tratados del mismo modo que la información textual; los contenidos audiovisuales son difíciles de analizar y de comprender por un programa informático, mucho más que el texto. Estas nuevas situaciones necesitan esfuerzos de adaptación por parte de los motores de búsqueda.
Los motores de búsqueda se dividen en tres categorías: (García de Léon, et al., 2001)
- Directorios de materias.
- Metabuscadores.
- Motores de búsqueda individuales.
Directorio Es una herramienta que proporciona una organización temática jerárquica con la cual se permite recorrer los recursos de información de Internet; es decir, serían catálogos con una ordenación temática. Bajo cada categoría o sub-categoría, se listan los enlaces de los documentos que corresponden a un tema. No admiten la polijerarquía, por lo tanto, cada página Web se clasifica en un único epígrafe, trasladando de esa forma, el problema de la «ubicación física» de los documentos a la red.
Cuando se clasifica un documento para establecer su lugar en una colección, aunque el sistema utilizado acepte la relación temática, deberá tener una ubicación única. Sin embargo, cuando se habla de la red se entiende como una respuesta simplificadora a una tarea bien compleja. Para colaborar aún más con esa simplificación se trabaja sólo con las páginas de inicio. La clasificación es efectuada por el autor o los autores del documento, o por los administradores del directorio, por lo tanto, se trata de una clasificación manual.
A pesar de esta debilidad, pueden ser muy útiles en ocasiones. Lo importante es reconocer sus características para saber cuándo puede servirle al usuario. Los directorios son adecuados cuando no se tiene una idea precisa de lo que se busca, o cuando interesa buscar por grandes temas, para conocer el estado de una disciplina, o el tratamiento que un tema recibe en Internet.
Algunos directorios poseen también mecanismos propios de búsqueda por palabra clave, otros remiten la búsqueda que no pueden resolver por su condición de directorios, a un buscador que la resuelve sin que el usuario cambie de interfaz.
Algunos ejemplos de directorios:
Yahoo <http://www.yahoo.com>.
Looksmart <http://www.looksmart.com/>.
Ozú <http://www.ozu.es/>.
Metabuscadores o agentes multibuscadores
Los metabuscadores son estructuras que permiten remitir una búsqueda hacia varios buscadores en forma simultánea. Los metabuscadores no disponen de una base de datos propia, sino que utilizan la información almacenada en las bases de datos de otros buscadores y directorios. En la gran mayoría de los metabuscadores, los usuarios pueden seleccionar los buscadores en los que quieren que se efectúe la búsqueda.
Algunos ejemplos de metabuscadores:
Meta Crawler <http://www.metacrawler.com/>.
Dogpile <http://www.dogpile.com>.
Mamma <http://www.mamma.com/>.
Buscadores
Los buscadores son programas computacionales que recorren Internet examinando la información de acceso público en la red para su indización y almacenamiento; con este material se generan bases de datos en constante actualización, que permiten su interrogación por palabra clave para la recuperación de la información. En los buscadores la indización es realizada por los robots que son programas que rastrean la red sin pausa para identificar los recursos de dominio público e indizarlos. Esta información pasa a formar parte de la base de datos del buscador y una vez interrogados presentan una lista de enlaces (
links), muchas veces anotada, que llegan a incluir la extensión del documento y grado de pertinencia. La estructura de los buscadores varía de acuerdo con el tipo de indización, el tamaño de su índice, la frecuencia de actualización, las opciones de búsqueda, el tiempo de demora para su respuesta, la presentación de los resultados y las facilidades de uso.
Es por este motivo que una misma búsqueda podrá arrojar resultados diferentes en los distintos buscadores. Si bien todos comparten los rasgos necesarios para entrar en esta categoría de herramientas, las diferencias entre ellos pueden ser muy grandes en algunos casos.
Generalmente, ofertan la información recogida en sus propios sitios Web, donde pueden ser interrogados por los usuarios, aunque también es posible llegar a sus servicios a través de aquellos portales que los adquieren. Las capacidades de recolección de información, así como de interrogación y suministro de respuestas han variado con el tiempo y varían de acuerdo con las potencialidades de los diferentes buscadores. Inicialmente, recogían pocos datos de las páginas que visitaban, como título y primeras palabras del texto, más tarde comenzaron a leer los metadatos y considerarlos para la recuperación de la información y su descripción, actualmente algunos llegan a indizar el texto completo.
Si bien existe un amplio abanico a la hora de indizar, no ocurre lo mismo en cuanto al criterio para declarar la pertinencia de una referencia, pues para la mayoría de los motores de búsqueda este es similar. Tomada del título y las primeras palabras, de los metadatos o del texto completo, básicamente los buscadores indizan por el número de ocurrencias de un término y devuelven las referencias a los documentos por un sistema de ranking (originalmente se presentaban sin ningún tipo de orden).
Los motores de búsqueda que recorren la red están compuestos principalmente por tres partes (Montaño, et al., 1999):
- Los robots que recorren la red escrutándola.
- El motor de búsqueda que facilita la consulta a la base.
- La base de datos o índice.
Los robots son programas encargados de visitar servidores de la red Internet y, fundamentalmente en los servidores Web, extraer de los recursos que contienen aquella información necesaria para la formación o actualización de sus índices. Se ocupan de actualizar la información de la base de datos, de forma constante. Algunos motores de búsqueda permiten que se les envíe una dirección URL para posteriormente ellos visitarla e incorporarla a su base de datos.
La interfaz permite consultar la base de datos y representar en pantalla los datos y resultados de la búsqueda. La base de datos cuenta con sus propios programas de gestión que almacenan toda la información indizada, lista las direcciones Web, títulos, cabeceras, palabras, primeras líneas, abstracts, partes del texto o el texto completo. Según su contenido, los motores de búsqueda pueden ser distinguidos entre motores de carácter general, que indizan recursos de toda la Web, y motores especializados, que se ocupan de formar sus bases de datos con recursos que tratan sobre un tema determinado. Los motores de búsqueda estadísticos se caracterizan por la utilización de algoritmos7 que dan peso o importancia a las palabras en función de la rareza en el índice, la frecuencia del término en el documento, la posición de la palabra y la proximidad de los términos de búsqueda en el texto. El resultado se añade al cálculo de relevancia de una búsqueda y de este modo se establece el orden de aparición de los registros. Los motores de búsqueda construyen índices con los recursos de la red. El software que contienen les permite visitar un gran número de servidores, extraer información para registrar en sus bases de datos y actualizarla si ha sufrido variaciones desde la anterior visita. Su análisis se centra tanto en la información del recurso, como de los enlaces de hipertexto que pueda contener dicho recurso. Determinados motores resumen el contenido informativo de los recursos y extraen palabras claves, mientras que otros recogen la información de etiquetas Meta que contienen los términos de carácter descriptivo más interesantes para la localización del recurso. (Vidal Bordés, 2001) Por lo general, los motores de búsqueda se basan en texto; es decir, para poder rastrearse e indexarse, su contenido debe estar en formato de texto, por lo que existen pocos motores de búsqueda para otros archivos como videos digitales, los cuales necesitan una información más precisa para responder a la petición de búsqueda realizada por el usuario de una manera más eficiente. Para lograr esta eficiencia en la respuesta al usuario, los motores de búsqueda deben estar centrados en realizar la búsqueda por contenido, que aunque hasta el momento no tiene una gran utilización debido a constituir un campo de exploración relativamente joven, es el que mejores resultados aporta teniendo en cuenta su capacidad de respuesta. Para los motores de búsqueda que realizan la exploración en la red a través de páginas Web de solo texto, la búsqueda por contenido le resulta, aunque un poco difícil para los realizadores del motor, bastante fácil para el usuario que haga la petición de búsqueda, la respuesta será con más certeza que la que podría dar un motor que realice la búsqueda normalmente por el nombre de la página o por palabras claves, debido a que la mayor parte de los buscadores sólo reconocen texto, por lo que se hace más difícil generar una identificación automática de las características de recursos tales como las imágenes digitales, o los diferentes contenidos audiovisuales, entre ellos, los videos. Para los materiales audiovisuales, la búsqueda por contenido no está totalmente desarrollada, debido a que no es una tarea fácil para los desarrolladores de buscadores. La realización de sistemas que analicen el contenido de estos archivos, sería la manera más segura de responder apropiadamente a la petición del usuario, este definiría la búsqueda, con las características específicas del archivo, las cuales el sistema concebiría como metadatos; estos contienen los términos descriptivos relevantes para la localización del fichero, con lo cual se respondería a la solicitud de acuerdo a lo especificado. Los sistemas que realizan las búsquedas de archivos audiovisuales como videos, lo hacen basados en el contenido, en varios casos en el histograma, y en otros en el texto que acompaña a las imágenes, en ocasiones se asocia el texto del guión de una película o serie de televisión con las imágenes u otro archivo de video digital, típicamente a nivel de plano o escena, según se pretendan implementar posteriormente las búsquedas. Tener una buena descripción del video hace posible desarrollar sistemas dotados de una mayor inteligencia que los clásicos mecanismos de búsqueda. Un factor importante en la aparición de nuevas aplicaciones de este tipo será la adopción de estándares para el desarrollo del contenido audiovisual. (Navarrete, et al., 2003) Pero estos estándares no contemplan ni el análisis de la imagen, ni el sistema de conocimiento para la búsqueda. Se requiere, por tanto, abordar la tarea de segmentación del material audiovisual, la obtención de key-frames8 y la extracción de contenido semántico. El primer paso en el análisis del video digital consiste en su segmentación temporal (inicio y final de cada plano) para poder construir índices que permitan localizar las imágenes del plano de un video. (Vilches, 2001) Existen varios sistemas que dentro de sus servicios utilizan motores de indexación que aunque no utilizan sistemas que realicen las búsquedas por contenidos específicos como los señalados anteriormente si realizan una indización de videos digitales.
Google Video(Cataldi, 2000)
ShadowTV (Cataldi, 2000)
BlinkxTV (Cataldi, 2000)
Videoma
MISE
1.4. Proceso de búsqueda tradicional.
Un motor de búsqueda que realice su proceso en archivos audiovisuales, basado en el contenido de los elementos en los cuales realizará su búsqueda, requiere de un proceso mediante el cual se logren satisfacer las necesidades y la petición expuesta por el usuario.
El desarrollo de un sistema de búsqueda comienza por medio del procesado de los contenidos a indexar. Para ello, la primera etapa consiste, por un lado, en un análisis y extracción de características y, por otro, en una etapa de anotación semiautomática, siendo el objetivo de ambos bloques la realización de un análisis profundo, también a nivel semántico, de los contenidos. Consecutivamente, la etapa de gestión del conocimiento genera las descripciones de los contenidos a partir de los resultados previos, y los concentra por medio de ontologías y otras estructuras semánticas. A continuación, cuando se tienen los contenidos y sus descripciones, el sistema puede realizar su procesado para ofrecer nuevas funcionalidades y servicios. Las siguientes etapas, forman parte de lo que son los buscadores clásicos. El motor de búsqueda realiza el recorrido entre los contenidos indexados para ofrecer aquellos resultados que concuerdan con las peticiones del usuario; los bloques de la parte de la consulta, son los encargados de traducir y procesar la orden de búsqueda del usuario; las medidas de relevancia evalúan el nivel de validez de los aciertos ofrecidos por el motor de búsqueda; y, por último, el bloque de distribución y presentación, constituye la interfaz con la cual el usuario interactúa con el motor y donde se le presentan los resultados.
La indexación, como se indicó anteriormente es el primer paso de un sistema de búsqueda, una vez procesada la base de datos o el servidor donde se encuentra el contenido dejándola en un formato cuya manipulación por parte del sistema sea fácil y rápida. A partir de un archivo procesado, se generará una representación del mismo, formada por una secuencia de términos de indexación, los cuales mantendrán lo más fielmente posible el contenido original del archivo.
Para realizar la indexación se necesitan términos específicos entre los que se encuentran, la frecuencia de aparición de una palabra, eliminación de las palabras vacías. Siendo estos los de mayor importancia, se plantean a continuación. (Fernández Lunas, 2001)
La frecuencia de aparición de una palabra en un texto determina su importancia en él, sugiriendo que dichas frecuencias pueden ser utilizadas para extraer palabras con objeto de resumir el contenido de un documento. Si se obtiene la frecuencia de aparición f, de cada palabra de un texto y se ordena decrecientemente, siendo p la posición que ocupa en dicha ordenación, se cumple que f*p=c, donde c es una constante.
Si se representa gráficamente esta curva (p en el eje X, y f en él Y), se obtiene una hipérbola, en la cual se pueden establecer dos límites en cuanto a p se refiere, todas las palabras que excedan el superior, se considerarán muy comunes (haciendo búsquedas por ellas se podrían recuperar casi todos los documentos), y todas las que estén por debajo del inferior, muy raras. Las que queden dentro de ambos límites serán las que tengan una mayor capacidad para discriminar el contenido de un texto y, por tanto, las que deban ser usadas. El problema radica en establecer los dos límites anteriores, porque, la eliminación de palabras con frecuencias muy altas puede provocar una reducción de la exhaustividad, el uso de conceptos generales es útil a la hora de recuperar muchos documentos relevantes. Por el contrario, el descartar términos con una frecuencia baja, produce pérdidas en la precisión.
Otro aspecto a tener en cuenta a la hora de seleccionar los términos consiste en eliminar las palabras se pueden calificar así algunos verbos, adverbios y adjetivos. Por tanto, estas palabras no sirven como términos de indexación, por un lado son muy frecuentes, y por otro no representan correctamente el contenido del documento. La acción normal que se lleva a cabo con ellas es su eliminación del texto, proceso que se conoce como eliminación de palabras vacías, y se pone en práctica mediante la comparación de cada palabra del texto con un diccionario que contiene la lista de palabras no aptas para la indexación.
Este proceso de selección pasa por determinar la importancia de un término en el documento, de tal forma que, si es lo suficientemente importante, se escogerá para ser incluido en el conjunto de términos final. El cálculo de la importancia de cada término se conoce como ponderación del término.
Este se basa en contar las ocurrencias de cada término en un documento, medida que se denomina frecuencia del término i-ésimo en el documento j-ésimo, y se nota como tfij. El problema que puede aparecer es que, independientemente del número de veces que aparezca el término «computadora» en los documentos de una colección sobre Informática, no sería un buen término para asignárselo a ellos. Una segunda medida de la importancia del término es la conocida como frecuencia documental inversa de un término en la colección, conocida normalmente por sus siglas en inglés idf (inverse document frequency), y que responde a la siguiente expresión:
Donde N es el número de documentos de la colección, y ni el número de documentos donde se menciona al término i-ésimo. Como se puede observar, el valor obtenido por la expresión decrece conforme ni crece, variando desde logN+1 cuando ni es 1, a 1 cuando ni toma valor N. Por tanto, cuantas menos veces aparezca un término en la colección, más alto será su idf, dando así una forma de medir la calidad global del término en toda la colección. El hecho de introducir un logaritmo se justifica para suavizar el crecimiento del tamaño de la colección. Lo ideal sería combinar ambas medidas anteriores utilizando un esquema de ponderación que permita identificar a los términos que aparecen bastante en varios documentos individuales, y a la vez, que se hayan observado en contadas ocasiones en la colección completa. Estos son los términos que tendrán una capacidad de discriminación mayor con respecto a los documentos en los que aparecen. O lo que es lo mismo, calcular un peso que fuera proporcional a la frecuencia del término i-ésimo en el documento j-ésimo, e inversamente proporcional al número de documentos de la colección completa en los que aparece ese término. Así, el peso final asignado al término i-ésimo en el documento j-ésimo, que se denotará como t fid f, corresponde al producto: t fi j*id fi
En este caso, la importancia crece con respecto a la frecuencia del término en el documento y disminuye con respecto al número de documentos que lo contienen. Cuanto más alto sea el valor, mejor será el término desde el punto de vista de la indexación.
El último paso es extraer la raíz morfológica de cada palabra, eliminando sufijos y prefijos, originando así que el sistema de búsqueda pueda recuperar archivos incluyendo variantes morfológico as de los términos contenidos en la consulta, mejorando la recuperación, a la vez que ahorra espacio al almacenar sólo las raíces.
Por último, se debe poner en práctica un proceso de reconocimiento de raíces equivalentes, con objeto de evitar confusiones con palabras que poseen la misma raíz, pero no están relacionadas en su significado. A partir de este punto, al hablar de términos de indexación, se hará referencia a las raíces morfológicas, en lugar de a las palabras completas.
Una vez que ha finalizado el análisis automático de la base de datos, un aspecto importante es su organización para conseguir un acceso eficiente y rápido en las operaciones que se realizarán posteriormente en el proceso de recuperación. Así, se conoce como fichero invertido a una estructura de datos que almacena de manera ordenada todos y cada uno de los términos del glosario y, para cada uno de ellos, guarda la lista de documentos donde aparece, junto con su peso asociado.
Cuando se efectúa una consulta al sistema, ésta es pasada también por el módulo de indexación para conseguir su correspondiente representación. Dependiendo del modelo de recuperación utilizado, la consulta podrá ser una expresión booleana, formada por los términos y conectivos lógicos, o una lista de palabras, con sus correspondientes pesos.
1.4.1. Modelos de recuperación.
Existe una gran cantidad de modelos de recuperación basados en tecnologías muy diferentes. Seguidamente se hace referencia a los diferentes modelos existentes actualmente. Específicamente se tratará los tres clásicos: el booleano, el del espacio vectorial y el probabilístico.
El modelo booleano.
El modelo booleano está basado en la teoría de conjuntos y en el álgebra booleana. Su marco está compuesto por los documentos representados como conjuntos, las consultas, como expresiones booleanas (términos conectados por los conectivos booleanos Y, O, y NO), y las operaciones existentes para tratar conjuntos: unión, intersección y complemento.
Los pesos de los términos en los documentos son binarios: 0 indica ausencia y 1 presencia. Así, en este modelo, dada una consulta al sistema, se va evaluando la expresión booleana mediante la realización de las operaciones anteriores con los conjuntos formados por los documentos donde aparece cada término de la consulta. El conjunto de documentos resultante está compuesto por todos aquéllos que hacen verdad la consulta booleana. Es por esto que su clasificación está enmarcada dentro de los modelos de emparejamiento exacto.
El modelo del espacio vectorial.
En el modelo del espacio vectorial, el marco está compuesto por el espacio vectorial de dimensión M (cada dimensión equivale a un término distinto del glosario), representando en él los documentos, las consultas y las operaciones algebraicas sobre los vectores de dicho espacio. Concretamente, la función que obtiene la similitud de un documento con respecto a una consulta se basa en la medida del coseno, la cual devuelve el coseno del ángulo que forman ambos vectores en el espacio vectorial.
El modelo probabilístico.
El marco del modelo probabilístico está compuesto por conjuntos de variables, operaciones con probabilidades y el teorema de Bayes (Benavides, et al., 2001). Todos los modelos de recuperación probabilísticos están basados en el que se traduce como el Principio de la Ordenación por Probabilidad. Este principio asegura que el rendimiento óptimo de la recuperación se consigue ordenando los documentos según sus probabilidades de ser juzgados relevantes con respecto a una consulta, siendo estas probabilidades calculadas de la forma más precisa posible a partir de la información disponible.
1.5. Proceso de búsqueda en contenidos audiovisuales.
Para desarrollar satisfactoriamente el proceso de búsqueda en archivos audiovisuales el motor requiere utilizar métodos de búsqueda basados en el contenido, que garanticen realizar las funcionalidades especificadas a continuación. Entre los principales métodos de búsqueda se encuentran (Fernández Lunas, 2001):
- Comparación por el color.
- Comparación por Textura.
- Comparación por Formas.
- Extracción del texto presente en las imágenes.
- Proceso de descripción de las escenas automáticamente detectadas.
Se relacionan los métodos teniendo en cuenta la definición de video digital que se especificó anteriormente, donde se destaca que un video está formado por una secuencia de imágenes, siendo posible así realizar búsquedas en videos digitales a través del contenido de las imágenes y de las operaciones de búsquedas que se emplean en estos archivos.
Comparación por el color: esta técnica no depende del tamaño de la imagen o de su orientación. La búsqueda basada en el color se ejecuta comúnmente comparando los histogramas de color de las imágenes.
Comparación por Textura: la medida de las texturas busca patrones visuales en las imágenes y trata de encontrar la forma en que se define el espacio. La textura se representa mediante texels que luego se colocan en una serie de conjuntos dependiendo de cuantas texturas se han detectado en la imagen. Estos conjuntos definen además de las texturas, en qué punto de la imagen se encuentra esa textura.
Comparación por Formas: se refiere a la forma de una región en particular. Las formas generalmente vienen determinadas aplicando primero el método de segmentación o la definición de los bordes de una imagen. En determinados casos una cuidada detección de las formas requiere intervención humana porque los métodos como la segmentación son muy difíciles para automatizarlos.
Extracción del texto presente en las imágenes (Echemendía Tourt, et al., 2008): en una secuencia de video se pueden encontrar dos tipos de texto embebido: captions 15(subtítulos), y los textos propios de la escena, que aunque pueden proporcionar información semántica de la secuencia, la proporcionada por los captions es considerablemente mayor y, por lo tanto, más útil a la hora de indexar el video. Algoritmos desarrollados permiten extraer el texto embebido en las imágenes (Echemendía Tourt, et al., 2008), lo cual puede utilizarse para realizar una búsqueda que tendría importantes resultados. Se pueden identificar dos tendencias fundamentales en las técnicas o métodos vinculados a la detección de texto artificial contenido en fotogramas de videos en el dominio no compreso. Estos son los métodos basados en detección de bordes y los basados en análisis de textura.
Los algoritmos basados en detección de bordes explotan características bien definidas en las líneas de texto artificial. Los captions presentan generalmente alineación horizontal en los fotogramas, con una alta densidad de trazos verticales y los caracteres de una misma línea de texto o de una palabra son del mismo tamaño y se encuentran homogéneamente espaciados; además de poseer un alto contraste en relación al fondo del fotograma.
Los métodos de detección basados en análisis de textura manipulan el texto artificial como un tipo de textura bien definida y diferenciable del resto de la imagen. Los captions poseen cierta información de frecuencia, orientación y cohesión espacial que los hace identificables mediante la segmentación por textura.
Proceso de descripción de las escenas automáticamente detectadas: una escena se refiere a la grabación continua de uno o más frames(cuadros) que representan una acción continua en el tiempo y el espacio y así constituye una unidad válida para organizar la información acerca de un video. Un video editado está compuesto de dos tipos de límites entre escenas, también conocidos como cortes (cuts). Estos son: cortes bien definidos (straight cuts) y cortes graduales. Los cortes bien definidos se caracterizan por un cambio de escena repentino o de cámara. La separación de tomas con cortes bien definidos es relativamente fácil. Los cortes graduales, que hacen transiciones graduales entre dos escenas, son introducidos en un video a través de equipo especial de edición y abarca varios frames. Las tomas con cortes graduales son, por lo general, difíciles de detectar por la naturaleza gradual de la transición entre una toma y la siguiente. Normalmente la estrategia utilizada para la detección de escenas es el procesamiento de los datos puros (sin comprimir o realizando descompresión), es decir, cuadro a cuadro y píxel a píxel, comparando pares de imágenes consecutivas y verificando con algún método que dichas imágenes son diferentes de manera significativa, para determinar si existe o no cambio de escena.
Existen también métodos de búsquedas clásicos, los cuales se basan en el análisis semiautomático realizado a los videos para extraer las características básicas de los mismos. Estos métodos son los más utilizados en el proceso de búsqueda de videos digitales, aunque no arrojan resultados precisos, por su simplicidad no permiten realizar una búsqueda eficiente. Es por este motivo que surgieron los métodos de búsqueda por contenido, aunque se siguen utilizando unido a ellos los métodos clásicos: Búsqueda por nombre, descripción, autor, y formato.
Búsqueda por nombre:
se implementa un método de búsqueda por el nombre, o título del video.
Búsqueda por descripción: este método se implementa semejante al utilizado para la búsqueda de documentos textuales, pues la descripción del video no es más que un fragmento de texto relacionado con el contenido del video.
Búsqueda por autor: se implementaría la búsqueda por el autor o los autores del video.
Búsqueda por formato (avi, mpg, wmv, rmw): también es un método de búsqueda semejante al utilizado en documentos textuales, se realiza a través del formato del video, el cual el usuario puede especificar en su petición.
1.6. Resumen del capítulo.
En este capítulo se realizó una conceptualización de los principales temas asociados al dominio del trabajo (videos, buscador, metabuscador); los cuales se emplearan en la propuesta del modelo a presentar. Se hace un análisis del desarrollo del proceso de búsqueda de contenidos audiovisuales, aportando a la propuesta elementos importantes para desarrollar un sistema de búsqueda eficiente y preciso en la capacidad de respuesta. Se definen los principales métodos de búsqueda, entre los que se encuentran el reconocimiento facial, búsqueda por color, búsqueda por textura, por forma, además de los métodos tradicionales como el probabilístico, el booleano y el espacio vectorial. Se analizan los principales sistemas de búsqueda de videos digitales existentes que de una forma u otra realizan el proceso de búsqueda a través de los metadatos.
Capítulo II: Metadatos en la búsqueda de videos digitales
En el capítulo se esclarecen conceptos que sustentan la realización del trabajo. Se realiza un análisis sobre el empleo de metadatos en la búsqueda de videos digitales, a través de sus tendencias actuales. Se exponen puntos importantes sobre la selección de los estándares de metadatos, que tienen repercusión directa en la creación de la propuesta del modelo conceptual del sistema de búsqueda. Además, en este capítulo se plantea un estudio sobre las acciones que se acometen para la utilización de metadatos en la búsqueda de videos digitales, indagando sobre la existencia y/o empleo de un sistema de búsqueda con estas características.
2.1. Metadatos.
Aunque el término metadatos es relativamente nuevo, lo que representa como tal no lo es, desde los años 60 con la intención de facilitar el trabajo a los investigadores y usuarios de las bibliotecas internacionales se empezaron a compartir metadatos descriptivos usando sistemas automatizados como catálogos de acceso público y reglas de catalogación internacionalmente aceptadas para con ello lograr integrar, facilitar y divulgar información.
Un archivo de imágenes en movimiento, es un sistema de información que se caracteriza por estar estructurado mediante una serie de áreas de trabajo esenciales para su administración, gestión y desarrollo. Entre ellas, la de Análisis de documentos (catalogación, descripción de contenidos e indización), que interaccionan entre sí mediante un conjunto de operaciones destinadas a identificar y describir los documentos de imágenes en movimiento.
Ese conjunto de operaciones permiten representar la forma y el contenido de estos documentos y por lo tanto, desentrañar la información en ellos contenida, lo que facilita al usuario la identificación, recuperación y difusión de los mismos. Y es precisamente, en esa dinámica que genera el archivo, donde se resalta la importancia de la construcción de metadatos, como fuentes electrónicas disponibles en red, con los que se pueden realizar consultas a los diferentes sistemas de base datos existentes en el mundo de la informática sin tener que reprocesar nuevamente el material.
Sin embargo, antes de llegar a ese objetivo, es imprescindible definir el concepto. Para comprender el mismo es preciso conocer que fue definido como «datos sobre datos», por su creador, Jacques Myers, en el decenio de los años sesenta para describir conjuntos de datos. Es este significado el que más se utiliza en la actualidad.
Otros autores como Cristian Velásquez Paulus plantean que los metadatos son en general objetos que describen o proporcionan información sobre otros datos. (Paulus Velázquez, 2005)
En los materiales audiovisuales el término de metadatos cobra otro significado: «información que describe datos que incluyen el contenido, la forma y las características técnicas y editoriales de la información electrónica, los cuales son generados, consultados, manipulados y distribuidos en red». (Sánchez Calas, 2002)
El siguiente trabajo tomará como punto de partida el último concepto citado de metadatos, es el que más se acerca al tema del trabajo en curso. También, puede resaltarse que el metadato es una herramienta para describir, identificar, definir, organizar y localizar distintos tipos de recursos de información. Razón por la cual, conocer las características de los sistemas de metadatos es imprescindible para los analistas de información bibliográfica y documental.
Los metadatos pueden ser generados manualmente, automáticamente o semi-automáticamente. La mayor parte de la creación actual está basada en la anotación humana, generalmente realizada de forma manual, lo cual es difícil y sumamente costoso, no logra extraer toda la in formación importante y está sujeto a ambigüedades y errores. Esta forma de elaboración exige que se realice por personas con conocimientos del recurso audiovisual que se analiza. En ella se extraen los metadatos clásicos para la búsqueda referencial de los videos como título, autor, categorías, duración, formato, información descriptiva (como personas u objetos que aparecen), situaciones, entre otros.
En la producción automática se adquieren las informaciones que se necesitan sin utilizar herramientas externas, aunque es difícil que se logre extraer todos los metadatos, por lo que se considera la producción semiautomática más exacta. En esta última un anotador humano realiza esta operación de forma totalmente manual, o auxiliándose en los metadatos extraídos de forma automática. (Amengual Galdón, 2006)
Los metadatos tienen tres funciones básicas:
- Proporcionar una descripción de un objeto o entidad de información junto con otra información necesaria para su manejo y preservación.
- Suministrar los puntos de acceso a esa descripción por medio de los cuales se generará un índice.
- Codificar la descripción para facilitar su manejo por medios automatizados.
Los metadatos presuponen procedimientos, normas y especificaciones transparentes y consecuentes; los metadatos y la formulación de estándares dependen del área o disciplina en la que son utilizados (De Jong, 2003). Los metadatos deben formularse únicamente tras un cuidadoso análisis de las necesidades de los usuarios.
2.2. Tipos de metadatos.
En el Entorno Audiovisual se encuentran los siguientes tipos de metadatos (Orozco García, 2008):
Metadatos específicos de los medios
(frecuencia de muestreo, en audio; textura, en imágenes fijas; movimiento en video o el tipo de carácter en los textos escritos).
Metadatos específicos del proceso
o gestión de medios como los de «composición», que se generan durante la creación de materiales (listas de edición, códigos de tiempo).
Metadatos específicos de contenido
que sirven para aclarar el significado de un objeto media en un contexto determinado y se genera de forma manual e intelectual.
Metadatos clásicos
como los metadatos descriptivos objetivos (autor, título, duración del programa, datos de producción y de catalogación), los metadatos tópicos (descripción del contenido, el tema y el significado), los metadatos adicionales generados a partir de apreciaciones subjetivas del contenido, las palabras claves o descriptores.
Los anteriores tipos de metadatos, usados en el entorno de los archivos de televisión, según (De Jong, 2003), son generados dentro de los estándares o esquemas de representación comunes, básicos para el control y la explotación de los materiales digitales y los metadatos.
2.3. Estándares de metadatos.
En la actualidad existen varios estándares de metadatos. Para la descripción de los archivos audiovisuales se utilizan básicamente dos estándares, el MPEG-7 y el Dublin Core. En el presente trabajo se hace una comparación sobre estos descriptores y como ambos realizan la descripción de los materiales.
2.3.1. Estándar MPEG-7.
Consiste en una representación estándar de la información audiovisual que permite la descripción de contenidos. Con MPEG-7 se busca la forma de enlazar los elementos del contenido audiovisual, encontrar y seleccionar la información que el usuario necesita e identificar y proteger los derechos del contenido.
Este estándar ofrece un mecanismo para describir información audiovisual, de manera que sea posible desarrollar sistemas capaces de indexar grandes bases de material multimedia. Las descripciones del material multimedia pueden ser de dos tipos: datos sobre el contenido e información existente en el contenido.
Datos sobre el contenido, como puede ser el autor, el género, el título o el formato; o la información existente en el contenido, la cual permite describir el elemento a través de significado semántico (descripción de alto nivel), relacionado con la interpretación del contenido o significado estructural (descripción de bajo nivel) el cual permite la extracción automática de color, forma, texturas. Los descriptores de alto nivel se caracterizan por ser eficientes y directos pero poco flexibles mientras que los de bajo nivel son genéricos, flexibles y permiten búsquedas «inteligentes».
Los objetivos del estándar son realizar un método rápido y eficiente de búsqueda, filtrando e identificando contenido. Tiene la posibilidad de informar cómo los objetos están combinados dentro de una escena. Posee independencia entre la descripción y el soporte donde se encuentra la información.
Este estándar se le puede aplicar a una serie de elementos como audio, voz, video, imágenes, gráficos y modelos 3D. La arquitectura MPEG-7 se basa en que la descripción debe estar separada del contenido audiovisual. Por otro lado, tiene que haber una relación entre contenido y descripción.
Herramientas de MPEG-7 (Herranz Arribas, 2003) MPEG-7 proporciona una serie de herramientas para describir contenido multimedia, estas herramientas de descripción (metadatos, descriptores, esquemas de descriptores), sirven para crear descripciones que serán la base para aplicaciones que permitan el acceso a contenido de este tipo.
- Descriptores (D): un descriptor es una representación de una característica definida sintáctica y semánticamente.
Descripción de sistemas multimedia (Multimedia Description Schemes) (DS): especifica la estructura y semántica de las relaciones entre sus componentes, que pueden ser descriptores (D) o esquemas de descripción (DS).
- Lenguaje de descripción y definición (Description Definition Language) (DDL): es un lenguaje basado en XML que se utiliza para definir las relaciones estructurales entre los descriptores y permite la creación o modificación de esquemas de descripción (DS) y la creación de nuevos descriptores (D).
Herramientas del sistema: son herramientas que hacen referencia a la binarización, sincronización y almacenamiento de descriptores. También se encargan de la protección de la propiedad intelectual.
Las partes más importantes del estándar son las siguientes:
(Herranz Arribas, 2003)
- Sistema MPEG-7
(MPEG-7 System): hace referencia a la arquitectura del estándar y a las herramientas necesarias para preparar las descripciones de MPEG-7 para el transporte y almacenamiento eficiente.
- Definición de lenguaje MPEG-7 (MPEG-7 Description Definition Language): lenguaje para definir nuevos esquemas de descripciones.
- Audio MPEG-7 (MPEG-7 Audio): esta parte proporciona estructuras para describir material sonoro.
Visual MPEG-7 (MPEG-7 Visual): estructuras básicas y descriptores que definen características de color, textura, forma y movimiento de material audiovisual.
- Descripción de sistemas multimedia MPEG-7
(MPEG-7 Multimedia Description Schemes): describen información genérica.
Descriptores MPEG-7
El estándar MPEG-7 define una serie de descriptores que permiten analizar y caracterizar el contenido de fuentes audiovisuales para su posterior indexación, búsqueda o comparación (Martínez, 2004). Los descriptores cubren distintas características visuales básicas y elementales como son: el color, textura, forma, movimiento y localización, entre otras. La descripción es generada automáticamente mediante procesamiento digital.
Descriptores de color (Delcor Ballesteros, et al., 2006.) Representan la cualidad más básica del contenido visual. Se definen cinco descriptores para describir el color. Los cinco primeros representan la distribución del color. Los dos restantes, describen la distribución espacial del color y la relación del este entre una secuencia o conjunto de imágenes.
Estructura del descriptor de color (Color Structure Descriptor): caracteriza la distribución de los colores en una imagen. Construye una especie de histograma de color, en el cual tendrán mayor importancia los colores que más se reparten por la imagen. El descriptor divide la imagen en bloques de 8×8 píxeles y analiza dentro de estos bloques los distintos colores que aparecen, incrementándolos así en el histograma. A diferencia de un histograma de color, permite distinguir entre dos imágenes que tengan la misma cantidad de píxeles de un color pero con distinta distribución de estos píxeles. Este descriptor es útil para comparaciones imagen-imagen y añade funcionalidades distintas a las del histograma de color que permiten mejorar la búsqueda de similitud en determinados tipos de imágenes, como por ejemplo las imágenes de naturaleza.
Color Escalable
(Scalable Color): consiste en un histograma de color, codificado. Su representación se puede escalar de manera que se adecue lo máximo al tamaño de datos con el que se quiere trabajar. Este descriptor es útil en comparaciones imagen-imagen o en búsquedas basadas en características de color. La fiabilidad de la búsqueda aumenta proporcionalmente al número de colores distintos que se tengan en cuenta en el histograma.
Color Dominante (Dominant Color): es el más conveniente para ser utilizado en imágenes o zonas de ellas, en las cuales un pequeño número de colores es suficiente para caracterizar la información cromática de la región determinada. Sería aplicable por ejemplo en imágenes de banderas o marcas determinadas. En este caso la cuantificación se usa para extraer un reducido número de colores que sean suficientes como para caracterizar la imagen o región. También se calcula una coherencia espacial entre estos colores y dónde están situados lo cual se utilizará en algoritmos de similitud.
Espacio de Color (Color Space): Consiste en un tipo de datos que especifica el espacio de color en el cual se expresan o trabajan los otros descriptores de color.
Cuantización de Color (Color Quantization): define una cuantificación 22 uniforme de un espacio de color determinado. El número de valores que el cuantificador produce es configurable de manera que posee una flexibilidad elevada que le da una amplia gama de usos. Dentro de MPEG-7 este descriptor se combina con descriptores del color dominante, para hacer comparables por ejemplo dos resultados de un determinado descriptor.
Diseño de Color (Color Layout): permite representar la distribución espacial del color dentro de las imágenes de una manera muy compacta, con lo cual representa una herramienta de gran utilidad a la hora de buscar imágenes a partir de modelos determinados, y lo hace con gran eficiencia y velocidad. Su fácil cálculo permite también usarlo en la comparación de secuencias de imágenes, en las cuales se precisa un análisis de similitud entre cada una de sus componentes. Las grandes ventajas de este descriptor son:
- No depende ni del formato, ni de la resolución, ni del margen dinámico de las imágenes o videos en que se use. Por este motivo, puede usarse para comparar imágenes o videos con distintas resoluciones o para comparar imágenes enteras con partes de imágenes.
El software-hardware que requiere es relativamente mínimo (usa solamente 8 bytes por imagen cuando trabaja por defecto). Esto lo convierte en un descriptor adecuado para ser utilizado en dispositivos móviles en los que los posibles recursos se ven limitados por la capacidad del hardware.
Permite trabajar con distintas precisiones de descripción de manera que se agudizan las comparaciones cuando sea necesario.
Grupo de marco o Grupo de imágenes
(Group of Frames – Group of Pictures): es una extensión del Scalable Color, que a diferencia de éste, que está definido para imágenes inmóviles, se aplica a secuencias de video o secuencias de imágenes fijas. Brinda la posibilidad de calcular de tres formas distintas el histograma de color:
Histograma promedio:
toma de cada imagen de la secuencia el promedio de los valores del histograma.
Histograma de mediana:
toma de cada imagen de la secuencia el valor central del conjunto de valores del histograma. Es más fiable ante errores o picos de intensidad de la imagen.
Histograma de intersección:
toma de cada imagen de la secuencia el mínimo del conjunto de valores del histograma, para así ver cuál es el color «menos común» en el conjunto de imágenes.
Descriptores de textura
(Delcor Ballesteros, et al., 2006.)
La textura es una cualidad muy importante para describir una imagen. Se diseña para caracterizar las texturas o regiones. Observan la homogeneidad de las regiones y los histogramas de los bordes de dichas regiones.
Textura Homogénea (Homogeneous Textura): es una importante herramienta a la hora de buscar y escoger dentro de grandes colecciones de imágenes de gran similitud visual. Este descriptor utiliza un banco de 30 filtros que permite obtener una afinada descripción de las distintas texturas de la imagen para poder comparar de esta manera con las de otras. Es una herramienta muy útil por ejemplo para distinguir determinadas zonas en imágenes aéreas, por ejemplo, cultivos.
Textura de navegación
(Texture Browsing): especifica la caracterización perceptiva de una textura, la cual es similar a la caracterización de ella que hace un ojo humano, en cuanto a términos de regularidad, tosquedad y direccionalidad. Es útil para búsquedas y clasificaciones a «grosso modo» de texturas. Su implementación es parecida a la del anterior.
Borde de histograma
(Edge Histogram): facilita información sobre el tipo de contornos o bordes que aparecen en la imagen. Trabaja dividiendo la imagen en 16 sub-imágenes y es capaz de analizar en ellas el tipo de bordes existentes con el uso de distintos filtros que le permiten diferenciar si son bordes horizontales, verticales, oblicuos o aleatorios. Su utilización principal es la comparación imagen-imagen, especialmente en imágenes de naturaleza con una gran no uniformidad de contornos. Su uso es muy útil también en combinación con el de otros descriptores como por ejemplo el histograma de color.
Descriptores de forma (Delcor Ballesteros, et al., 2006.)
La forma posee una información semántica muy importante, debido a que los humanos son capaces de reconocer los objetos sólo viendo su forma. Esta información sólo puede ser extraída mediante una segmentación similar a la que realiza el sistema visual humano. Estos descriptores describen las regiones, contornos y formas para imágenes 2D y volúmenes 3D.
Forma de la región (Region Shape): Este descriptor permite clasificarlas según esta característica, de esta manera se puede comparar las formas de distintas imágenes y ver por ejemplo si se trata del mismo objeto u objetos similares. Las grandes ventajas de este descriptor son su reducido tamaño y su velocidad, hay que tener en cuenta que el tamaño de los datos necesarios para su representación está fijado en 17,5 bytes.
Forma del contorno (Contour Shape): A diferencia del anterior, este descriptor en lugar de analizar el conjunto de regiones que dan lugar a una forma, relaciona esta última con su contorno. Se caracteriza por representar muy bien las características de contorno con lo que facilita posteriores búsquedas y recuperaciones, es robusto ante movimientos, ante oclusiones en las formas y ante distintas perspectivas, y es sumamente compacto.
Forma en 3D (Shape 3D): La forma 3D permite describir con detalle la forma de mallas en 3D. Herramienta que hoy en día debido al continuo desarrollo de las tecnologías multimedia es de gran utilidad.
Descriptores de movimiento (Delcor Ballesteros, et al., 2006.)
El movimiento se define mediante cuatro descriptores que lo describen en las secuencias de video. Este va asociado a los objetos de la secuencia o al movimiento propio de la cámara.
Movimiento de cámara (Camera Motion): Es un descriptor que da información sobre los movimientos que efectúa la hipotética cámara que toma la secuencia de imágenes.
Trayectoria del movimiento (Motion Trajectory): Este descriptor permite analizar la trayectoria de un objeto en una secuencia de imágenes, la cual se consigue con la localización en tiempo y espacio de un punto representativo del objeto determinado.
Movimiento de parámetros (Parametric Motion): Consiste en describir el movimiento de ciertos objetos en una cadena de imágenes. Estos objetos se definen como regiones en la imagen, y su movimiento se registra de una manera compacta como un conjunto de parámetros. Este descriptor permite diferenciar numerosos tipos de movimiento elementales como translaciones, rotaciones, zooms, de manera que cualquier otro movimiento se puede especificar como una combinación de estos.
Actividad del movimiento (Motion Activity): Se puede decir que se trata de un descriptor que intenta evaluar la «intensidad de la acción» en una secuencia de imágenes, de manera parecida a como lo perciben los humanos.
Descriptores de localización (Delcor Ballesteros, et al., 2006.) La localización de los elementos dentro de una imagen se utiliza para describir elementos en el dominio espacial o temporal dentro de la secuencia de video.
Locutor de región (Region Locutor): Este descriptor permite la localización de determinadas regiones en una imagen.
Locutor de espacio temporal (Spatio Temporal Locutor): Sería como el anterior pero aplicado a secuencias de imágenes de manera que localiza determinadas regiones analizando tiempo y espacio.
Descriptor de reconocimiento facial (Delcor Ballesteros, et al., 2006.)
Como su nombre indica, este descriptor permite comparar caras para analizar su parecido o buscar caras con alto parecido a una en concreto. Esto se consigue relacionando distintas posiciones de la cara con las intensidades de la imagen en esa posición, de manera que se crean datos de referencia que luego pueden compararse con otros para analizar la similitud.
2.3.2. Estándar Dublin Core.
Dublin Core es un modelo de metadatos elaborado y auspiciado por la DCMI (Dublin Core Metadata Initiative), una organización dedicada a fomentar la adopción extensa de los estándares interoperables de los metadatos y a promover el desarrollo de los vocabularios especializados de metadatos para permitir sistemas más inteligentes en el descubrimiento de recursos.
Las implementaciones de Dublin Core utilizan generalmente XML y se basan en el framework (Resource Description Framework). Es un sistema de 15 definiciones semánticas descriptivas que pretenden transmitir un significado semántico a las mismas.
Este sistema de definiciones fue diseñado específicamente para proporcionar un vocabulario de características «base», capaces de proporcionar la información descriptiva básica sobre cualquier recurso, sin que importe el formato de origen, el área de especialización o el origen cultural.
Clasificación y Elementos En general, se puede clasificar estos elementos en tres grupos que indican la clase o el ámbito de la información que se guarda en ellos:
- Elementos relacionados principalmente con el contenido del recurso.
- Elementos relacionados principalmente con el recurso cuando es visto como una propiedad intelectual.
- Elementos relacionados principalmente con la aplicación del recurso.
Dentro de cada clasificación se encuentran los siguientes elementos (Morales Sánchez, 2005):
En Contenido:
1. Título (Title). Se refiere al título que lleva por nombre el documento.
2. Materia (Subject). En este campo se hace referencia a los diversos temas que puede contener el material.
3. Descripción (Description). En este campo se hace un breve resumen sobre el contenido del objeto digital.
4. Fuente (Source). Es como una pequeña ficha bibliográfica que se elabora para asentar los datos sobre la procedencia del documento original.
5. Relación (Relation). Este campo tiene que ver con el material principal u objetos de su misma referencia, ya sea una colección, una serie o un documento.
6. Cobertura (Coverage). Este campo se refiere al proyecto o sitio donde estará resguardada la información. Aquí pueden anotarse fechas, zonas geográficas.
Dentro del apartado de Propiedad Intelectual:
7. Creador (Creator). Aquí se anota el autor intelectual de la obra o documento original.
8. Editor (Publisher). Este campo se refiere al sitio o colección responsable, a la que está adscrito el material.
9. Colaborador (Contributor). En este campo se anotan, si es que se da el caso, el nombre u organización que contribuyó a la creación del material, que no se especificó en la parte de Creador.
10. Derechos (Rights). Se anota en este campo el nombre o la institución a la cual pertenece el material y lo facilitó.
En el apartado de Aplicación:
11. Fecha (Date). Se anota la fecha de elaboración del registro.
12. Formato (Format). En este campo se registra el tipo de extensión con que se presenta el objeto digital, ya sea HTML, JPG, GIFF o PDF.
13. Identificador (Identifier). Se refiere a la dirección electrónica de origen a la que está el material. Para ello se utilizan las siglas URL.
14. Tipo (Type). Aquí se menciona la presentación que tiene el objeto digital, ya sea como texto, audio, video.
15. Lenguaje (Language). En este campo se establecen las siglas correspondientes al idioma en que se presenta la publicación. El Dublin Core es un metadato simple, flexible, que ayuda a la hora de realizar una búsqueda ya pueda ser por contenido, por propiedad intelectual o por instanciación. Este estándar permite una interoperabilidad y un alto nivel de normalización.
La definición original de los elementos de Dublin Core se hizo en inglés, pero se han hecho diferentes traducciones a otros idiomas con más o menos resultados, este esquema de metadatos pretende ser genérico pero adaptable a diferentes dominios concretos y ampliables para cubrir requerimientos específicos.
Sin embargo, a diez años de su creación y después de que ha sido aprobado como norma ISO (ISO 15836:2003), no parece que su adopción esté generalizada. Un estudio reciente sobre el uso del Dublin Core en 100 proveedores de datos registrados en la Open Archives Initiative muestra que sólo 82 de los proveedores tienen metadatos disponibles para su análisis, que sólo cinco de los quince elementos del Dublin Core —»Creator«, «Identifier«, «Title«, «Date» y «Type«— están presentes en el 71% de los casos, y que 44 de los 82 proveedores solo usan los elementos «Creator» y «Identifier» en la mitad de sus productos. A todo ello se podría añadir que el uso de los cinco elementos anteriores so tan obvios que difícilmente pueden atribuirse a la existencia del estándar Dublin Core. (Estivill, et al., 2005)
Teniendo en cuenta las características de los estándares de metadatos que se utilizan para describir archivos audiovisuales, se propone la utilización del MPEG-7. A pesar que ambos estándares permiten la descripción de los videos, el propuesto es capaz de realizar descripciones relacionadas con la interpretación de los contenidos y proporcionan información descriptiva básica de los mismos mientras que el Dublin Core solo cumple con la última característica mencionada.
2.4. Herramientas internacionalmente utilizadas para la elaboración y procesamiento de metadatos de materiales audiovisuales.
Se han diseñado herramientas para la elaboración y procesamiento de los metadatos que realizan la creación automática o semi-automática de los mismos. La creación automática aunque refleje mayor facilidad no resulta la más favorable pues no tiene resultados completos, puede contener ambigüedades; se hace necesario la utilización de herramientas que realicen esta operación con la ayuda de un anotador humano que garantice la correcta extracción de los metadatos.
Actualmente el desarrollo de sistemas de este tipo es muy escaso porque la gestión automática de los metadatos es sumamente compleja. Existen herramientas de este tipo pero son particulares de las empresas las cuales desarrollan su propio sistema de gestión de metadatos de acuerdo a sus necesidades. Por lo que este trabajo no propone ninguna de las existentes, ya que además de lo abordado anteriormente presentan licencias privativas.
Para la creación de los metadatos del estándar MPEG- 7 se puede utilizar cualquier herramienta de texto o que permita la edición de documentos XML (Microsoft Word, Bloc de Notas, XMLSPY). La cantidad de herramientas existentes para la elaboración y procesamiento de metadatos actualmente no es suficiente para realizar comparaciones; debido a la poca información disponible sobre este tema, y a lo difícil que se hace realizar estas operaciones.
2.5. Resumen del capítulo.
En el presente capítulo se realizó un estudio profundo de los estándares de metadatos más utilizados en el mundo. La utilización de este estándar de metadatos proporcionará una descripción profunda de todos los archivos multimedias, lo que facilitara la realización de búsquedas a través de descriptores de contenidos audiovisuales, que pueden ser de alto nivel (autor, formato, descripción) y de bajo nivel (textura, color, forma). Esto traerá consigo que la búsqueda de cualquier material se realice de una forma rápida y eficiente. Algunos de los buscadores más importante del mundo han implementado la utilización de metadatos de este tipo como por ejemplo (Videoma, Mise, Google).
Capítulo III: Propuesta d el modelo conceptual del sistema de búsqueda.
Contar con un buscador de contenidos audiovisuales es un reto en la actualidad para muchas empresas y/o instituciones que necesiten de este tipo de aplicaciones. En este capítulo se realizará la descripción del modelo arquitectónico propuesto para el sistema de búsqueda de videos digitales a través sus metadatos.
3.1. Propuesta del modelo conceptual del sistema de búsqueda.
Un sistema eficiente de búsqueda de información audiovisual debe ser capaz de definir elementos de recuperación que sean significativos en el contexto de la aplicación. Además de proporcionar un método de consulta que permita al usuario especificar de forma natural características selectivas.
Los sistemas de consultas en bases de datos de videos se basan, tradicionalmente, en que realizan un proceso encaminado a obtener un conjunto de descriptores y utilizar estos para la búsqueda en la base de datos. De esta forma se elimina el coste de realizar el análisis de contenidos de los elementos que componen la base de datos en cada consulta, pero limita las búsquedas a aquellas que se pueden realizar con la combinación de los descriptores utilizados. De manera que este tipo de análisis es efectivo para conjuntos de archivos en los que los descriptores satisfacen cualquier consulta.
En los últimos años, varios sistemas prototipos se han propuesto abordar diferentes aspectos de la información contenida en los videos, como son las texturas, similitud de formas y relaciones semánticas entre objetos. El objetivo de las técnicas de consulta basadas en contenido es encontrar de forma eficiente los materiales audiovisuales en una base de datos que son similares a la búsqueda indicada.
El sistema que se propone debe ser capaz de realizar búsqueda a través de las dos técnicas de búsquedas existentes: las tradicionales (a través de texto) y las búsquedas a través de ejemplos, basada en descriptores que permitan una aproximación mayor al contenido de los archivos multimedia. Pueden ser derivados del análisis estructural de las imágenes, basándose en la utilización de elementos como el color, la forma y la textura que ya se obtienen en la etapa de análisis de la imagen.
La recuperación por contenido cambia la manera de especificar las búsquedas a un paradigma basado en lo que se conoce como búsqueda por ejemplos. Así, la consulta típica no se hace solo mediante una cadena de términos sino que también, introduciendo una imagen o dibujando un esbozo, a partir de lo cual el sistema buscará otras con características similares de color, forma o textura.
Analizando las características de los sistemas de búsquedas descritos anteriormente, basados en el nuevo paradigma de búsquedas por contenido, se propone un modelo arquitectónico donde se representan los principales módulos que integran un sistema de recuperación de información.
En el modelo existen dos procesos fundamentales el proceso de indexación y el de búsqueda el primero comienza cuando el gestor documental decide que material audiovisual se va a procesar, posteriormente pasa al procesamiento de la información que es donde se extraen los metadatos generados en un XML, de allí se pasa a realizarle las operaciones quedando definido los términos de indexación que se guardaran en una base de datos.
El segundo proceso comienza cuando un usuario especifica la búsqueda en una interfaz, de allí pasa al procesamiento de la información porque el usuario puede haber pasado una imagen como parámetro de búsqueda a lo que hay que extraerle todos los metadatos para poderlo comparar con los índices que están almacenados en la base de datos. Posteriormente pasa al motor de búsqueda que este analiza todos los índices existentes en la base datos ordenándolos de acuerdo a su importancia y mostrándolo en la interfaz finalmente. A continuación se explican todos los componentes del modelo conceptual.
Contenidos audiovisuales: Es el conjunto de materiales a los cuales se le realizará el proceso de indexación (videos, conferencias, series, películas, imágenes, subtítulos, sinopsis).
Gestor documental: Es el encargado de gestionar los archivos audiovisuales que serán procesados.
Procesamiento de la información: constará con los procesos automático y semiautomático.
- Proceso automático: Este proceso se realiza a través de un sistema el cual se encarga de realizar el análisis sobre texto (sinopsis, subtítulos), los cuales pasarían a formar términos de indexación.
- Proceso semiautomático: Se refiere a la detección de metadatos por parte de un usuario, de las escenas automáticamente detectadas así como el proceso de refinamiento de la detección automática. Permite la adición manual de metadatos, agregando información referencial básica como palabras claves, duración, formato, autor, título, breve descripción del video, información descriptiva como personas u objetos que aparecen.
A continuación se exponen la realización de algunos descriptores que se obtendría del proceso semiautomático.
Forma de la región (Region Shape)
La forma de un objeto puede estar compuesta por una o varias regiones como también de zonas vacías como agujeros. Region Shape utiliza todos los píxeles dentro de una imagen, que puedan describir formas. No solo es capaz de describir objetos totalmente compactos como el (a) y (b) de la siguiente figura, sino que también tiene facultades para describir uno con agujeros o zonas disjuntas como los ejemplos (c), (d) y (e) de la siguiente figura.
Dicho descriptor también se caracteriza por ser robusto al ruido que se introduce inevitablemente en el proceso de segmentación, produce la menor deformación en los bordes del objeto en su reconstrucción.
Otros atributos importantes a resaltar son su pequeño tamaño y un tiempo rápido de extracción. El total de datos de representación debe ocupar 140 bits y la extracción de características es sencilla con el fin de poder tener una bajo nivel de complejidad computacional siendo conveniente para la identificación de objetos en procesado de videos.
Region Shape calcula los coeficientes ART (transformación angular radial), obteniendo una matriz de coeficientes denominados ArtM. Estos valores dan información sobre los objetos o formas que constituyen la imagen.
Proceso de creación:
- Definir la estructura.
- Crear las funciones comunes en todos los descriptores.
- Implementar las funciones más importantes del descriptor.
- Calcular el punto central de la imagen de entrada.
- Extraer de cada posición el valor y las coordenadas cartesianas correspondientes de la imagen.
- Calcular el valor de la función base ART.
- Hacer el módulo del coeficiente.
- Cuantificar el valor obtenido.
- Calcular la similitud entre dos descriptores de entrada.
- Dar respuesta.
Estructura del descriptor de color
(Color Structure Descriptor)
El Color Structure es un descriptor que se caracteriza por clasificar las imágenes teniendo en cuenta la distribución espacial de los colores. Se puede decir que construye una especie de histograma de color de la imagen pero con la particularidad de dar relevancia, no al hecho de que un color se encuentre en un elevado número de píxeles, sino de que aparezca en muchas zonas de la imagen. Su funcionamiento consiste en dividir la imagen de partida en bloques de 8×8 píxeles e investigar dentro de cada uno de estos bloques los colores distintos que aparecen. Este descriptor ofrece una herramienta de comparación entre imágenes que en combinación con descriptores de análisis de contornos es muy utilizado en imágenes de paisajes.
De esta manera, este descriptor permitirá distinguir, por ejemplo, entre dos imágenes cuyo número de píxeles de un color es el mismo, pero la distribución de éste dentro de la imagen es distinta.
En la primera imagen del ejemplo, el color está centrado en una única zona, en cambio, en la segunda, aun existiendo el mismo número de píxeles de este color, su distribución es mucho más uniforme en todo el conjunto; así, al dividir la imagen en sub-imágenes, el número de estas que tendrán el color en su interior, será mucho mayor en la segunda que en la primera, y por lo tanto, también en el segundo caso, el valor del color en el histograma será también mayor.
Proceso de creación:
- Definir la estructura denominada VdColorStructure.
- Construir las funciones comunes del descriptor.
- Definir el espacio de color.
- Cuantificar el valor no uniforme de cada color.
- Dividir la imagen en bloques de 8×8 píxeles.
- Crear la función de similitud.
- Imprimir la similitud por pantalla.
Textura Homogénea
(Homogeneous Textura)
La textura, representa la regularidad de una imagen en lo que refiere a direccionalidad, tosquedad, regularidad del patrón. El descriptor Homogeneous Texture, provee a sus usuarios la capacidad de realizar comparaciones imagen a imagen, realizando una descripción de la textura de estas imágenes a través del valor de la energía y la desviación energética de la señal, extraídas de la distribución frecuencial de esta.
El espacio frecuencial a partir del cual se extraen las características de textura de la imagen, se parte en regiones de 30 grados en dirección angular y en 5 regiones de octava en dirección radial. De esta manera se obtienen 30 canales como muestra la figura siguiente:
Proceso de creación:
- Definir la estructura denominada VdHomoTexture.
- Construir las funciones comunes del descriptor.
- Definir memoria para 5 imágenes del mismo tamaño que la de entrada.
- Liberar espacio utilizado.
- Calcular distancia entre vectores.
- Se crea una función VdHomoTextureDistance.
- Mostrar resultado.
Borde de histograma
(Edge Histogram)
Edge Histogram es el descriptor que se encarga de representar la distribución espacial de cinco tipos de contornos en regiones locales de una imagen. Es capaz de reconocer cuatro contornos direccionales, es decir, con una dirección claramente marcada, y un contorno de tipo no direccional. El análisis de los bordes juega un papel muy importante en la percepción de las imágenes, es un método que permite la recuperación de imágenes con significado semántico similar.
De este modo el objetivo es encontrar imágenes semejantes a otras imágenes, ya sea a través de ejemplos o de esbozos, especialmente en el caso de imágenes naturales con distribuciones de bordes no uniformes. En este contexto la eficacia de reconocimiento de las imágenes puede verse significativamente mejorada si dicho descriptor es combinado con otros descriptores, como los descriptores de color.
Edge Histogram
divide la imagen en 16 sub-imágenes (4×4 bloques no solapados), de los cuales tras un posterior procesado se obtiene un total de 80 valores denominados Bincounts que forman el histograma de bordes que caracteriza dicha imagen.
Proceso de creación:
- Crear la estructura de tipo descriptor denominada VdEdgeHistogram.
- Crear las funciones comunes para un descriptor.
Crear las funciones específicas del descriptor.
Calcular las dimensiones que tendrán los 16 bloques
Filtrar los bloques con la función denominada DetectionEdges.
Calcular el valor absoluto de cada uno de los píxeles.
Contar el número de pixeles que forman los contornos de la sub-imagen
Normalizar el valor resultante de la suma de pixeles.
Cuantificar el valor obtenido de la normalización.
Ejecutar y visualizar los resultados.
XML: Es un lenguaje de marcado que ofrece un formato para la descripción de datos estructurados. Esto facilita declaraciones de contenido más precisas y resultados de búsquedas más significativos en varias plataformas. Se puede definir un conjunto ilimitado de etiquetas; además ofrece un marco de trabajo para etiquetar datos estructurados, lo cual se puede realizar de forma exclusiva, lo que permite que un cliente construya búsquedas específicas. Sin XML, es necesario que la aplicación de búsqueda comprenda el esquema de cada base de datos, en el que se describe cómo se ha generado. Esto es prácticamente imposible, pues cada base de datos describe sus datos de una forma distinta. Sin embargo, con el lenguaje los archivos se pueden clasificar fácilmente en categorías estándar por autor, título, u otros criterios. De esta forma, se podría realizar búsqueda de una forma coherente. Se propone la estructura de descripción de una escena, basado en el estándar MPEG-7. (Ver anexo 2)
Operaciones sobre el XML:
Es donde se hace el análisis del XML creado por el procesamiento de la información, generando así los términos de indexación.
Índice: Es la estructura de datos que posibilita un acceso veloz a la colección, una vez procesada, con objeto de obtener los documentos relevantes a una consulta. En este caso se crea un índice por cada descriptor especificado por el estándar MPEG-7 y extraído del documento XML.
Indexación: Es la creación de las estructuras de datos adecuadas para permitir un acceso eficiente y eficaz a los documentos. Es un elemento fundamental para los motores de búsqueda y las bases de datos. Tiene como objetivo elaborar un índice que contenga de forma ordenada la información, con la finalidad de obtener resultados de forma más rápida y relevante al momento de realizar una búsqueda. Sin un índice el motor de búsqueda debería escanear el contenido de cada archivo de forma individual cada vez que se iniciara una búsqueda, lo cual considerando la cantidad de información existente, sería un proceso lento y tedioso.
- Análisis de las características: Proceso por el cual las características extraídas del video quedan convertidas en etiquetas.
Etiquetas Meta: Agrupan características con un significado común.
- Eliminación de características repetidas: Se eliminan las características que no aportarán información relevante para la realización de la búsqueda.
- Etiquetas claves: Se definen las características que contienen la información relevante, que se utilizarán en el proceso de búsqueda (Etiquetas de color, título, autor, formato, duración, textura, formas, palabras claves, descripción del video, información descriptiva como personas u objetos que aparecen).
Términos de indexación: Lo constituyen las etiquetas claves.
Indexación:
Es donde se realiza la construcción del índice.
Índice:
Estructura de datos que posibilita un acceso veloz a la colección, una vez procesada, con objeto de obtener los documentos relevantes a una consulta.
Interfaz:
Es la parte del sistema que permitirá la interacción del usuario con el motor de búsqueda. En ella se especificarán los datos que el usuario necesita para realizar la consulta así como la respuesta.
La interfaz permitirá realizar búsquedas por cadenas de caracteres, tendrá la opción de seleccionar una imagen que constituirá el patrón de búsqueda en el índice, además dará la posibilidad de elegir colores, proponer texturas y formas para realizar la búsqueda.
Motor de búsqueda: Aplicación diseñada para gestionar la información que el usuario especifica en la interfaz, buscando la misma en la base de datos. De esta forma cuando se realiza una consulta, el motor de búsqueda se dirige al índice para localizar los elementos deseados, arrojando así resultados precisos y rápidos.
Operaciones sobre la consulta
Se comprueba si la sentencia de la consulta se realizó correctamente.
Búsqueda
Se realiza la búsqueda sobre la consulta especificada en la interfaz utilizando los métodos de búsquedas implementados en la aplicación.
Archivos ordenados
Después de haber recopilado los archivos que tienen relación con la consulta especificada se ordenan de acuerdo a la importancia de los mismos, mostrando este resultado en la interfaz.
3.3. Resumen del capítulo.
En el capítulo se realizó la propuesta del modelo conceptual del sistema de búsqueda, en la cual se identifican los principales componentes (gestor documental, procesamiento de la información, indexación, motor de búsqueda) para la realización de una aplicación de búsqueda de videos digitales a través de los metadatos definidos en el estándar MPEG-7.
Conclusiones
El modelo propuesto surge luego de analizar las tendencias actuales de la búsqueda de contenidos audiovisuales, las particularidades y necesidades de un sistema de búsqueda de videos digitales a través del contenido, y de comprender cuán importante resulta el desarrollo de un sistema de este tipo para la gestión de el gran volumen de información audiovisual manejado en el mundo. Se puede concluir que:
El modelo propuesto será el punto de partida para desarrollar un sistema de búsqueda de videos digitales basado en el contenido de los mismos.
- La búsqueda automática por contenido en materiales audiovisuales no está totalmente desarrollada, pues no es una tarea fácil para los desarrolladores, al ser muy costosa, y computacionalmente compleja.
- Al constituir un archivo de texto, los metadatos son la vía ideal para el acceso al contenido de los videos digitales. La indización de estos metadatos permitirá la obtención de mejores resultados en las búsquedas.
- El MPEG-7, es la propuesta indicada para la descripción de contenido de materiales audiovisuales, pues está especialmente diseñando para facilitar la recuperación de estos materiales en sistemas de búsquedas.
Recomendaciones
Este trabajo propone un modelo para desarrollar un sistema de búsquedas de archivos de video digital, basado en la utilización de metadatos. Se recomienda:
- Desarrollar el sistema de recuperación de videos digitales a través de la implementación del modelo propuesto.
- Desarrollar una herramienta que permita la extracción de metadatos y descriptores de bajo nivel de los archivos audiovisuales.
Referencias Bibliográficas
Abreu Bartomeo, Yanedi, y otros. 2008.
Teleformación. [En línea] Universidad de las Ciencias Informáticas, 2008. [Citado el: 28 de 3 de 2009.] http://teleformacion.uci.cu/mod/resource/view.php?id=14077.
Acosta Pintado, Eliana. 2008. Lenguaje de programación para web: ASP. [En línea] 3 de 2008. [Citado el: 25 de 4 de 2009.] http://www.scribd.com/doc/2413026/Lenguaje-de-programacion-para-Web-ASP.
Amengual Galdón, Sebastian. 2006. Motores de Búsqueda para contenidos audiovisuales. [En línea] 10 de 2006. [Citado el: 15 de 01 de 2009.] http://www.gti.ssr.upm.es/~eeg/docs/comunicacionesI+D_06.pdf.
Benavides, A y Silva, L.C. 2001. El enfoque bayesiano. [En línea] 26 de 2 de 2001. [Citado el: 8 de 1 de 2009.] http://lcsilva.sbhac.net/El%20enfoque%20bayesiano.pdf.
Canós, José H, Letelier, Patricio y Penadés, María del Carmen. 2003. Métodologías Ágiles en el Desarrollo de Software. [En línea] Universidad Politécnica de Valencia, 12 de 11 de 2003. [Citado el: 26 de 4 de 2009.] http://issi.dsic.upv.es/archives/f-1069167248521/actas.pdf#page=9.
Casares, Javier. 2003. Manual de Posicionamiento. [En línea] 2003. [Citado el: 2 de 12 de 2008.] http://www.manualdeposicionamiento.com/guia-de-referencia-seo/seo-para-videos/ ISBN 13: 978-84-611-8192-6.
Castellano Báez, Maidileydys, Cervantes Rodon, Damian y Espinosa Ronquillo, Dayris. 2007. Teleformación. [En línea] Universidad de las Ciencias Informáticas, 2007. [Citado el: 27 de 3 de 2009.] http://teleformacion.uci.cu/mod/resource/view.php?id=11402.
Cataldi, Zulma. 2000. Metodología de diseño, desarrollo y evaluación de software educativo. [En línea] 2000. [Citado el: 26 de 3 de 2009.] http://laboratorios.fi.uba.ar/lsi/cataldi-tesisdemagistereninformatica.pdf. ISBN 960-34-0204-2.
Clements, Paul. 2003. Published Software Architecture Definitions. [En línea] 2003. [Citado el: 27 de 3 de 2009.] http://www.sei.cmu.edu/architecture/published_definitions.html.
Cuesta, Carlos E. 2007. Ingeniería del software. [En línea] Universidad Rey Juan Carlos., 2007. [Citado el: 30 de 3 de 2009.] http://kybele.escet.urjc.es/documentos/ISI/Arquitecturas%20de%20SW.pdf.
De Jong, Annemieke. 2003. Los metadatos en el entorno de la producción audiovisual. Una introducción. [En línea] Federación Internacional de Archivos de Televisión, 2003. [Citado el: 26 de 1 de 2009.] http://archivesatrisk.org/restricted/standards/Metadata_version_Es_2003.pdf.
Delcor Ballesteros, Jordi y Pérez Noriega, Verónica. 2006.. DESCRIPCIÓN, INDEXACIÓN, BÚSQUEDA Y ADQUISICIÓN DE SECUENCIAS DE VÍDEO MEDIANTE DESCRIPTORES MPEG-7. [En línea] 2006. [Citado el: 24 de 2 de 2009.] http://upcommons.upc.edu/pfc/bitstream/2099.1/3855/1/54955-1.pdf.
Díaz Antón, María Gabriela, Pérez, María Angélica y C Grimmán, Anna. 2003. Propuesta de una Metodología de desarrollo de software bajo un enfoque de calidad sistémica. [En línea] Universidad Simón Bolívar (USB), 2003. [Citado el: 27 de 3 de 2009.] http://165.98.8.15/~oneyda/utilidades/met_soft/metod_USB.pdf.
Echemendía Tourt, Fernando y Rivera Suárez, Yoel. 2008. Sistema para la Detección y Extracción de Textos en Videos Digitales. [En línea] 6 de 2008. [Citado el: 8 de 1 de 2009.] http://biblioteca.uci.cu.
Estivill, Assumpció, y otros. 2005. Uso de metadatos Dublin Core en la descripción y recuperación de artículos de revistas digitales. [En línea] 2005. [Citado el: 17 de 01 de 2009.] http://temaria.net/estivill2005es.pdf.
Fernández Lunas, Juan Manuel. 2001. Modelos de recuperacion de informacion basados en redes de creencias. [En línea] 2001. [Citado el: 18 de 1 de 2009.] http://dialnet.unirioja.es/servlet/tesis?codigo=12095.
García Albacete, Antonio. 2002.
Gestión Completa de Vídeo. [En línea] 11 de 2002. [Citado el: 10 de 1 de 2009.] http://www.ntdigitales.com/docs/VIDEOMA.pdf.
García de Léon, Alicia y Garrido Días, Adriana. 2001. Recuperacion de información en Internet: Google, un buscador singular. [En línea] 12 de 2001. [Citado el: 8 de 12 de 2008.] http://www.cinfo.cu/Userfiles/file/Cinfo/cinfo2001/v32n3a2001/recuperacion.htm.
Garla, David y Shaw, Mary. 1994. Facultad de ingeniería. Universidad de Buenos Aires. [En línea] 1 de 1994. [Citado el: 28 de 3 de 2009.] http://materias.fi.uba.ar/7510/review0000.pdf.
Herranz Arribas, Luis. 2003. Colegio Oficial Asiociación Española. Ingeniero en Telecomunicación. [En línea] 7 de 2003. [Citado el: 24 de 3 de 2009.] http://www.coit.es/pub/ficheros/p067_resumen_nokia_0567680c.pdf.
Hernández Peñalver, Gregorio. 2008. Departamento de Matematicas Aplicadas. [En línea] Universidad Politécnica de Madrid., 2008. [Citado el: 18 de 4 de 2009.] http://www.dma.fi.upm.es/gregorio/JavaGC/Cconvexo/teoriaJava.html.
INFLANET. 1998. International Federation of Library Association and Institution . [En línea] 21 de 8 de 1998. [Citado el: 3 de 12 de 2008.] http://www.ifla.org/IV/ifla64/007-126s.htm. ISO. 2004. International Standards for Business, Government and Society. [En línea] 2004. [Citado el: 2 de 2 de 2009.] http://www.iso.org/iso/support/faqs/faqs_widely_used_standards/widely_used_standards_other/date_and_time_format.htm.
—. 2002. International Standards for Business, Government and Society. [En línea] 7 de 2002. [Citado el: 2 de 2 de 2009.] http://www.iso.org/iso/search.htm?qt=639&searchSubmit=Search&sort=rel&type=simple&published=on.
—. 1999. International Standards for Business, Government and Society. [En línea] 3 de 1999. [Citado el: 2 de 2 de 2009.] http://www.iso.org/iso/search.htm?qt=3166&published=on&active_tab=standards.
Letelier, Patricio y Penadés, María del Carmen. 2006.
Metodologías ágiles para el desarrollo de software: eXtreme Programming (XP). Ciencia y Técnica Administrativa. [En línea] 06 de 2006. [Citado el: 26 de 3 de 2009.] http://www.cyta.com.ar/ta0502/v5n2a1.htm. ISSN 1666-1680.
Linux online. 2008.
Linux online. [En línea] 2008. [Citado el: 11 de 5 de 2009.] http://www.linux.org/.
López Guzmán, Clara. 2000. Biblioteca Digital Universitaria DGSCA. [En línea] 3 de 2000. [Citado el: 2 de 12 de 2008.] http://www.bibliodgsca.unam.mx/tesis/tes7cllg/sec_20.htm..
Martínez, José M. 2004. MPEG-7 Overview. [En línea] 10 de 2004. [Citado el: 24 de 2 de 2009.] Http: // www.chiariglione.org/mpeg/standards/mpeg-7/mpeg-7.htm.
Menéndez, Rosa. 2000. Rational Software Corporation. [En línea] 2000. [Citado el: 29 de 4 de 2009.] http://www.usmp.edu.pe/publicaciones/boletin/fia/info36/proyectos.html.
Montaño, César, Cortazzo, Joseline y Seroubian, Mabel. 1999. Centro Regional de Nuevas Tecnologías de Información. [En línea] 1999. [Citado el: 12 de 12 de 2008.] http://www.crnti.edu.uy/05trabajos/normas1/bus.ppt.
Morales Sánchez, Julieta. 2005. El formato Dublin Core como sistema de catalogación electrónico. [En línea] 06 de 12 de 2005. [Citado el: 16 de 01 de 2009.] http://www.mati.unam.mx/index.php?option=com_content&task=view&id=105&Itemid=51..
Navarrete, Toni y Blat, Josep. 2003. Biblioteca de la Universidad Complutense. [En línea] 2003. [Citado el: 13 de 12 de 2008.] http://europa.sim.ucm.es/compludoc/AA?articuloId=235898&donde=castellano&zfr=0. 13866710.
NetBeans. 2007. NetBeans. [En línea] 2007. [Citado el: 27 de 4 de 2009.] http://www.netbeans.org/.
Olivé Peig, Enric. 2003. [En línea] 11 de 2003. [Citado el: 16 de 02 de 2009.] http://www.tdr.cesca.es/TESIS_UPF/AVAILABLE/TDX-0316104-132946//tepo1de1.pdf.
Orozco García, Alejandra. 2008. La construcción de metadatos en el proceso de organización, análisis documental y recuperación de la información en los archivos de imágenes en movimiento. [En línea] 26 de 11 de 2008. [Citado el: 16 de 01 de 2009.] http://www.patrimoniofilmico.org.co/docs/metadatos.pdf.
Paulus Velázquez, Cristian. 2005. Universidad de Chile DCC. [En línea] 7 de 2005. [Citado el: 2 de 12 de 2008.] http://www.dcc.uchile.cl/~cvasquez/introehistoria.pdf.
Pecos, Daniel. 2002.
PostGreSQL vs. MySQL. [En línea] 7 de 6 de 2002. [Citado el: 25 de 4 de 2009.] http://www.netpecos.org/docs/mysql_postgres/x57.html.
Perdomo, Roberto. 2006. Python,un lenguaje de programación Ágil. [En línea] 2006. [Citado el: 26 de 4 de 2009.] http://maracay.velug.org.ve/descargas/PonenciaPython.pdf.
PHP. 2007. PHP. [En línea] 9 de 2007. [Citado el: 7 de 5 de 2009.] http://www.php.net/manual/es/intro-whatcando.php.
PostgreSQL. 2006. PostgreSQL. [En línea] 2006. http://www.postgresql.org/.
Prado, Bibiana, Taboada, Roberto y Copca, Agustin. 2004. Oracle. [En línea] 2004. [Citado el: 26 de 4 de 2009.] http://www.uaem.mx/posgrado/mcruz/cursos/miic/oracle3.ppt.
Prieto, Félix. 2008. Programación III.I.T.I. de Sistemas Patrones de diseño. [En línea] 2008. [Citado el: 26 de 4 de 2009.] http://www.infor.uva.es/~felix/datos/priii/tr_patrones-2×4.pdf.
Sánchez Calas, Juan Carlos. 2002. Uportal. Que son los metadatos. Bibliotecario Documentalista REUNA. [En línea] 2002. [Citado el: 01 de 12 de 2009.] http://www.uportal.cl/siel/siel_docs/estandarizacion/metadatos_SIEL.pdf..
Siri, Laura. 2000. Internet: Búsqueda y buscadores. [En línea] 2000. [Citado el: 7 de 12 de 2008.] http://books.google.com/books?hl=es&lr=&id=GT4Ex85fNxEC&oi=fnd&pg=PA21&dq=buscador&ots=84stqTGRiA&sig=yGOtK4V1WIVOykumRHsWmx6Znlg#PPP1,M1.. ISBN 9879334795, 9789879334799.
Suárez González, Héctor. 2003. Manual Hibernate. [En línea] 21 de 3 de 2003. [Citado el: 14 de 5 de 2009.] http://www.javahispano.org/contenidos/es/manual_hibernate/.
Symfony. 2005. Open-Source PHP Web Framework. [En línea] 2005. [Citado el: 6 de 5 de 2009.] http://www.symfony-project.org/.
Vetro, Anthony. 2008. MPEG-7 Video Browsing and Summarization. [En línea] 13 de 6 de 2008. [Citado el: 16 de 1 de 2009.] http://www.merl.com/projects/video-browsing/.
Vidal Bordés, Francisco Javier. 2001.
Solapamiento en herramientas de búsqueda de información en la World Wide Web. [En línea] 6 de 2001. [Citado el: 12 de 12 de 2008.] http://ibersid.eu/ojs/index.php/scire/article/view/1143/1125.
Vilches, Lorenzo. 2001. Tecnologías digitales al servicio de los archivos de imágenes. [En línea] 2001. [Citado el: 15 de 12 de 2008.] http://www.archivo-semiotica.com.ar/TECNOLOGIAS_IMAGEN_.html.
Visual paradigm. 2002. Visual paradigm. [En línea] 2002. [Citado el: 29 de 4 de 2009.] http://www.visual-paradigm.com/
Interoperabilidad y estandarización, claves para impulsar los registros de propiedad intelectual online
Interoperabilidad y estandarización, claves para impulsar los registros de propiedad intelectual online
- Durante la conferencia se abordó la necesidad de brindar una protección global de las obras desde el momento de su creación
- Se presentó el prototipo de Copyright Semántico Safe Creative, sistema que aportará seguridad a los creadores, identificando el copyright de los contenidos de Internet
Madrid, 22 de mayo de 2009 – Safe Creative, empresa líder en el registro de la propiedad intelectual online, celebró durante la jornada del pasado día 20 de mayo, la primera conferencia sobre el Papel de los Registros de Propiedad Intelectual en las Redes Globales Digitales. (http://www.semanticcopyright.org/)
Las principales conclusiones a las que se llegó destacan la conveniencia de impulsar un modelo de registro estándar que haga posible la interoperabilidad de un modo eficaz, y con el máximo rigor jurídico en todas partes del mundo. Así durante la conferencia se hizo alusión, al modelo de registro de la propiedad industrial como referente internacional de registro que aporta seguridad y rigor jurídico.
Durante la jornada se abordaron también temas como el de que la realidad digital y de Internet, está cambiando la forma en que los usuarios, no sólo consumen, sino también crean, de ahí que se tratara la necesidad de replantear las actuales fórmulas de protección de la propiedad intelectual en Internet mediante la creación de herramientas que permitan una mayor protección, información y difusión de la obra de cualquier autor.
Por este motivo, Safe Creative está apostando por impulsar la tecnología semántica como modelo capaz de aportar soluciones prácticas. Para ello, Safe Creative ha desarrollado un prototipo de sistema que identifica los derechos de los contenidos de Internet, que fue presentado con una demostración online por Mario Pena, Coordinador de la Comunidad Safe Creative.
Con esta propuesta, la compañía busca dar solución a los retos que plantea la distribución de contenidos en Internet. El prototipo, que la compañía ha denominado copyright semántico, pretende eliminar barreras a la distribución de la cultura libre, sin lesionar los derechos de los contenidos protegidos. El sistema presentado durante la conferencia, ofrece información de derechos de los contenidos, sin necesidad de incrustar metadatos o etiquetas en los ficheros, haciendo esta información sea comprensible e interpretable por los programas.
La jornada finalizó con una mesa debate, cuyo contenido tuvo un marcado tono jurídico y donde se habló de la relación que los modelos de registros de la propiedad existentes mantienen con el derecho jurídico, así como cuales son las necesidades de creadores y usuarios.
Los Registros de Propiedad Intelectual ofrecen a los autores, y al resto de titulares de derechos de propiedad intelectual, algunas herramientas destinadas a establecer seguridad jurídica, no sólo a los creadores, sino también a aquellos que explotan posteriormente tales creaciones.
Con la llegada del modelo de Safe Creative al panorama nacional e internacional de los registros de la propiedad intelectual, los autores tienen a su servicio el primer registro global, libre, abierto, independiente y gratuito en Internet, que les permite registrar y certificar la autoría y los derechos de sus obras de manera sencilla.
Juan Palacio, CEO de Safe Creative, dijo: «somos los primeros en crear un registro de la propiedad intelectual gratuito y global, pero creemos firmemente, que el camino para respetar la cultura, los derechos de autor, y de los usuarios, pasa por un sistema de registro e información estándar, abierto y global. Esta es nuestra propuesta que presentamos como prototipo. No queremos que sea algo nuestro, sino de todos los que nos ocupamos y preocupamos de la difusión de la cultura, con respeto a las opciones de todos los autores».
Acerca de Safe Creative
Safe Creative es la compañía de referencia en registro de la propiedad intelectual online. Su actividad se centra en la creación de herramientas que sirvan para el registro mundial, libre, abierto, independiente y gratuito de propiedad intelectual en entornos web. Gracias a la labor de Safe Creative son más de 13.000 los autores que ya pueden gestionar de manera sencilla e intuitiva sus derechos sobre dichas obras y aprovechar el potencial semántico que el registro en la plataforma propietaria aporta a los contenidos.
Relaciones públicas y prensa
INFORPRESS
Ángel Arroyo / Juan Manuel Pajuelo
[email protected] / [email protected]
91 564 07 25
Coordinador de Comunidad de Safe Creative
Mario Pena
[email protected]
976 074 888