Deep learning: la revolución tecnológica del videoanálisis

Por Martí Balcells. Head of Research Computer Vision. Davantis

Deep Learning, dos palabras que desde hace un tiempo empiezan a resonar con fuerza en el mundo de la seguridad. Sin embargo, pocos son los que conocen qué es realmente el Deep Learning y qué ventajas ofrece. ¿Se trata de un nuevo concepto de marketing o de una revolución tecnológica? ¿Qué impacto tendrá en el ámbito del videoanálisis? Deep Learning, dos palabras que desde hace un tiempo empiezan a resonar con fuerza en el mundo de la seguridad. Sin embargo, pocos son los que conocen qué es realmente el Deep Learning y qué ventajas ofrece. ¿Se trata de un nuevo concepto de marketing o de una revolución tecnológica? ¿Qué impacto tendrá en el ámbito del videoanálisis?

revolución tecnológica del videoanálisis

El Deep Learning se engloba dentro de la Inteligencia Artificial, basada en dotar a las máquinas de una inteligencia parecida a la de los humanos. Y más concretamente está siendo una revolución en el campo de Machine Learning (aprendizaje automático). Este aprendizaje se lleva a cabo mediante algoritmos matemáticos que, utilizando una serie de ejemplos, permiten a las máquinas aprender a realizar una tarea sin estar específicamente programadas para ello. Aplicado al videoanálisis, son capaces de observar por ejemplo una imagen y decidir si se trata de una persona o cualquier otra cosa que nos interese detectar.

El Deep Learning se basa en redes neuronales complejas, que en su origen, son arquitecturas inspiradas en el funcionamiento de las neuronas del cerebro humano.
Hasta ahora, para que una máquina pudiera aprender a realizar una tarea sobre una imagen, primero se debían extraer unas características concretas de la imagen (como información de color, contornos, etc.) y, a continuación, los algoritmos de Machine Learning aprendían, por ejemplo, a detectar la presencia de una persona.

La selección de dichas características se basaba en la experiencia e intuición de ingenieros. Ahora, gracias al Deep Learning ya no es necesario extraer previamente estas características sino que el algoritmo observa directamente toda la imagen, decide cuáles son las mejores características para la tarea específica y aprende a realizarla de forma automática.

Para ello, los algoritmos de Deep Learning encadenan centenas de etapas de extracción de características y decisiones, que se combinan entre sí para obtener arquitecturas muy profundas y complejas. Durante el proceso de aprendizaje de una tarea se optimizan millones de parámetros, por ejemplo para detectar una persona en una imagen. Asimismo, una vez el sistema ha aprendido a realizar una tarea también son necesarios millones de cálculos para poder ejecutarla.

Tiempo de cálculo

Uno de los requisitos imprescindibles para trabajar de forma eficiente con Deep Learning es disponer de potentes tarjetas gráficas que permiten reducir notablemente el tiempo de cálculo. Por este motivo, es muy difícil utilizar Deep Learning en la misma cámara o en sistemas integrados.

Otro de los grandes retos del Deep Learning es que para entrenar redes neuronales se necesita un gran volumen de ejemplos. En función de la arquitectura de la red se pueden requerir cientos de miles de ejemplos. Aunque existen conjuntos de datos públicos, es imprescindible disponer de un gran número de ejemplos obtenidos específicamente de entornos similares al entorno donde la red vaya a actuar. Por ejemplo, si queremos utilizar Deep Learning con cámaras térmicas, necesitaremos miles de ejemplos obtenidos con estas cámaras y, ante la ausencia total de datos públicos, cada empresa deberá crear su propio conjunto de datos de entrenamiento.

Un potencial enorme

En cualquier caso, el potencial del Deep Learning es enorme. De hecho, en muchos ámbitos ha demostrado superar incluso el rendimiento de las personas. En videoanálisis, y en concreto en el entorno de la seguridad, el Deep Learning será una auténtica revolución.
Los sistemas actuales, aun habiendo demostrado ser muy efectivos y flexibles, siempre han tenido el riesgo de generar un volumen demasiado alto de falsas alarmas si el proyecto no se diseña escrupulosamente.

Con la incorporación de Deep Learning el volumen de falsas alarmas se reduce drásticamente. Es más, permite realizar videoanálisis sobre cámaras en movimiento. También permite definir reglas más complejas e incluso mejorar el sistema con ejemplos específicos de cada instalación. Asimismo, con Deep Learning podemos abordar problemas que en la actualidad son imposibles de solucionar de forma satisfactoria.

revolución tecnológica del videoanálisis
.

No obstante, este potencial presenta algunos retos difíciles de solucionar. Para que el Deep Learning funcione de forma eficaz necesita imágenes de calidad, algo no siempre disponible en entornos de seguridad. A la vez, los objetos analizados con Deep Learning deben tener un tamaño mínimo de varias decenas de píxeles, por lo que difícilmente se podrán alcanzar las distancias de detección actuales. Asimismo, aunque el Deep Learning consiga un análisis perfecto de la apariencia de objetos, siempre existirá el dilema de qué hacer cuando un intruso se coloque, por ejemplo, debajo de una caja.

Es probable que la solución no sea ni el Deep Learning ni el videoanálisis tradicional, sino más bien una combinación de ambos. La experiencia y el conocimiento del sector son elementos claves para solventar con éxito este gran reto. La revolución tecnológica está al llegar y, en Davantis, ya hace tiempo que trabajamos para hacerla posible.