Deep Learning añade valor a las soluciones de vídeo

El progreso en el desarrollo de la inteligencia artificial (IA) y la visión por ordenador han ido avanzando a un ritmo tan espectacular que algunos de los decanos de la tecnología, como el científico en computación Yann LeCun, bromean sobre el trabajo realizado en estos asuntos antes de 2012, como «prehistórico».

En términos de reconocimiento de objetos, los algoritmos disponibles en ese momento tenían solo un 75% de precisión. Hoy en día, gracias a un enfoque basado en el Deep Learning, podemos esperar que la precisión sea mucho mayor. De hecho, los avances logrados en los últimos 12 meses indican que estamos cerca de poder considerar seriamente la incorporación de las tecnologías en la mayoría de los sistemas de videovigilancia.

Sería un error considerar que Deep Learning es una plataforma de software de análisis de vídeo avanzada, ya que representa un cambio de paradigma dentro del sector de la seguridad en cuanto a cómo se pueden detectar y responder los incidentes.

¿Qué es Deep Learning?

A diferencia de la mayoría de las formas de análisis de vídeo, el desarrollador de aplicaciones de Deep Learning no tiene que escribir algoritmos complicados para reconocer objetos. En vez de ello, una solución de Deep Learning tiene la capacidad de «aprender de los ejemplos». Durante una fase de entrenamiento inicial, la aplicación recibe grandes cantidades de datos que representan ejemplos resueltos correctamente del desafío en cuestión, por ejemplo, la clasificación de personas por edad o género.

Una red profunda analiza la relación entre los datos introducidos y el resultado esperado, tal como el género de una persona, y aprende cómo resolver el problema por analogías. Un ejemplo: para poder establecer correctamente el género de una persona, un experto en inteligencia artificial debe diseñar, entrenar y validar una red profunda que, durante la etapa de capacitación, utiliza una base de datos de millones de caras seleccionadas adecuadamente, cada una de las cuales está etiquetada con su conocido género verdadero.
Después de varios días de aprendizaje, la red neuronal está lista para empezar a trabajar y es probable que tenga una precisión aproximada del 98%, lo que equivale más o menos a la capacidad de los seres humanos para hacer lo mismo.

El desafío

Deep Learning necesita la experiencia de expertos en aprendizaje automático, junto con enormes recursos informáticos, ya que la aplicación debe ser capaz de hacer frente a «condiciones naturales», como son las condiciones cambiantes de iluminación, las sombras, la posición de una cara, etc. Por lo tanto, cualquier cosa que no sea lo estrictamente básico de las soluciones de Deep Learning, deberá ejecutarse en servidores que tengan la capacidad apropiada de procesamiento informático y memoria.

Para que Deep Learning sea una adición práctica a la mayoría de los sistemas de videovigilancia, por lo general se acepta que requerirá una arquitectura de software optimizada que lo haga capaz de ejecutarse en las cámaras. Con esto queremos decir, integrado en cámaras de la misma manera que las aplicaciones se ejecutan en teléfonos inteligentes y tablets.

Por Uri Guterman, Jefe de Producto y Marketing de Hanwha Techwin Europe, y  Alessia Saggese, copropietaria de AI Tech y profesora asistente en la Universidad de Salerno

Lea el artículo íntegro en Cuadernos de Seguridad