El futuro de las búsquedas no pasa sólo por indexar documentos e imágenes. Un buscador realmente avanzado debe ser capaz de localizar contenidos no sólo por las palabras que se utilizan para definirlos, sino también analizando su contenido. Google utiliza internamente esta tecnología para, por ejemplo, localizar y eliminar los vídeos con copyright que los usuarios suben a YouTube.
[+/-]
Shumeet Baluja, investigador científico en Google, trabaja en áreas como procesado de imágenes e inteligencia artificial. En el 20% de tiempo libre que la compañía ofrece a sus empleados para trabajar en proyectos propios, decidió utilizar el sistema de localización de vídeos con copyright de Google para, mediante modificaciones, localizar contenidos pedófilos en la Red. "El objetivo era crear un programa que permitiese analizar las imágenes de forma automática", destaca Baluja en una entrevista realizada por videoconferencia. Sólo en España, los delitos de pornografía infantil detectados aumentaron en 2008 más de un 1.200% con respecto a las cifras de 2003, según el Ministerio del Interior.
Baluja detalla algunas de las dificultades para identificar de forma masiva este tipo de imágenes. Comenta que los propietarios de las webs con contenido pedófilo buscan imágenes nuevas y las personalizan incluyendo pequeñas modificaciones. "El problema es que, cuando la imagen se modifica, aunque sea ligeramente, cualquier sistema sencillo la identifica como si fuera diferente". Parte del trabajo de Baluja ha consistido en desarrollar una técnica que permite identificar esas imágenes como idénticas. Pese a que puede parecer una tarea sencilla, Baluja lo califica de "gran avance".
El investigador no quiere desvelar los detalles exactos de los patrones que introducen para que el software distinga los vídeos de pornografía infantil. "Cuanto más comentemos, menor será el grado de efectividad", se excusa. No obstante, sí comenta que hay una serie de puntos clave. "Analizamos parámetros como los fondos, los colores de la imagen, la cámara con la que se ha tomado e incluso los planos realizados", añade. Cuando se le pregunta por el reconocimiento de rostros, Baluja destaca que "no es lo que mejor funciona en este tipo de imágenes, ya que en ocasiones los niños tienen las caras difuminadas". El investigador sostiene que existen grandes dificultades para que una máquina detecte si las personas que aparecen en los vídeos son niños.
"La idea es conseguir un método igual de efectivo que la revisión manual, pero que pueda actuar con cientos de vídeos", aunque la decisión final sobre estos está, por el momento, en manos de personas.
Cuando el programa detecta un contenido que podría ser pedófilo, el software le asigna una prioridad en función de los patrones detectados. Dependiendo de esa ponderación, la persona lo revisará con mayor o menor presteza, aunque Baluja destaca que no es necesario visionar el vídeo completo. "El programa ya realiza una selección de las imágenes sospechosas para que se pueda actuar más rápido".
La primera entidad en implantar esta tecnología ha sido una ONG de Estados Unidos, el Centro Nacional para los Niños Explotados y Desaparecidos, tras un año de desarrollo inicial y unos ocho meses de adaptación. "El trabajo que se realizaba de forma manual era descorazonador", explica.
Baluja se muestra esperanzado con respecto al avance de las tecnologías de detección, pero también es consciente del duro trabajo que resta por hacer. "Cuanto más mejoramos los sistemas, más renuevan sus técnicas los autores de estos contenidos. Es una lucha constante", concluye.
Público (Madrid)
Baluja detalla algunas de las dificultades para identificar de forma masiva este tipo de imágenes. Comenta que los propietarios de las webs con contenido pedófilo buscan imágenes nuevas y las personalizan incluyendo pequeñas modificaciones. "El problema es que, cuando la imagen se modifica, aunque sea ligeramente, cualquier sistema sencillo la identifica como si fuera diferente". Parte del trabajo de Baluja ha consistido en desarrollar una técnica que permite identificar esas imágenes como idénticas. Pese a que puede parecer una tarea sencilla, Baluja lo califica de "gran avance".
El investigador no quiere desvelar los detalles exactos de los patrones que introducen para que el software distinga los vídeos de pornografía infantil. "Cuanto más comentemos, menor será el grado de efectividad", se excusa. No obstante, sí comenta que hay una serie de puntos clave. "Analizamos parámetros como los fondos, los colores de la imagen, la cámara con la que se ha tomado e incluso los planos realizados", añade. Cuando se le pregunta por el reconocimiento de rostros, Baluja destaca que "no es lo que mejor funciona en este tipo de imágenes, ya que en ocasiones los niños tienen las caras difuminadas". El investigador sostiene que existen grandes dificultades para que una máquina detecte si las personas que aparecen en los vídeos son niños.
"La idea es conseguir un método igual de efectivo que la revisión manual, pero que pueda actuar con cientos de vídeos", aunque la decisión final sobre estos está, por el momento, en manos de personas.
Cuando el programa detecta un contenido que podría ser pedófilo, el software le asigna una prioridad en función de los patrones detectados. Dependiendo de esa ponderación, la persona lo revisará con mayor o menor presteza, aunque Baluja destaca que no es necesario visionar el vídeo completo. "El programa ya realiza una selección de las imágenes sospechosas para que se pueda actuar más rápido".
La primera entidad en implantar esta tecnología ha sido una ONG de Estados Unidos, el Centro Nacional para los Niños Explotados y Desaparecidos, tras un año de desarrollo inicial y unos ocho meses de adaptación. "El trabajo que se realizaba de forma manual era descorazonador", explica.
Baluja se muestra esperanzado con respecto al avance de las tecnologías de detección, pero también es consciente del duro trabajo que resta por hacer. "Cuanto más mejoramos los sistemas, más renuevan sus técnicas los autores de estos contenidos. Es una lucha constante", concluye.
Público (Madrid)