Empresas

Cómo funciona el servicio de Google para identificar qué es lo que se ve en una imagen

Ripe

Este servicio permitiría a Google mejorar su sistema de búsquedas de imágenes y serviría cómo una ayuda para personas con problemas visuales.

Para realizar este servicio la empresa se inspiró en la forma en la que se realizan las traducciones automáticas, en donde una Red Neural Recurrente (RNN) transforma una oración en un vector que une distintas palabras, mientras que otro sistema igual utiliza ese vector para traducir la frase en otro idioma.

Utilizando esta lógica, el servicio identifica los objetos en las imágenes, mientras que el otro sistema forma una frase que relata que es lo que se ve en esa foto. El sistema logró identificar varias imágenes de forma satisfactoria con epígrafes como "dos pizzas sobre un horno", mientras que algunas fotos tuvo errores al describir "dos perros jugando en el pasto", cuando aparecen tres animales.