Venta Minorista

Búsqueda Visual Más Rápida e Inteligente Impulsada por GPU

Objectivo

Bing deploys NVIDIA technology to speed up object detection and deliver pertinent results in real time.

Cliente

Bing, Buscador de Microsoft

Caso de Uso

Búsqueda Visual

Tecnología

NVIDIA cuDNN, NVIDIA Tesla K40s, GPU NVIDIA Tesla M60

Búsqueda Visual: Una Causa Digna

En la búsqueda visual se considera la próxima gran frontera de búsqueda, y Bing de Microsoft ha aprovechado el poder de las GPU NVIDIA para hacerlo realidad. Al mismo tiempo, aprovecharon la cadena de herramientas de creación de perfiles NVIDIA® CUDA® y cuDNN para hacer que el sistema sea más rentable. Pero la búsqueda visual a escala no es una cuestión fácil: ofrecer resultados pertinentes al instante cuando los usuarios pasan el cursor sobre los objetos dentro de las fotos requiere cálculos masivos mediante algoritmos entrenados para clasificar, detectar y relacionar las imágenes dentro de las imágenes.

Bing: Group Object Detection

Bing: Detección de Objetos Grupales

En la búsqueda visual se considera la próxima gran frontera de búsqueda, y Bing de Microsoft ha aprovechado el poder de las GPU NVIDIA para hacerlo realidad. Al mismo tiempo, aprovecharon la cadena de herramientas de creación de perfiles NVIDIA® CUDA® y cuDNN para hacer que el sistema sea más rentable. Pero la búsqueda visual a escala no es una cuestión fácil: ofrecer resultados pertinentes al instante cuando los usuarios pasan el cursor sobre los objetos dentro de las fotos requiere cálculos masivos mediante algoritmos entrenados para clasificar, detectar y relacionar las imágenes dentro de las imágenes.

También vale la pena el esfuerzo.

"Una imagen vale más que mil palabras", dijo Yan Wang, ingeniero senior de Bing.

"Cuando tienes una imagen, estás mucho más cerca de lo que estás buscando".

Hasta ahora, sin embargo, ha sido una larga espera para encontrar lo que estaba buscando. En 2015, Bing introdujo capacidades de búsqueda de imágenes que permitían a los usuarios dibujar cuadros alrededor de subimágenes o hacer clic en cuadros de subimágenes ya detectados por la plataforma; Luego podrían utilizar esas imágenes como base para una nueva búsqueda.

Bing buscó una solución que fuera lo suficientemente rápida para satisfacer las expectativas de los usuarios. Hicieron la transición de su plataforma de detección de objetos de CPU a máquinas virtuales de la serie Azure NV que ejecutan aceleradores de GPU NVIDIA Tesla® M60. Al hacerlo, Bing redujo su latencia de detección de objetos de 2,5 segundos en la CPU a 200 milisegundos. Optimizaciones adicionales con NVIDIA cuDNN lo redujeron a 40 milisegundos, muy por debajo del umbral para una excelente experiencia de usuario en la mayoría de las aplicaciones.

Bing: Dress Shirt Search

Bing: Búsqueda de Camisas de Vestir

Creando Una Experiencia Superior

La recompensa por el cambio a las GPU de NVIDIA fue instantánea: la latencia de inferencia se redujo inmediatamente en 10 veces. Pero los ingenieros de Bing no estaban dispuestos a detenerse ahí.

Incorporaron en su código la biblioteca de deep learning acelerada por GPU NVIDIA cuDNN y actualizaron su modo de controlador desde el modelo de controlador de pantalla de Windows al Tesla Compute Cluster, reduciendo la latencia a 40 milisegundos para una mejora total del rendimiento de 60 veces. Para detectar más categorías de objetos en una imagen, pasaron de un proceso rápido de dos etapas R-CNN a un proceso de “detección de disparo único” de una etapa. Esto aceleró la función 10 veces y permite la detección de más de 80 categorías de imágenes.

El equipo de Bing también aprovecha un modelo de activación de filtro y el almacén de valores clave ObjectStore de Microsoft para limitar la cantidad de datos que necesitan para procesar y almacenar en caché los resultados para uso futuro. Esto les ayuda a ahorrar más del 90 por ciento de sus costos, lo que hace que sea económicamente más viable atender el volumen de solicitudes que reciben diariamente.

La experiencia de usuario que ofrece la Búsqueda Visual de Bing refleja estos esfuerzos adicionales. Desde la página de búsqueda de Bing, un usuario puede seleccionar "búsqueda de imágenes", escribir texto o cargar una imagen y luego seleccionar puntos de acceso detectados automáticamente en la imagen o dibujar un cuadro en las partes de interés para activar resultados de búsqueda casi instantáneos. Colocar la caja sobre, digamos, un bolso genera numerosas oportunidades de compra de bolsos, junto con su precio.

En cuanto al desarrollo y la implementación, el cambio a las GPU NVIDIA ha permitido al equipo de Bing ser más ágil y aumentar su tasa de aprendizaje e innovación. Con las CPU, se necesitarían meses para ejecutar modelos actualizados en todo el conjunto de datos de miles de millones de imágenes después de cada cambio significativo. Con las GPU, este proceso ahora es instantáneo, lo que hace que sea práctico actualizar los modelos con frecuencia y ofrecer más funciones a los usuarios de Bing.

“Una imagen vale más que mil palabras. Cuando tienes una imagen, estás mucho más cerca de lo que estás buscando”.

Yan Wang
Ingeniero Senior, Bing

Creating a Superior Experience

Momento Innovador para la Búsqueda Visual

La detección de objetos en tiempo real y la búsqueda visual ahora son posibles, lo que convierte la Búsqueda Visual de Bing en un momento innovador. Con la capacidad de procesar modelos más profundos y complejos, la Búsqueda Visual de Bing puede admitir más categorías de objetos detectables. Y las actualizaciones más rápidas para los modelos back-end liberan a Bing para subir la apuesta en el frente del desarrollo.

"Reduce significativamente nuestro ciclo de innovación y producción de más de un mes en cada actualización a casi instantáneo", dijo Wang.

El impacto potencial de la Búsqueda Visual de Bing podría ser transformador para los minoristas en línea, quienes podrán llevar sus productos directamente a las búsquedas de los consumidores en lugar de esperar a que las búsquedas los encuentren. Pero no hace falta mucho para imaginar lo que la Búsqueda Visual de Bing puede hacer también por otras industrias, como las de viajes y educación.

Por ejemplo, un usuario cautivado por una imagen de una playa podría relacionar inmediatamente esa foto con una ubicación real y reservar unas vacaciones. O un estudiante de arte podría tomar una fotografía de una pintura en un museo e identificar instantáneamente otras pinturas que podrían haber influido o haber sido influenciadas por la pintura en cuestión. Las posibilidades son infinitas.

"Un proceso de actualización de modelos más rápido reduce significativamente nuestro ciclo de innovación y producción de más de un mes en cada actualización a casi instantáneo".

Yan Wang
Ingeniero Senior, Bing