Varejo

Pesquisa Visual Mais Inteligente e Rápida com GPU

Objetivo

Bing deploys NVIDIA technology to speed up object detection and deliver pertinent results in real time.

Cliente

Bing, Buscador da Microsoft

Caso de Uso

Pesquisa Visual

Tecnologia

NVIDIA cuDNN, NVIDIA Tesla K40s, GPUs NVIDIA Tesla M60

Pesquisa Visual: Uma Causa Digna

A pesquisa visual é vista como a próxima grande fronteira de pesquisa, e o Bing da Microsoft aproveitou o poder das GPUs NVIDIA para torná-la realidade. Ao mesmo tempo, eles aproveitaram o conjunto de ferramentas de criação de perfil NVIDIA® CUDA® e o cuDNN para tornar o sistema mais econômico. Mas a pesquisa visual em escala não é uma tarefa fácil: fornecer resultados pertinentes instantaneamente quando os usuários passam o mouse sobre objetos nas fotos requer cálculos massivos por algoritmos treinados para classificar, detectar e combinar as imagens dentro das imagens.

Bing: Group Object Detection

Bing: Detecção de Objetos de Grupo

A pesquisa visual é vista como a próxima grande fronteira de pesquisa, e o Bing da Microsoft aproveitou o poder das GPUs NVIDIA para torná-la realidade. Ao mesmo tempo, eles aproveitaram o conjunto de ferramentas de criação de perfil NVIDIA® CUDA® e o cuDNN para tornar o sistema mais econômico. Mas a pesquisa visual em escala não é uma tarefa fácil: fornecer resultados pertinentes instantaneamente quando os usuários passam o mouse sobre objetos nas fotos requer cálculos massivos por algoritmos treinados para classificar, detectar e combinar as imagens dentro das imagens.

Também vale a pena o esforço.

“Uma imagem vale mais que mil palavras”, disse Yan Wang, engenheiro sênior do Bing.

“Quando você tem uma foto, você fica muito mais próximo do que procura.”

Antes, porém, era uma longa espera pelo que você procurava. Em 2015, o Bing introduziu recursos de pesquisa de imagens que permitiam aos usuários desenhar caixas em torno de subimagens ou clicar em caixas de subimagens já detectadas pela plataforma; eles poderiam então usar essas imagens como base para uma nova pesquisa.

O Bing buscou uma solução que fosse rápida o suficiente para atender às expectativas dos usuários. Eles fizeram a transição de sua plataforma de detecção de objetos de CPUs para máquinas virtuais da série Azure NV executando aceleradores de GPU NVIDIA Tesla® M60. Ao fazer isso, o Bing reduziu a latência de detecção de objetos de 2,5 segundos na CPU para 200 milissegundos. Otimizações adicionais com NVIDIA cuDNN reduziram esse número para 40 milissegundos, bem abaixo do limite para uma excelente experiência do usuário na maioria das aplicações.

Bing: Dress Shirt Search

Bing: Pesquisa de Camisa Social

Criando Uma Experiência Superior

A recompensa pela mudança para GPUs NVIDIA foi instantânea, com a latência de inferência reduzida imediatamente em 10 vezes. Mas os engenheiros do Bing não iriam parar por aí.

Eles incorporaram a biblioteca de deep learning acelerada por GPU NVIDIA cuDNN em seu código e atualizaram seu modo de driver do modelo de driver de vídeo do Windows para o Tesla Compute Cluster, reduzindo a latência para 40 milissegundos para uma melhoria total de desempenho de 60 vezes. Para detectar mais categorias de objetos em uma imagem, eles passaram de um processo rápido de dois estágios R-CNN para um processo de “detecção de disparo único” de um estágio. Isso acelerou o recurso em 10 vezes e permite a detecção de mais de 80 categorias de imagens.

A equipe do Bing também aproveita um modelo de acionamento de filtro e o armazenamento de valores-chave ObjectStore da Microsoft para limitar a quantidade de dados necessários para processar e armazenar resultados em cache para uso futuro. Isso os ajuda a economizar mais de 90% dos custos, tornando mais viável economicamente atender o volume de solicitações que recebem diariamente.

A experiência do usuário oferecida pela Pesquisa Visual do Bing reflete esses esforços extras. Na página de pesquisa do Bing, um usuário pode selecionar “pesquisa de imagens”, digitar texto ou fazer upload de uma imagem e, em seguida, selecionar pontos de acesso detectados automaticamente na imagem ou desenhar uma caixa nas partes de interesse para acionar resultados de pesquisa quase instantâneos. Colocar a caixa sobre, digamos, uma bolsa, gera inúmeras oportunidades de compra de bolsas, inclusive preços.

No lado do desenvolvimento e implantação, a mudança para GPUs NVIDIA capacitou a equipe do Bing a ser mais ágil e a aumentar sua taxa de aprendizado e inovação. Com CPUs, levaria meses para executar modelos atualizados em todo o conjunto de dados de bilhões de imagens após cada alteração significativa. Com as GPUs, esse processo agora é instantâneo, tornando prático atualizar os modelos com frequência e oferecer mais recursos para os usuários do Bing.

“Uma imagem vale mais que mil palavras. Quando você tem uma foto, você fica muito mais próximo do que procura.”

Yan Wang
Engenheiro Senior, Bing

Creating a Superior Experience

Momento Inovador para Pesquisa Visual

A detecção de objetos em tempo real e a pesquisa visual agora são possíveis, tornando a Pesquisa Visual do Bing um momento inovador. Com a capacidade de processar modelos mais profundos e complexos, a Pesquisa Visual do Bing pode suportar mais categorias de objetos detectáveis. E atualizações mais rápidas para modelos de back-end liberam o Bing para aumentar a aposta no desenvolvimento.

“Isso reduz significativamente nosso ciclo de inovação e produção de mais de um mês em cada atualização para quase instantâneo”, disse Wang.

O impacto potencial da Pesquisa Visual do Bing poderá ser transformador para os varejistas online, que poderão levar os seus produtos diretamente às pesquisas dos consumidores, em vez de esperar que as pesquisas os encontrem. Mas não é preciso muito para imaginar o que a Pesquisa Visual do Bing pode fazer também por outros setores, como viagens e educação.

Por exemplo, um usuário levado pela foto de uma praia poderia imediatamente combinar essa foto com um local real e reservar férias. Ou um estudante de arte poderia tirar uma foto de uma pintura em um museu e identificar instantaneamente outras pinturas que poderiam ter influenciado ou sido influenciadas pela pintura em questão. As possibilidades são infinitas.

“Um processo de atualização de modelo mais rápido reduz significativamente nosso ciclo de inovação e produção de mais de um mês em cada atualização para quase instantâneo.”

Yan Wang
Engenheiro Senior, Bing