Google lança programa que cria legendas para fotos

Por Priscilla Geremias

google-legendasautomaticas
Foto legendada pelo programa como: “Duas pizzas sobre um fogão com forno” (Crédito: Divulgação Google)

A Google desenvolveu um sistema para computadores que detecta imagens e produz automaticamente legendas para elas. Essa tecnologia é uma combinação de redes neurais e aprendizado de máquinas que identifica similaridades com a imagem que se vê e cria uma descrição escrita.

O procedimento tecnológico foi pensado para ser o mesmo realizado pelo nosso cérebro e foi batizado de Neural Image Caption (NIC). As informações sobre esse novo software foram publicadas em um post no Google Research Blog.

“Descrever de forma precisa uma cena complexa requer uma representação profunda do que está acontecendo na cena, que capture como os vários objetos se relacionam e traduza tudo isso para uma linguagem que pareça natural”, afirmaram representantes da Google no post do blog.

Os pesquisadores da Google, Oriol Vinyals, Alexander Toshev, Samy Bengio e Dumitru Erhan, publicaram um estudo no site arXiv no qual descrevem como chegaram ao desenvolvimento do NIC.

Espera-se que, no futuro, a nova tecnologia possa ser usada para facilitar a descrição de ambientes por robôs, a locomoção de cegos ou pessoas com dificuldades visuais e a busca de conteúdo na internet – entre outras aplicações.

Ramon Pereira, analista de sistemas e mestrando em ciência da computação pela Universidade Federal de Minas Gerais (UFMG) vê no aplicativo um avanço na computação visual, dado a importância de legendas tanto para o uso nas redes sociais quanto a relevância do sistema de recomendação de produtos para vendas na internet.

“Na computação esse sistema é baseado através de associações. Recursos computacionais identificam objetos e reconhecem padrões dentro de uma imagem. A ideia é dentro do sistema ter um banco de dados de palavras e associações e que com elas você associe o objeto a uma determinada representação do mundo real” afirma Pereira.

O NIC gerou resultados precisos, como por exemplo a legenda “um grupo de pessoas fazendo compras em um mercado ao ar livre”, escolhida pelo computador para descrever uma foto de uma feira. Entretanto também gerou várias legendas com pequenos erros, como ao descrever uma foto com três cachorros como tendo apenas dois animais; ou grandes erros, quando confundiu uma foto de uma estrada com um refrigerador.

google-legendasautomaticas.jpg2
Quadro mostra os erros e os acertos do software (Crédito: Divulgação Google)

 

Sobre os erros cometidos pelo software Ramon Pereira considera que ainda há o que se desenvolver no projeto e a margem de falhas tendem a ser cada vez mínimas. “A ideia da computação é cada vez mais automatizar os processos e promover a inteligência artificial, que é um campo em avanços profundos e muito explorada”, diz o analista de sistemas.

O modelo NIC foi avaliado usando um algorítimo de classificação que compara a qualidade do texto gerado pela máquina com a qualidade do texto gerado por seres humanos. Mesmo com alguns erros, NIC pontuou 59, numa escala de medição na qual a pontuação 25 é para resultados de estado da arte e pontuações maiores representam ainda mais precisão, até chegar a 69 que é a nota para seres humanos.

Confira a entrevista que Ramon Pereira deu ao Digitais na qual ele explica melhor como funciona o processo de desenvolvimento de um software como esse e suas contribuições:

Editado por Isabella Robaina

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s