Algoritmo desenvolvido pelo MIT permite extrair áudio de imagens sem som

Por Redação | 05 de Agosto de 2014 às 16h17

Um grupo de pesquisadores do MIT em conjunto com Microsoft e Adobe desenvolveram um algoritmo que permite reconstruir um sinal de áudio a partir da análise de vibrações de objetos representados em vídeo. Nos experimentos realizados, eles foram capazes de identificar sinais de áudio a partir das vibrações de um saco de batatas chips que foi fotografada a uma distância de 15 metros através de um vidro à prova de som. As informações são do site MIT News.

Em outros experimentos, a equipe pôde extrair sinais de áudio de vídeos de folhas de alumínio, a superfície de um copo de água e de folhas de uma planta em vaso. As conclusões serão apresentadas pelos pesquisadores na conferência de computação gráfica Siggraph, ainda este ano.

Segundo Abe Davis, estudante de pós-graduação em engenharia elétrica e ciência da computação no MIT e primeiro autor do estudo, quando o som atinge o objeto, faz com que ele vibre. É a partir do movimento dessa vibração que é possível identificar um sinal visual muito sutil, normalmente invisível a olho nu. Segundo ele a informação já estava lá, apenas foi descoberto como identificá-la.

Para realizar os experimentos, foram usadas câmeras de alta velocidade com a captura de 2.000 a 6.000 quadros por segundo. No entanto, em outro experimento os pesquisadores utilizaram uma câmera digital comum com capacidade de 60 quadros por segundo. Neste modelo a reconstrução de áudio também foi possível, mas menos fiel do que a feita com a câmera de alta velocidade. Ainda com a qualidade reduzida, foi possível identificar o sexo e número de pessoas que estavam conversando em um quarto, além de propriedades acústicas das vozes dos oradores.

Entre as aplicações possíveis com a técnica desenvolvida pela equipe do MIT está a tecnologia forense. No entanto, Davis é mais entusiasta e afirma que este é “um novo tipo de imagem”.

Para ele, recuperar os sons dos objetos permite identificar várias informações sobre o que acontece ao redor do objeto, além de dados sobre o objeto em si. Em um trabalho paralelo ainda em desenvolvimento, a equipe está tentando determinar as propriedades materiais e estruturais dos objetos a partir da resposta visível para as ondas de som.

Entre as experiências relatadas pela equipe ao jornal Siggraph, também foi possível medir movimentos de medição de cerca de um décimo de micrômetro, o que corresponde a cinco milésimos de um pixel. Com a medição da mudança de valor da cor de um único pixel em longo tempo é possível identificar movimentos menores que um pixel.

Com um algoritmo que permite ampliar minúsculas variações no vídeo, a equipe pôde visualizar movimentos que antes não eram identificados, como a respiração de um bebê no berçário de um hospital. A técnica utiliza sucessivos quadros de vídeo através de vários filtros de imagens usados para medir flutuações em diferentes orientações, como na vertical, horizontal e diagonal, além de diversas escalas.

Segundo Davis, as distorções nas bordas dos objetos podem conter informações sobre a vibração de alta frequência dos objetos que não seriam identificadas a olho nu. Para o professor de engenharia elétrica e ciência da computação da Universidade da Califórnia em Berkeley, Alexei Efros, a descoberta é bem interessante. Segundo ele, o recurso terá aplicações importantes para a tecnologia, mas não descarta a possibilidade de novas aplicações surgirem além daquelas esperadas pela equipe desenvolvedora da tecnologia.

Confira, no vídeo disponibilizado por Davis, como funciona a tecnologia:

Fonte: http://newsoffice.mit.edu/2014/algorithm-recovers-speech-from-vibrations-0804

Fique por dentro do mundo da tecnologia!

Inscreva-se em nossa newsletter e receba diariamente as notícias por e-mail.