Publicidade

Sem sair do bolso: IA permitirá o uso do celular pela voz, diz CEO da ElevenLabs

Por  • Editado por Bruno De Blasi |  • 

Compartilhe:
Marcelo Fischer/Canaltech
Marcelo Fischer/Canaltech

A interação com a tecnologia está prestes a migrar das telas sensíveis ao toque para comandos de voz complexos e contextuais. De acordo com o cofundador e CEO da ElevenLabs, Mati Staniszewski, a voz está se tornando a próxima grande interface para a inteligência artificial (IA), permitindo que os dispositivos realizem tarefas sem que o usuário precise olhar para eles.

Em entrevista ao portal TechCrunch durante o Web Summit Qatar, o executivo afirmou que os modelos de voz evoluíram além da simples imitação da fala humana. 

Agora, essas tecnologias trabalham em conjunto com a capacidade de raciocínio de grandes modelos de linguagem (LLMs), o que permite uma mudança fundamental na forma como as pessoas interagem com máquinas.

Canaltech
O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia
Continua após a publicidade

A visão de futuro apresentada por Staniszewski projeta um cenário onde a dependência visual dos smartphones diminui. "Espero que todos os nossos telefones voltem para os nossos bolsos e possamos nos imergir no mundo real ao nosso redor, com a voz como o mecanismo que controla a tecnologia", disse o CEO ao portal norte-americano.

Para viabilizar esse futuro, a ElevenLabs trabalha em uma abordagem híbrida de processamento. O objetivo é mesclar o processamento em nuvem com a execução direta no dispositivo (on-device), permitindo que a IA funcione em novos hardwares, como fones de ouvido e óculos inteligentes, com menor latência.

ElevenLabs atinge valuation de US$ 11 bilhões

A aposta no futuro da voz atraiu a atenção de grandes investidores do Vale do Silício. A ElevenLabs anunciou nesta semana uma rodada de financiamento Série D de US$ 500 milhões. O aporte elevou a avaliação de mercado (valuation) da empresa para US$ 11 bilhões.

A rodada foi liderada pela Sequoia Capital, com participação da Andreessen Horowitz (a16z) e da ICONIQ Capital. Segundo Staniszewski, o capital será utilizado para acelerar o desenvolvimento da "ElevenAgents", a plataforma de agentes conversacionais da empresa voltada para elevar a experiência do cliente e automatizar operações internas.

O executivo destacou em sua conta no X (antigo Twitter) que a empresa lançará nos próximos dias um novo modelo conversacional para essa plataforma. A promessa é de um sistema mais rápido e com melhor capacidade de compreensão e expressão de emoções.

Apple e Google na corrida pelos agentes autônomos

A visão da ElevenLabs se alinha a movimentos agressivos das Big Techs, que buscam transformar assistentes passivos em agentes ativos. A Apple adquiriu recentemente a Q.ai, uma startup israelense especializada em reconhecimento de fala e áudio, em um negócio avaliado em até US$ 2 bilhões.

Continua após a publicidade

A tecnologia da Q.ai se destaca por utilizar "micromovimentos da pele facial" para detectar palavras faladas ou apenas articuladas sem som. Essa inovação permite que dispositivos identifiquem comandos sussurrados, melhorando a interação em ambientes barulhentos ou situações que exigem discrição. 

A aquisição reforça a estratégia da Apple de integrar IA diretamente ao hardware, com foco em aprimorar a usabilidade de produtos como AirPods e o Vision Pro.

Do outro lado, o Google avança com o desenvolvimento de recursos para que o Gemini controle aplicativos diretamente no sistema Android. Anunciada originalmente durante o Google I/O 2024 como parte do Projeto Astra, a funcionalidade deve chegar aos usuários como "Automação de tela". 

Códigos encontrados no sistema operacional indicam que a IA poderá interagir com aplicativos de transporte para reservar corridas ou realizar pedidos online sem que o usuário precise tocar na tela repetidamente.

Continua após a publicidade

Veja também:

Ouça o Podcast Canaltech: