Google Gemini 1.5 Pro agora interpreta arquivos de áudio

Por André Lourenti Magalhães | Editado por Douglas Ciriaco | 09 de Abril de 2024 às 11h59

Link copiado!

Tudo sobre Google

O Google anunciou que o modelo de IA Gemini 1.5 Pro, o mais recente da empresa, recebeu suporte para processar arquivos com áudio, como vídeos e mensagens de voz. A ferramenta ganhou uma prévia pública e pode ser testada por empresas com acesso ao Vertex AI, plataforma para criar tecnologias com IA generativa.

O Gemini 1.5 Pro é oferecido em dois tamanhos, compatíveis com 128K e 1 milhão de tokens, e é capaz de processar até uma hora de vídeo ou 11 horas de áudio durante um único fluxo, de acordo com dados da Gigante de Mountain View.

A empresa reforça que a tecnologia pode ser usada para análises multimodais entre textos, imagens, vídeos e áudios entre corporações, com capacidade para transcrever, analisar e pesquisar áudios de conferências de resultados e reuniões com investidores, por exemplo. O modelo foi lançado em fevereiro deste ano, mas ainda não tinha passado por testes públicos — a expectativa é de que supere o Gemini 1.0 Ultra em performance, até então a tecnologia mais potente do Google no segmento.

Continua após a publicidade

A variante 1.5 Pro também foi integrada ao Gemini Code Assist, assistente de código por IA voltado para empresas e organizações privadas. Em nota, a desenvolvedora comenta que a novidade aumenta a janela de contexto, ideal para projetos grandes, e “oferece sugestões de código ainda mais precisas, insights mais profundos e fluxos de trabalho simplificados”

Vale lembrar que a empresa divide o modelo de IA em três níveis: Nano (voltada para celulares, como os da linha Pixel), Pro (intermediário, usado no chatbot gratuito Gemini) e Ultra (exclusivo para assinantes do Gemini Advanced).

Novidades no Vertex AI

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

A Big Tech aproveitou o evento Google Cloud Next 24 para anunciar uma série de melhorias ao Vertex AI. Além do Gemini 1.5 Pro, a ferramenta se tornou compatível com outros modelos fundacionais, como o Claude 3, da Anthropic, e o CodeGemma, modelo mais leve do Google voltado para programação.

Por fim, a plataforma recebeu integração com o Imagen 2.0, usado para geração de imagens. A nova versão do LLM é capaz de gerar GIFs animados de até quatro segundos de duração, editar conteúdos já existentes e adicionar uma nova marca d’água digital para sinalizar que algo foi gerado por IA.