Google lança IA Gemini capaz de ensinar matemática e programar

Por Douglas Ciriaco | 06 de Dezembro de 2023 às 12h00

Link copiado!

Tudo sobre Google

Contrariando rumores sobre um adiamento para o ano que vem, o Google anunciou a chegada do seu novo modelo fundacional Gemini nesta quarta-feira (6). A nova tecnologia é multimodal, chega integrada ao Bard, consegue ensinar matemática e criar códigos de programação, será oferecida nativamente no Android e deve chegar à Busca em 2024.

A partir de hoje, quem acessa o Bard em inglês pode desfrutar de uma tecnologia mais robusta e capaz de realizar diferentes tipos de interação. CEO do Google, Sundar Pichai define o lançamento como “o nosso modelo mais capaz e geral até o momento, com desempenho de última geração em muitas avaliações de ponta”.

Gemini chegou

Continua após a publicidade

O Gemini é o novo modelo fundacional de inteligência artificial do Google. A tecnologia foi anunciada durante o I/O de 2023 e era bastante aguardada pelo mercado por seu potencial de acirrar a disputa entre Google e suas rivais no setor de IA — especialmente OpenAI (ChatGPT) e Microsoft (Bing e Copilot).

De forma resumida, modelo fundacional é a tecnologia que serve de base para uma inteligência artificial generativa funcionar a partir dos comandos (de texto ou não) executados por seus usuários. Esses modelos são treinados com uma vasta quantidade de conteúdo variado e são operados por redes neurais complexas. O Gemini foi treinado usando os modelos v4 e V5e dos chips TPU (Tensor Processing Units), do próprio Google, e a companhia também anunciou hoje a chegada dos novos TPU v5p.

Nano, Pro e Ultra

O novo modelo estará disponível em três tamanhos distintos “para que seja capaz de rodar em qualquer coisa, de data centers a dispositivos móveis”, explica o Google.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

São eles:

Nano: versão básica, com foco em eficiência e que funciona localmente em um celular ou tablet — vai dar as caras em aparelhos Android a começar pelo Pixel 8 Pro;
Pro: versão ampliada e padrão da tecnologia em serviços conectados à internet, como o Bard e futuramente Busca e Chrome;
Ultra: versão suprema, com um conjunto de parâmetros maior e mais eficiente “para tarefas altamente complexas”, segundo o Google — vai abastecer o serviço Bard Advance.

Multimodal por natureza

Continua após a publicidade

O novo modelo é uma IA multimodal, ou seja, tem suporte para interações por voz, vídeo, texto, imagem e códigos, e promete recursos avançados de resolução de problemas matemáticos. Esse suporte a várias modalidades foi pensado para ele desde o início, algo diferente do habitual no setor, que geralmente desenvolve capacidades de suporte a diferentes conteúdos de forma separada e “junta” tudo em uma coisa só depois.

“Isso ajuda o Gemini a compreender de forma direta e raciocinar sobre todos os tipos de informações desde o início de forma muito melhor do que os modelos multimodais existentes — e suas capacidades são de última geração em quase todos os domínios”, explica o CEO da divisão Google DeepMind Demis Hassabis.

O Google promete um modelo capaz de avaliar informações textuais e visuais complexas, com capacidade única de discernir coisas em meio a um grande volume de dados, algo útil para resumir documentos com precisão e encontrar dados em meio a páginas, sites e livros, por exemplo.

Continua após a publicidade

Essas habilidades de avaliação também permitem que o Gemini compreenda mais de uma modalidade ao mesmo tempo, como áudio, vídeo e texto combinados, outro avanço significativo e capaz de render frutos em diferentes áreas de estudo para além do uso como um passatempo.

Numa demonstração feita pela empresa (abaixo), uma pessoa desenha um pato num pedaço de papel e aquilo é entendido pela tecnologia. Durante a conversa, a IA traz informações extras para contexto de forma proativa, interage de diferentes maneiras conforme o papo evoluia e identifica a posição das mãos do demonstrador em um mapa mundi, para ficar em alguns exemplos. Tudo isso de maneira absolutamente natural, sem engasgos e produzindo respostas em texto e áudio numa cena que parecia retirada de um filme de ficção científica.

Em outra demo (abaixo), o youtuber Mark Rober pede ajuda do Bard para criar um avião de papel perfeito e o resultado impressiona. O chatbot oferece informações detalhadas sobre várias opções, indica testes que podem ser feitos para colocar a aerodinâmica de cada criação a prova e tudo mais. Com base nessas informações, o criador consegue aprimorar suas dobraduras, e a brincadeira serve como exemplo de como o novo modelo fundacional pode ajudar criar avanços em áreas como ciência e tecnologia.

Continua após a publicidade

Desempenho de ponta

Ainda conforme o Google, o Gemini Ultra obteve performance de última geração em 30 dos 32 benchmarks acadêmicos amplamente usados para pesquisa e desenvolvimento em grandes modelos de linguagem (LLM).

Como exemplo da capacidade da versão mais potente, a companhia revela que ela obteve uma pontuação de 90% no teste MMLU (compreensão de linguagem e multitarefa massiva, em tradução livre), que reúne questões de 57 diferentes áreas para medir conhecimento e capacidade de solução de problemas de um indivíduo.

Continua após a publicidade

Tal desempenho faz do modelo do Google o primeiro a superar o desempenho de seres humanos especializados no MMLU.

Programação

Como não poderia deixar de ser, o Gemini chega com capacidades avançadas de criação de códigos de programação. A tecnologia é capaz de gerar conteúdo em algumas das linguagens mais populares do momento, como Java, Python e C++, e o Google promete aqui a mesma habilidade de lidar com grandes volumes de informação complexa e multimodal (como transformar imagens em códigos).

Ainda não disponível, o modelo Ultra alcançou desempenho de excelência em vários testes de padrão da indústria, como o HumanEval, revela o Google.

Continua após a publicidade

Para completar o pacote de código, a Gigante da Web apresentou hoje o AlphaCode 2, sua nova IA dedicada a criar códigos de programação que agora também utiliza a tecnologia do Gemini. A nova versão do AlphaCode consegue desempenho superior em até 50% em relação à sua antecessora e, na comparação com humanos, a estimativa é de uma atuação até 85% mais eficaz na realização de certas tarefas.

Segurança

Segundo a empresa, “o Gemini tem as avaliações de segurança mais abrangentes de qualquer modelo de IA do Google até o momento, inclusive em relação a viés e toxicidade”. A companhia garante ter realizado pesquisas intensas, com auxílio de grupos externos, a fim de identificar e mitigar potenciais problemas de segurança durante a criação do novo modelo.

Continua após a publicidade

Em breve

A Gigante de Mountain View revela que realiza verificações de segurança e confiabilidade no Gemini Ultra e, portanto, a versão mais poderosa de seu novo modelo chega em breve. Até lá, ela segue em avaliação junto a especialistas de segurança, desenvolvedores e clientes selecionados.

A previsão é de que, no início do ano que vem, o Ultra esteja disponível para o público por meio do “Bard Advanced”, possivelmente o “ChatGPT Plus do Google”.

Gemini no Bard

Continua após a publicidade

O Gemini não é um substituto para o Bard, mas um motor que impulsiona as capacidades do chatbot do Google. A partir de hoje, o Bard conta com uma versão do Gemini Pro refinada para “compreensão, planejamento e raciocínio mais avançados”, revela a empresa.

Por enquanto, a novidade só está disponível em inglês, mas acessível em 170 países (incluindo o Brasil) — saiba como usar o Gemini no Bard.

Melhor que ChatGPT?

O Google não coloca as coisas nesses termos, mas podemos classificar o Gemini Ultra como um rival para o GPT-4 (oferecido pela OpenAI no ChatGPT Plus), enquanto o Pro (disponível no Bard) seria adversário do GPT-3.5 (do ChatGPT gratuito).

Continua após a publicidade

A própria Gigante da Web apresenta um estudo em que a versão Pro se mostrou superior ao GPT-3.5 em seis de oito avaliações de benchmark realizadas durante a fase de testes da plataforma.

“Para além disso, nós ajustamos o Gemini Pro no Bard de maneira específica para ser muito mais capaz em coisas como compreensão, resumo, raciocínio, criação de códigos e planejamento”, explica a vice-presidente e diretora de produto do Bard e da Assistente Sissie Hsiao.

Apesar de ser anunciada como uma tecnologia multimodal, inicialmente o Gemini no Bard é compatível apenas para comandos de texto. O Google não cita uma data, mas garante que o suporte a outras modalidades chega “em breve”. Talvez por questões legais, o novo recurso não é disponibilizado na Europa no momento do lançamento.

Continua após a publicidade

Android e outros produtos Google

Além de chegar ao Bard, o novo modelo fundacional do Google também dará as caras no Android — inicialmente no Pixel 8 Pro, mas com previsão de se espalhar por todo o ecossistema do robozinho.

“O Pixel 8 Pro é o primeiro smartphone projetado para rodar o Gemini Nano, que dá vida a novos recursos como Resumir no app Gravação e a Resposta Inteligente no GBoard, a começar pelo WhatsApp — mais apps de mensagens chegam no ano que vem”, registra Hassabis.

No Pixel 8 Pro, o Gemini será capaz de resumir o conteúdo de registros de voz feita no app padrão de gravação. Além disso, há um sistema de respostas inteligentes no Gboard (ainda na versão prévia para desenvolvedores) que sugere respostas completas no WhatsApp com base no contexto da conversa.

Inicialmente, as duas funções são compatíveis apenas com o idioma inglês e as respostas inteligentes por enquanto ficam restritas ao território dos EUA.

Na coletiva de anúncio da novidade, o vice-presidente de produto e pesquisa do Google Eli Collins confirmou que a ideia é expandir a IA para todo o ecossistema Android.

“Estamos levando o Gemini Nano ao Android AICore, começando pelo Pixel, mas com planos de expandir também para outros dispositivos Android”, explicou o executivo.

Desenvolvedores já podem entrar em numa lista de espera para acesso antecipado à API do Gemini Nano por meio do novo sistema de desenvolvimento Android AICore — disponível em docs.google.com/forms. A partir de 13 de dezembro, devs e clientes comerciais poderão se cadastrar para acesso antecipado a soluções envolvendo o Gemini Pro por meio do Google AI Studio ou do Google Cloud Vertex AI.

Em último caso, todo o ecossistema Google será pincelado pela IA em algum momento. “Nos próximos meses, o Gemini estará disponível em mais de nossos produtos e serviços como Busca, Ads, Chrome e Duet AI”, garantiu Demis Hassabis.

A expansão para outros produtos Google e outros celulares Android, porém, não tem data prevista para acontecer.