Google lança Gemini Live: IA Avançada para conversas em voz com recursos inovadores

DA REDAÇÃO

Nesta terça-feira, 13 de agosto de 2024, a Google deu um novo passo na evolução das interações com inteligência artificial ao lançar o Gemini Live, uma ferramenta avançada de conversas em voz, que promete transformar a maneira como os usuários interagem com assistentes virtuais. A novidade foi revelada durante o evento “Made by Google 2024” e já está sendo comparada ao recurso Advanced Voice Mode, recentemente lançado pela OpenAI.

O Gemini Live oferece uma experiência aprimorada de conversas em voz, permitindo diálogos mais naturais, consistentes e expressivos. Desenvolvido com base nos modelos de IA generativa Gemini 1.5 Pro e Gemini 1.5 Flash, o novo recurso promete diálogos multi-turnos mais realistas, além de permitir que os usuários interrompam o chatbot durante a fala para adicionar perguntas complementares ou mudar a direção da conversa.

Interações em Tempo Real

Uma das características mais notáveis do Gemini Live é a capacidade de ser completamente “viva-voz”, dando aos usuários a liberdade de continuar a conversa mesmo com o aplicativo em segundo plano ou com o celular bloqueado. As conversas podem ser pausadas e retomadas a qualquer momento, proporcionando uma experiência contínua e sem interrupções.

O motor de fala aprimorado do Gemini Live ajusta os padrões de fala em tempo real, adaptando-se ao estilo e necessidades do usuário. Essa funcionalidade é especialmente útil em situações como treinamentos para entrevistas de emprego, onde o Gemini Live pode sugerir habilidades a serem destacadas e oferecer dicas de fala para melhorar a performance do usuário.

Memória Avançada e Expansão de Recursos

Um dos diferenciais do Gemini Live em comparação com outras ferramentas semelhantes é sua capacidade de memória superior. A Google equipou o Gemini Live com uma janela de contexto maior que a média, permitindo que a IA processe e raciocine sobre uma quantidade significativa de dados, potencialmente analisando horas de conversas antes de formular uma resposta. Isso dá ao Gemini Live uma vantagem na personalização das interações e na entrega de respostas mais contextualizadas.

Embora o lançamento do Gemini Live traga muitas inovações, nem todos os recursos prometidos durante a conferência Google I/O 2024 estão disponíveis de imediato. A entrada multimodal, que permitirá ao Gemini Live responder a fotos ou vídeos capturados pelas câmeras dos smartphones, ainda não foi liberada e deve ser disponibilizada “mais tarde neste ano”, segundo a Google.

Disponibilidade e Expansão

Por enquanto, o Gemini Live está disponível apenas em inglês e exclusivo para assinantes do plano Google One AI Premium, que custa US$ 20 por mês. A Google já anunciou planos de expandir o suporte para outros idiomas e para dispositivos iOS, ampliando o alcance do recurso.

Além disso, outros recursos gratuitos relacionados ao Gemini estão em desenvolvimento. Nas próximas semanas, usuários de Android poderão sobrepor o Gemini a qualquer aplicativo, permitindo que ele responda a perguntas sobre o conteúdo exibido na tela. Outra funcionalidade esperada é a capacidade do Gemini de gerar imagens que poderão ser arrastadas para outros aplicativos, como o Gmail, facilitando a integração da IA com diversas plataformas.