Alcance a interação em tempo real: crie com a API Live

23 DE ABRIL DE 2025
Ivan Solovyev Product Manager
Shrestha Basu Mallick Group Product Manager Gemini API

Com a API Live, os desenvolvedores têm as ferramentas essenciais para criar aplicativos e agentes inteligentes capazes de processar streaming de áudio, vídeo e texto com latência incrivelmente baixa. Essa velocidade é fundamental para criar experiências verdadeiramente interativas, abrindo portas para soluções de suporte ao cliente, plataformas educacionais e serviços de monitoramento em tempo real.

Link to Youtube Video (visible only when JS is disabled)

Recentemente, anunciamos o lançamento da prévia da API Live para modelos Gemini, um passo importante para que os desenvolvedores possam criar aplicativos robustos e escalonáveis em tempo real. Experimente os recursos mais recentes agora mesmo usando a API Gemini no Google AI Studio e na Vertex AI.


Novidades da API Live

Desde nosso lançamento experimental em dezembro, ouvimos atentamente o feedback de vocês e incorporamos novos recursos para tornar a API Live pronta para produção. Veja todos os detalhes na documentação da API Live:

Melhoria do gerenciamento e da confiabilidade de sessões

  • Sessões mais longas por meio da compactação de contexto: habilite interações estendidas além dos limites de tempo anteriores. Configure a compactação da janela de contexto com um mecanismo de janela deslizante para gerenciar automaticamente o comprimento do contexto, evitando encerramentos abruptos devido a limites de contexto.

  • Retomada de sessões: mantenha as sessões ativas em caso de interrupções temporárias da rede. A API Live agora oferece suporte ao armazenamento do estado da sessão do lado do servidor (por até 24 horas) e fornece handles (session_resumption) para reconectar e retomar de onde você parou.

  • Notificação de desconexão gradual: receba uma mensagem GoAway do servidor indicando quando uma conexão está prestes a ser encerrada, para permitir um tratamento gradual antes do encerramento.

  • Cobertura de voltas configurável: escolha se a API Live processa todas as entradas de áudio e vídeo continuamente ou apenas as captura quando a fala do usuário final é detectada.

  • Resolução de mídia configurável: otimize para qualidade ou utilização de tokens selecionando a resolução para a mídia de entrada.


Mais controle sobre a dinâmica de interação

  • Detecção de atividade de voz (VAD, na sigla em inglês) configurável: escolha níveis de sensibilidade ou desative totalmente a VAD automática e use novos eventos de cliente (activityStart, activityEnd) para o controle manual de voltas.

  • Tratamento de interrupções configurável: decida se a entrada do usuário deve interromper a resposta do modelo.

  • Configurações de sessão flexíveis: modifique as instruções do sistema e outras opções de configuração a qualquer momento durante a sessão.


Saída e recursos mais completos

  • Opções expandidas de voz e idioma: escolha entre duas novas vozes e 30 novos idiomas para a saída de áudio. O idioma de saída agora é configurável em speechConfig.

  • Streaming de texto: receba as respostas de texto de maneira incremental à medida que são geradas, permitindo uma exibição mais rápida para o usuário.

  • Relatórios de utilização de tokens: obtenha insights sobre a utilização com contagens detalhadas de tokens fornecidas no campo usageMetadata de mensagens do servidor, separadas por modalidade e fases de prompt/resposta.


Veja a API Live em ação: aplicativos do mundo real

Para inspirar seu próximo projeto, apresentamos os desenvolvedores que já estão aproveitando o poder da API Live em aplicativos:


Daily.co

A Daily integra o suporte da API Live aos SDKs de código aberto do Pipecat para Web, Android, iOS e C++.

Ao usar o poder da API Live, o Pipecat da Daily criou um jogo de adivinhação de palavras baseado em voz, o Word Wrangler. Teste suas habilidades de descrição nessa versão habilitada por IA dos jogos de palavras clássicos e veja como você mesmo pode criar o seu!

Live API - Word Wrangler

LiveKit

O LiveKit integra o suporte da API Live aos agentes do LiveKit. Esse framework para a criação de agentes de IA de voz fornece uma plataforma totalmente de código aberto para a criação de aplicativos agênticos do lado do servidor.

Até a API Live, nenhum outro LLM oferecia uma interface para desenvolvedores que pudesse ingerir streaming de vídeo diretamente.”
Russell d'Sa, CEO

Confira a demonstração para ver como eles criaram um copiloto de IA capaz de navegar pela Internet junto com você enquanto compartilha ideias sobre o que ele pode ver em tempo real.


Bubba.ai

O Hey Bubba é um aplicativo de IA agêntica que prioriza a voz, desenvolvido especificamente para motoristas de caminhão. Por meio da API Live, ele permite uma comunicação por voz perfeita e multilíngue, permitindo que os motoristas o operem sem o uso das mãos. As principais funcionalidades incluem:

  • Pesquisa de cargas de frete e fornecimento de detalhes.

  • Realização de chamadas para intermediários/transportadoras.

  • Negociação de taxas de frete com base em dados de mercado.

  • Reserva de cargas e verificação de confirmações de taxas.

  • Localização e reserva de estacionamento para caminhões, inclusive chamadas para hotéis para confirmação de disponibilidade.

  • Agendamento de datas com remetentes e destinatários.

A API Live habilita a interação dos motoristas (utilizando chamadas de função e o armazenamento de contexto em cache para consultas como coletas futuras) e a capacidade de interação do Bubba durante chamadas telefônicas para negociações e agendamentos. Isso faz do Hey Bubba uma ferramenta de IA abrangente para o maior e mais diversificado setor de mão de obra dos EUA.

Link to Youtube Video (visible only when JS is disabled)

Comece a desenvolver hoje

A API Live está pronta para habilitar seu próximo aplicativo de voz em tempo real. Para começar:

Agora é só partir para a diversão e começar a programar!

OSZAR »