Google Gemini 1.5 Pro agora interpreta arquivos de áudio

O Google anunciou que o modelo de IA Gemini 1.5 Pro, o mais recente da empresa, recebeu suporte para processar arquivos com áudio, como vídeos e mensagens de voz. A ferramenta ganhou uma prévia pública e pode ser testada por empresas com acesso ao Vertex AI, plataforma para criar tecnologias com IA generativa. 

  • Gemini | Android Studio agora tem IA para criar códigos
  • Google e OpenAI treinam IAs com vídeos do YouTube, diz jornal

O Gemini 1.5 Pro é oferecido em dois tamanhos, compatíveis com 128K e 1 milhão de tokens, e é capaz de processar até uma hora de vídeo ou 11 horas de áudio durante um único fluxo, de acordo com dados da Gigante de Mountain View.

A empresa reforça que a tecnologia pode ser usada para análises multimodais entre textos, imagens, vídeos e áudios entre corporações, com capacidade para transcrever, analisar e pesquisar áudios de conferências de resultados e reuniões com investidores, por exemplo. O modelo foi lançado em fevereiro deste ano, mas ainda não tinha passado por testes públicos — a expectativa é de que supere o Gemini 1.0 Ultra em performance, até então a tecnologia mais potente do Google no segmento.


CT no Flipboard: você já pode assinar gratuitamente as revistas Canaltech no Flipboard do iOS e Android e acompanhar todas as notícias em seu agregador de notícias favorito.

Modelo mais recente do Gemini ganhou suporte para processar arquivos de áudio (Imagem: Reprodução/Google)

A variante 1.5 Pro também foi integrada ao Gemini Code Assist, assistente de código por IA voltado para empresas e organizações privadas. Em nota, a desenvolvedora comenta que a novidade aumenta a janela de contexto, ideal para projetos grandes, e “oferece sugestões de código ainda mais precisas, insights mais profundos e fluxos de trabalho simplificados”

Vale lembrar que a empresa divide o modelo de IA em três níveis: Nano (voltada para celulares, como os da linha Pixel), Pro (intermediário, usado no chatbot gratuito Gemini) e Ultra (exclusivo para assinantes do Gemini Advanced). 

Novidades no Vertex AI

A Big Tech aproveitou o evento Google Cloud Next 24 para anunciar uma série de melhorias ao Vertex AI. Além do Gemini 1.5 Pro, a ferramenta se tornou compatível com outros modelos fundacionais, como o Claude 3, da Anthropic, e o CodeGemma, modelo mais leve do Google voltado para programação.

Por fim, a plataforma recebeu integração com o Imagen 2.0, usado para geração de imagens. A nova versão do LLM é capaz de gerar GIFs animados de até quatro segundos de duração, editar conteúdos já existentes e adicionar uma nova marca d’água digital para sinalizar que algo foi gerado por IA. 

Leia a matéria no Canaltech.

Trending no Canaltech:

  • Twitter pode ser bloqueado? Veja o que dizem os especialistas
  • Silvio | Primeiro trailer mostra mais de Rodrigo Faro como Silvio Santos
  • Windows 11 24H2 não vai atualizar com estes apps instalados no PC
  • As 10 séries mais assistidas da semana (07/04/2024)
  • MaXXXine | Novo filme de Mia Goth é baseado em uma história real?
  • Star Wars Outlaws chega em agosto
Adicionar aos favoritos o Link permanente.