E se o PDF pudesse falar? Gemini Transforma Documentos em Podcasts

20/03/2025, 12:00

Samsung Galaxy A35 with gemini ai keyboard — © nextpit

Jade Bryan

Ler em outras línguas:

Deutsch / English / Français

Ultimamente, o Google tem se empenhado muito na expansão do Gemini. Após a introdução de novos modelos, a empresa agora está lançando dois novos recursos: Visão geral de áudio, que transforma documentos e PDFs em discussões no estilo podcast, e Canvas, um espaço de trabalho colaborativo para interações contínuas baseadas em IA.

O Audio Overview é alimentado pelo modelo NotebookLM do Google, um assistente de IA especializado com recursos mais avançados de análise de documentos e da Web do que o Gemini. Esse modelo também alimenta a recapitulação 2024 do Spotify.

A visão geral de áudio se expande para a pesquisa profunda

O Google apresentou a Visão geral de áudio pela primeira vez no ano passado com o Daily Recap, permitindo que os usuários gerassem resumos no estilo de podcast hospedados por IA a partir de fontes e artigos da Web. Agora, o recurso está se expandindo para dar suporte a documentos, incluindo PDFs e artigos de pesquisa, por meio do Deep Research, que foi recentemente integrado ao Gemini.

Os usuários podem acessar o Audio Overview do Deep Research diretamente no aplicativo Gemini para dispositivos móveis. Depois de gerar um estudo ou documento de pesquisa, tocar no arquivo e selecionar "Generate Audio Overview" no menu inicia o recurso. A mesma funcionalidade também está disponível no Deep Research na Web.

No momento, a geração de visões gerais de áudio a partir de documentos está limitada ao Deep Research no celular e na Web. Testamos o recurso no aplicativo Gemini, mas ele não funcionou totalmente, embora uma mensagem indicasse que a síntese de áudio estava sendo criada. É provável que o Google expanda o suporte em um futuro próximo. O recurso já está sendo implementado para os usuários do Gemini e do Gemini Advanced, mas no momento está disponível em inglês.

Gemini se torna colaborativo

O Canvas é um grande acréscimo ao Gemini, um espaço de trabalho colaborativo projetado para edição de documentos em tempo real, codificação interativa e visualizações com tecnologia de IA.

Para projetos baseados em texto, os usuários podem redigir e editar documentos enquanto aproveitam as ferramentas de ajuste fino do Gemini, que permitem ajustes de tom, encurtamento de frases e modificações de estilo. Além disso, o Gemini oferece sugestões de edições para melhorar a qualidade da redação. Os resultados do Canvas também podem ser compartilhados para colaboração via Google Docs.

Explicação do código CSS para uma interface de jogo da velha com opções de jogador contra computador. — O Gemini ganha o Canvas, que permite a codificação colaborativa e interativa. / © Google

O Google também está aprimorando os recursos de codificação do Gemini com o Canvas. O espaço de trabalho permite que os usuários gerem, visualizem e testem códigos diretamente, eliminando a necessidade de simuladores ou aplicativos de codificação separados. Os formatos compatíveis incluem aplicativos da Web, como HTML e React, scripts Python, jogos e outras simulações.

Além disso, o Canvas pode ser uma ferramenta valiosa para aprender a codificar, pois fornece insights e explicações em tempo real sobre sequências e trechos de código específicos.

O Canvas já está disponível no Gemini Web para usuários básicos e premium. Ele é compatível com todos os idiomas em que os aplicativos Gemini são oferecidos atualmente.

Embora as novas atualizações do Gemini o tornem uma IA mais flexível, elas também aumentam a complexidade da experiência geral, fazendo com que ela pareça menos simplificada em comparação com um único chatbot como o ChatGPT. No entanto, esses recursos trazem uma funcionalidade valiosa. Mas o que você acha? Gostaríamos muito de ouvir sua opinião sobre essas novas adições!

Fonte: Google