E se o PDF pudesse falar? Gemini Transforma Documentos em Podcasts


Ultimamente, o Google tem se empenhado muito na expansão do Gemini. Após a introdução de novos modelos, a empresa agora está lançando dois novos recursos: Visão geral de áudio, que transforma documentos e PDFs em discussões no estilo podcast, e Canvas, um espaço de trabalho colaborativo para interações contínuas baseadas em IA.
O Audio Overview é alimentado pelo modelo NotebookLM do Google, um assistente de IA especializado com recursos mais avançados de análise de documentos e da Web do que o Gemini. Esse modelo também alimenta a recapitulação 2024 do Spotify.
A visão geral de áudio se expande para a pesquisa profunda
O Google apresentou a Visão geral de áudio pela primeira vez no ano passado com o Daily Recap, permitindo que os usuários gerassem resumos no estilo de podcast hospedados por IA a partir de fontes e artigos da Web. Agora, o recurso está se expandindo para dar suporte a documentos, incluindo PDFs e artigos de pesquisa, por meio do Deep Research, que foi recentemente integrado ao Gemini.
Os usuários podem acessar o Audio Overview do Deep Research diretamente no aplicativo Gemini para dispositivos móveis. Depois de gerar um estudo ou documento de pesquisa, tocar no arquivo e selecionar "Generate Audio Overview" no menu inicia o recurso. A mesma funcionalidade também está disponível no Deep Research na Web.
No momento, a geração de visões gerais de áudio a partir de documentos está limitada ao Deep Research no celular e na Web. Testamos o recurso no aplicativo Gemini, mas ele não funcionou totalmente, embora uma mensagem indicasse que a síntese de áudio estava sendo criada. É provável que o Google expanda o suporte em um futuro próximo. O recurso já está sendo implementado para os usuários do Gemini e do Gemini Advanced, mas no momento está disponível em inglês.
Gemini se torna colaborativo
O Canvas é um grande acréscimo ao Gemini, um espaço de trabalho colaborativo projetado para edição de documentos em tempo real, codificação interativa e visualizações com tecnologia de IA.
Para projetos baseados em texto, os usuários podem redigir e editar documentos enquanto aproveitam as ferramentas de ajuste fino do Gemini, que permitem ajustes de tom, encurtamento de frases e modificações de estilo. Além disso, o Gemini oferece sugestões de edições para melhorar a qualidade da redação. Os resultados do Canvas também podem ser compartilhados para colaboração via Google Docs.

O Google também está aprimorando os recursos de codificação do Gemini com o Canvas. O espaço de trabalho permite que os usuários gerem, visualizem e testem códigos diretamente, eliminando a necessidade de simuladores ou aplicativos de codificação separados. Os formatos compatíveis incluem aplicativos da Web, como HTML e React, scripts Python, jogos e outras simulações.
Além disso, o Canvas pode ser uma ferramenta valiosa para aprender a codificar, pois fornece insights e explicações em tempo real sobre sequências e trechos de código específicos.
O Canvas já está disponível no Gemini Web para usuários básicos e premium. Ele é compatível com todos os idiomas em que os aplicativos Gemini são oferecidos atualmente.
Embora as novas atualizações do Gemini o tornem uma IA mais flexível, elas também aumentam a complexidade da experiência geral, fazendo com que ela pareça menos simplificada em comparação com um único chatbot como o ChatGPT. No entanto, esses recursos trazem uma funcionalidade valiosa. Mas o que você acha? Gostaríamos muito de ouvir sua opinião sobre essas novas adições!
Fonte: Google
Quero mesmo é um sistema funcional de geração e tradução de legendas no YouTube.