A Alexa entrou no mundo da inteligência artificial (IA) generativa e agora “fala como um humano”. A novidade foi compartilhada nesta quarta-feira (20) durante o evento global de dispositivos da Amazon.
Dave Limp, vice-presidente sênior de dispositivos e serviços da Amazon, explica que a “IA generativa está focada em criadores, não em consumidores”, por isso a atualização chega com grandes expectativas. A proposta é simples: você inicia uma conversa com a Alexa e ela responde mais rapidamente, e de forma mais natural. O modelo de linguagem da Amazon é baseado em Speech-to-Speech (fala-para-fala, em tradução livre). Com ele, a Alexa também deve aprender diretamente com as conversas e interações de usuários individuais.
Esse novo grande modelo de linguagem (LLM), que traz uma função chamada “Alexa, let’s chat”, unifica as interações de texto para fala, que depois faz a “tradução” para o áudio com as respostas, explica Rohit Prasad, vice-presidente e head de ciência na Amazon Artificial General Intelligence.
Com a atualização, a Alexa também deve soar mais como humanos a partir de suas interações. Por exemplo, a assistente poderá dar gargalhadas, se mostrar surpresa e até incluir pausas com “hum…” durante uma conversa. Um recurso demonstrado pela companhia é justamente a capacidade da “nova Alexa” de continuar conversas de maneira mais prática. Será possível iniciar uma conversa e até parar de falar por algum tempo até voltar ao mesmo tópico. Também será possível interromper uma resposta para adicionar mais contexto ou pedir algo adicional durante uma interação.
A proposta inclui fazer com que o usuário não repita a palavra de ativação “Alexa” o tempo todo, sempre que quiser falar com a assistente. Para isso, existe um novo recurso atrelado ao Visual ID que permite iniciar uma conversa apenas chegando perto da tela, já que ela pode reconhecer rostos. A função é compatível apenas com modelos que possuem tela e câmera.
Alexa mais pessoal
A Alexa baseada no novo modelo de linguagem será disponibilizada para todos os modelos do Echo, incluindo o primeiro, lançado em 2014. No entanto, inicialmente, estará disponível apenas para usuários nos Estados Unidos. Prasad explica que a interação deve ser mais facilitada nos novos modelos, tendo em vista que o processamento de dados é feito nos próprios dispositivos.
No entanto, ela também é baseada em nuvem, por isso pode ser utilizada em versões anteriores. “Nosso novo modelo [de linguagem] foi otimizado especificamente para voz e para coisas que sabemos que nossos consumidores adoram — como ter acesso a informações em tempo real, controlar de maneira eficiente a sua casa inteligente e receber o melhor do seu entretenimento em casa”, diz Limp.
Sobre o anúncio, Limp ressalta que a companhia construiu a “nova Alexa” com cinco fundamentos em mente:
Conversação: com base em palavras, linguagem corporal, contato visual, gestos e afins;
Aplicações para o mundo real: aproximando os LLMs dos usuários “no mundo real, não na aba do seu navegador [de internet]”;
Personalização: para que as conversas sejam específicas para diferentes usuários, como em famílias;
Personalidade: a empresa promete que a Alexa baseada no novo LLM “terá opiniões”;
Confiabilidade: para proteger a privacidade dos usuários e famílias, e entregar informações de qualidade.
A Alexa também poderá ser explorada por desenvolvedores, que conseguirão utilizar e integrar suas APIs com o LLM. A experiência de adaptação, segundo a companhia, não requer código e deverá ser “simples e rápida”. Essa novidade estará disponível a partir do próximo ano.
Tecmundo