Alexa, Google e Siri escutam as nossas conversas? Entenda
Um vídeo viral nas redes sociais mostra como o alto-falante da Amazon grava alguns trechos de voz nos quais não se mencionava a palavra de ativação “Alexa”
VIA O GLOBO – Alexa, Google e Siri escutam as nossas conversas? “Alexa, coloque o alarme para as oito”, “Alexa, reproduza o filme Oppenheimer” ou “Alexa, diga-me qual será o tempo na Semana Santa”. Todas essas interações com o alto-falante inteligente são gravadas e estão disponíveis para qualquer usuário que as solicite à Amazon. Foi isso que a criminóloga María Aperador fez. Sua surpresa foi descobrir que alguns áudios não eram precedidos pela palavra de ativação “Alexa”, conforme ela denunciou em um vídeo no TikTok e no Instagram alguns dias atrás, que se tornou viral. Mas como isso é possível?
A política da Amazon é clara a esse respeito: os áudios não são armazenados nem enviados para a nuvem, a menos que o dispositivo detecte a palavra de ativação. Isso é confirmado pela empresa. Eles acrescentam que o usuário saberá quando a Alexa envia sua solicitação para a nuvem por meio de um indicador luminoso azul ou um som do alto-falante.
Tendo isso em mente, David Arroyo, pesquisador do Conselho Superior de Investigações Científicas da Espanha (CSIC) especializado em cibersegurança e dados, oferece uma alternativa:
— O sistema que eles têm só é ativado quando alguém pronuncia a palavra de ativação. Mas, por vários motivos, pode haver falsos positivos. Então, o que precisamos ver é até que ponto ele é robusto em relação a elementos que possam estar perturbando a interpretação dessa palavra de ativação.
São incorporados diversos elementos para melhorar o funcionamento de sistemas de aprendizado de máquina para interpretação de voz, como os usados pela Alexa ou pelos alto-falantes do Google e da Apple. Mas, mesmo assim, não é uma tarefa fácil.
— Esses sistemas são projetados para identificar todos os elementos de variabilidade de pronúncia — aponta Arroyo, em referência aos diferentes sotaques e formas de falar, mas também às mudanças na ressonância ou reverberação do ambiente em que o dispositivo está localizado. — Seria necessário saber em detalhes qual é a taxa de precisão e de falsos positivos específicos do algoritmo que a Amazon utiliza.
O jornal El País conversou com María Aperador para saber um pouco mais sobre as gravações, que duram cerca de 6 segundos. São trechos de conversas casuais, dela ou de pessoas que estavam em sua casa. A criminóloga não revisou os mais de 500 arquivos de áudio que a Amazon enviou, mas em cerca de 50 que ouviu, encontrou dois nos quais não havia a palavra de ativação.
Um estudo realizado na Alemanha por pesquisadores da Universidade Ruhr de Bochum e do Instituto Max Planck para Segurança e Privacidade destaca a importância das ativações acidentais nos alto-falantes inteligentes. Após analisar 11 dispositivos de oito fabricantes diferentes, eles divulgaram informações sobre mais de 1.000 ativações involuntárias.
— Estamos falando de sistemas de reconhecimento de voz, que, dependendo de como são implementados, podem funcionar melhor ou pior — aponta Josep Albors, diretor de Pesquisa e Conscientização na empresa de cibersegurança Ese Espanha.
Alexa, Google e Siri: Como os alto-falantes detectam a palavra de ativação
Para se ativarem quando ouvem a palavra “Alexa” ou as frases “Ok, Google” e “Hey, Siri”, os alto-falantes inteligentes contam com um sistema em constante busca por esse termo.
— No final das contas, são dispositivos que estão constantemente ouvindo. Mas isso também é feito por smartphones ou muitos intercomunicadores automáticos. Não é exclusivo da Alexa — diz Albors.
Arroyo também faz essa observação:
— Quando você coloca o alto-falante em espera ativa, isso significa que ele está absorvendo tudo o que você fala o tempo todo. Ele não grava. Mas o algoritmo está processando, pois precisa identificar quais palavras estão sendo pronunciadas.
Trata-se de um algoritmo que funciona localmente, no próprio dispositivo, procurando os padrões acústicos correspondentes à palavra de ativação. Fontes da Amazon apontam que sua tecnologia se baseia apenas nas informações provenientes das ondas sonoras para detectar o termo. Além disso, destacam que o alto-falante também pode ser ativado com um botão, o que evitaria a monitorização do som. No caso das gravações, que ocorrem quando o dispositivo é ativado, os usuários podem optar por não armazená-las em suas opções de privacidade.
Qual é o problema desse rastreamento permanente da palavra de ativação? Os dois especialistas em cibersegurança concordam que, se o som fosse processado para extrair dados além da busca pela palavra-chave, os problemas de privacidade seriam muito graves. Mas também concordam que não há evidências de que isso esteja acontecendo.
— Há muitos interesses para que isso não aconteça, pois isso significaria a perda de confiança em todos os dispositivos e um prejuízo econômico muito considerável para essas empresas — indica Albors.