- UEA testa sistema com IA para estimar concentração e nervosismo de alunos a partir de expressões faciais.
- Módulos ESP32-CAM capturam imagens e uma CNN treinada no FER2013 classifica cinco emoções em servidor central.
- Arquitetura de baixo custo pode apoiar análises de engajamento, mas levanta desafios de precisão e privacidade.
Pesquisadores do Programa de Pós-Graduação em Engenharia Elétrica da Universidade do Estado do Amazonas (UEA), em Manaus, desenvolveram um sistema que usa câmeras de baixo custo e inteligência artificial para monitorar, em tempo quase real, o estado emocional de estudantes em atividades acadêmicas, estimando níveis de concentração e nervosismo a partir de expressões faciais.
O trabalho foi apresentado na 3ª edição da International Electronic Conference on Machines and Applications (IECMA 2026), realizada entre 12 e 14 de maio de 2026. Assinam o estudo os pesquisadores Edward Junior, Daniel Guzmán, Miguel Postigo e Israel Torné.
Como funciona o monitoramento emocional de estudantes
O sistema usa câmeras ESP32-CAM instaladas em pontos estratégicos da sala de aula para capturar imagens dos rostos dos alunos durante as atividades. Antes de enviar os dados, cada dispositivo faz um pré-processamento leve, com redimensionamento das imagens e redução de ruído, o que diminui o volume de dados e facilita a transmissão sem fio.
As imagens são enviadas por Wi-Fi para um banco de dados centralizado, onde ficam armazenadas e indexadas por aluno, horário e atividade. Essa estrutura permite acompanhar a evolução do estado emocional ao longo do tempo e cruzar informações com diferentes turmas ou disciplinas.
A classificação das emoções é feita por uma Rede Neural Convolucional (CNN) treinada no conjunto de dados referência em reconhecimento de expressões faciais, o FER2013. O modelo identifica cinco estados básicos: felicidade, tristeza, raiva, neutralidade e surpresa.
A partir dessas categorias, o sistema calcula dois indicadores práticos para o contexto educacional: um índice de concentração, associado principalmente a expressões neutras e focadas, e um índice de nervosismo, relacionado a padrões faciais de tensão ou desconforto. Os pesquisadores não detalham na publicação os pesos exatos usados para cada emoção na composição desses índices.
Segundo os pesquisadores, a arquitetura separa de forma deliberada a etapa de aquisição de dados, realizada pelos dispositivos embarcados, da etapa de processamento por IA, concentrada em um servidor. Essa divisão permite atualizar ou substituir o modelo de inteligência artificial sem necessidade de trocar o hardware instalado nas salas, o que aumenta a escalabilidade e reduz custos de manutenção.
Resultados iniciais e possibilidades de uso
Nos testes em ambientes semelhantes a salas de aula, o sistema manteve captura estável de imagens e transmissão Wi-Fi considerada confiável pelos autores. O banco de dados centralizado conseguiu registrar o histórico emocional dos alunos ao longo de diferentes sessões, abrindo espaço para análises agregadas, como padrões de atenção em determinados horários ou tipos de atividade.
Os pesquisadores destacam que a arquitetura modular facilita a inclusão de melhorias futuras. Entre as possibilidades citadas estão a adoção de modelos de aprendizado profundo mais avançados, a criação de sistemas de feedback em tempo real para professores e a integração de dados multimodais, como sinais de áudio (tom de voz) e indicadores fisiológicos.
Na prática, isso poderia resultar em painéis que sinalizam, durante a aula, quedas de engajamento em uma turma específica ou aumentos de nervosismo em momentos de avaliação, por exemplo. O estudo, porém, não descreve aplicações pedagógicas concretas nem protocolos de uso em escolas.
Hardware de baixo custo como estratégia
Um dos diferenciais do projeto é o uso do ESP32-CAM, microcontrolador com câmera integrada, Wi-Fi e Bluetooth amplamente disponível no mercado brasileiro. Segundo os autores, o módulo pode ser encontrado por valores em torno de R$ 50, o que torna a solução mais compatível com a realidade de escolas públicas com orçamento limitado.
Essa escolha de hardware reduz a barreira de entrada para testes em maior escala e permite que uma mesma infraestrutura sirva a diferentes modelos de IA ao longo do tempo. Em cenários de redes estaduais ou municipais, a possibilidade de reaproveitar os dispositivos em novos projetos é um fator relevante de sustentabilidade financeira.
Por que medir emoções em contextos educacionais
Modelos tradicionais de acompanhamento do desempenho escolar dependem de provas, questionários de autoavaliação e observações de professores. Essas abordagens costumam ser pontuais e, em muitos casos, subjetivas. Sistemas automatizados de análise de expressões faciais buscam oferecer dados contínuos sobre engajamento e bem-estar emocional sem interromper a aula.
Na literatura de learning analytics, indicadores emocionais são estudados como possíveis sinais de atenção, sobrecarga cognitiva ou desmotivação. Em tese, um professor poderia ajustar o ritmo da explicação, o tipo de atividade ou a forma de avaliação ao perceber padrões recorrentes de queda de concentração ou aumento de nervosismo em determinada turma.
Ao mesmo tempo, o campo enfrenta desafios técnicos e éticos relevantes. Expressões faciais variam entre indivíduos e culturas, o que pode afetar a precisão dos modelos. Condições reais de sala de aula, como iluminação irregular, movimentação constante e uso de máscaras, também impactam o desempenho dos algoritmos.
Há ainda o debate sobre privacidade e proteção de dados de crianças e adolescentes em ambientes escolares. Questões como consentimento informado, tempo de retenção das imagens, anonimização e finalidade do uso dos dados são centrais em discussões regulatórias no Brasil e em outros países. O estudo apresentado na IECMA 2026 não detalha como esses aspectos foram tratados na fase experimental.
Limitações do conjunto de dados usado na IA
O modelo de reconhecimento de expressões faciais foi treinado com o FER2013, base pública criada em 2013 e amplamente utilizada em pesquisas acadêmicas. O conjunto contém cerca de 35 mil imagens faciais rotuladas por emoção, capturadas em tons de cinza e com baixa resolução.
Apesar de ser uma referência, o FER2013 tem limitações conhecidas de diversidade e qualidade das imagens, o que pode reduzir a capacidade do modelo de generalizar para contextos específicos, como salas de aula brasileiras com grande variedade de tons de pele, idades e estilos culturais. Para uso em larga escala, especialistas costumam recomendar validações adicionais com dados locais e auditorias de viés algorítmico.
Esses fatores indicam que, embora a arquitetura proposta pela UEA seja promissora do ponto de vista técnico e de custo, sua adoção em redes de ensino exigiria etapas adicionais de avaliação, incluindo testes de acurácia em campo, análise de impacto pedagógico e conformidade com legislações de proteção de dados.
Trabalho Apresentado
*Trabalho traduzido pelo Google Tradutor
Glossário
- ESP32-CAM: Módulo microcontrolador com câmera integrada, Wi-Fi e Bluetooth, usado em projetos de Internet das Coisas e visão computacional de baixo custo.
- CNN (Rede Neural Convolucional): Tipo de modelo de aprendizado de máquina especializado em imagens, que identifica padrões visuais por meio de camadas de filtros matemáticos.
- FER2013: Base de dados pública com cerca de 35 mil imagens faciais rotuladas por emoção, usada para treinar e avaliar modelos de reconhecimento de expressões.
- Learning analytics: Campo que estuda o uso de dados e análises para entender e otimizar processos de aprendizagem e ambientes educacionais.
