Abdallah Shami, professor de Engenharia Elétrica e da Computação, junto com sua equipe no laboratório de Computação e Comunicações Otimizadas (OC2) na Western Engineering, usa um banco de dados de 450 milhões de pontos de dados para pesquisar padrões e anomalias que poderiam bloquear os serviços de telecomunicações e comprometer os servidores intermediários. Crédito:Debora Van Brenk
Digamos que um grupo de pessoas em uma pequena cidade na Colúmbia Britânica esteja tentando transmitir o último filme de Star Wars.
Como os algoritmos em Toronto reconhecem o alto volume de solicitações, os provedores de telecomunicações armazenam em cache automaticamente uma cópia do filme em um servidor de rede intermediário na Costa Oeste. Todos estão felizes - os habitantes da cidade de BC podem assistir a um filme sem transmitir 'lag' e o provedor, embora tenha custado alguma despesa, sabe que respondeu agilmente à demanda do cliente.
Passe a pipoca e coloque os sabres de luz.
Mas e se essa demanda não fosse o que parecia? E se o provedor de telecomunicações pudesse determinar que 400 das 500 residências da cidade buscavam o mesmo filme, tudo às 3 da manhã de uma terça-feira? O provedor provavelmente pensaria que algo estava errado na galáxia distante, distante.
Eles provavelmente se perguntariam se alguém estava tentando hackear o sistema. E eles certamente reconsiderariam investir largura de banda de rede e serviços de hardware e software naquele filme naquela pequena cidade nas primeiras horas de uma terça-feira.
Esse é o tipo de detalhe que o professor de Engenharia Elétrica e da Computação da Western, Abdallah Shami, busca descobrir e quantificar enquanto sua equipe procura padrões e anomalias que podem bloquear serviços de telecomunicações e comprometer os servidores intermediários - conhecidos como redes de entrega de conteúdo ou CDNs, como diminutivo.
Seu objetivo final é proteger essas redes, entregar melhores serviços aos clientes e ajudar os provedores a dedicar recursos onde as necessidades reais são maiores.
Para conseguir isso, Shami está usando um banco de dados de 450 milhões de pontos de dados de julho de 2019 fornecido a ele pela Ericsson, uma das principais empresas de telecomunicações do mundo.
"Ter acesso a esses dados é como uma mina de ouro, "Shami disse.
Para cada entrada anônima - o que significa que nenhum cliente pode ser identificado - diferentes recursos são listados, como o número de bytes recebidos, a hora de entregar os bytes, o IP do cliente, e um indicador de acerto de cache.
Por si próprios, os números são muito vastos para serem apreendidos. Mas com as análises e traduções dos pesquisadores, os dados podem identificar qual é o comportamento normal do cliente em comparação com a aparência de um hack malicioso. Eles também podem avaliar a ameaça potencial em todas as áreas cinzentas de incerteza entre esses dois extremos.
A equipe de Shami no laboratório de Computação e Comunicações Otimizadas (OC2) na Western Engineering está usando várias bibliotecas de processamento paralelo para vasculhar os milhões de pontos de dados e encontrar padrões para uma ampla gama de recursos que incluem frequência, localização, tipo e momento das solicitações.
"O objetivo é entender melhor esses invasores e eventos de ataque para que possamos identificar padrões, " ele disse.
O próximo passo, então, é explorar e projetar estruturas de segurança para evitar ataques à rede e comportamentos anômalos. É uma tarefa complicada que requer aprendizagem baseada em máquina e em software - inteligência artificial que sabe quando e como 'ler' as mudanças nas circunstâncias - além da avaliação humana do risco.
No caso de nossa cidade fictícia na Colúmbia Britânica, por exemplo, é possível que não haja nada de nefasto acontecendo. Talvez esses residentes particularmente sociáveis tenham conseguido organizar dezenas de festas de exibição em toda a comunidade, programado para começar com o lançamento oficial do filme ao meio-dia em Berlim, Alemanha.
Alternativamente, talvez seja uma tentativa dos hackers de detectar uma fraqueza no sistema e explorá-la.
Então, por que isso faz diferença? Em quatro palavras:capacidade, custo, segurança e serviço.
O tráfego de dados e o uso da Internet cresceram exponencialmente - com maior demanda por conteúdo rápido e de alta definição do que nunca. "Isso é ilustrado pela projeção de que o tráfego de vídeo da Internet constituirá 82 por cento do tráfego da Internet em 2020, com o tráfego CDN entregando quase dois terços do tráfego total de vídeo da Internet. "
A demanda também necessita de CDNs maiores e mais complexos, com maior alcance e capacidade e mais interação com diferentes dispositivos e protocolos.
Junto com o crescimento no volume de conteúdo, houve um aumento no número de invasores que procuram explorar e sobrecarregar o sistema, ou pior. Os crimes cibernéticos custam às empresas centenas de milhões de dólares por ano, sendo eficiente, de confiança, escalável, altamente distribuído, e as redes CDN seguras tornaram-se essenciais para atender à crescente demanda por entrega de conteúdo.
Para clientes, esses CDNs são um intermediário vital (mesmo que invisível) que garante um serviço de qualidade mais perto de casa.
Se um CDN estiver comprometido, streaming de vídeo ou download de dados pode ser como tentar enfiar bolinhas de gude em uma ampulheta.
O conjunto de dados no qual Shami e sua equipe de dois alunos de pós-graduação estão trabalhando é estático, mas seu trabalho também é gerar modelos de computador dinâmicos que aprendem com o tempo.
"O objetivo é melhorar o modelo baseado em regras, "disse ele." Precisa ser flexível o suficiente para fornecer recomendações e resultados. "
Eles estão trabalhando em um algoritmo que atribuirá pontuações percentuais a eventos anômalos - para prever se os valores discrepantes representam tentativas de hacks ou, em vez de, são mais prováveis de serem eventos sociais online de massa. Pense no show virtual de Marshmello no Fortnite, que atraiu 10 milhões de jogadores em fevereiro passado.
A pesquisa mais ampla da Shami inclui outros parceiros da indústria, incluindo a realização de análises de dados na manufatura digital e personalização da segurança cibernética em grandes redes, para citar apenas dois exemplos.
Tudo dito, Shami tem 14 membros em seu laboratório OC2 trabalhando em problemas relacionados. Muitos deles estão trabalhando com empresas corporativas e institucionais em busca de respostas para problemas semelhantes.
O trabalho tem vantagens muito além de seus benefícios consideráveis para a indústria, ele disse. Significa que alunos de graduação e pós-doutorado "estão sendo treinados em problemas significativos e encontrando soluções" que os ajudarão em suas vidas pós-universitárias.