Crédito CC0:domínio público
Os investidores do mercado de ações costumam confiar em teorias de risco financeiro que os ajudam a maximizar os retornos enquanto minimizam as perdas financeiras devido às flutuações do mercado. Essas teorias ajudam os investidores a manter um portfólio equilibrado para garantir que nunca percam mais dinheiro do que estão dispostos a gastar em determinado momento.
Inspirado por essas teorias, Os pesquisadores do MIT, em colaboração com a Microsoft, desenvolveram um modelo matemático "ciente de riscos" que pode melhorar o desempenho das redes de computação em nuvem em todo o mundo. Notavelmente, a infraestrutura em nuvem é extremamente cara e consome muita energia do mundo.
Seu modelo leva em consideração as probabilidades de falha de links entre data centers em todo o mundo - semelhante a prever a volatilidade das ações. Então, ele executa um mecanismo de otimização para alocar o tráfego por meio de caminhos ideais para minimizar a perda, enquanto maximiza o uso geral da rede.
O modelo pode ajudar os principais provedores de serviços em nuvem - como a Microsoft, Amazonas, e o Google - utilizam melhor sua infraestrutura. A abordagem convencional é manter os links ociosos para lidar com mudanças inesperadas de tráfego resultantes de falhas de link, o que é um desperdício de energia, largura de banda, e outros recursos. O novo modelo, chamado TeaVar, por outro lado, garante que por uma determinada porcentagem de tempo - digamos, 99,9 por cento - a rede pode lidar com todo o tráfego de dados, portanto, não há necessidade de manter nenhum link ocioso. Durante esse 0,01 por cento do tempo, o modelo também mantém os dados eliminados o mais baixo possível.
Em experimentos baseados em dados do mundo real, o modelo suportava três vezes a taxa de transferência de tráfego dos métodos tradicionais de engenharia de tráfego, enquanto mantém o mesmo alto nível de disponibilidade de rede. Um artigo descrevendo o modelo e os resultados será apresentado na conferência ACM SIGCOMM esta semana.
Uma melhor utilização da rede pode economizar milhões de dólares aos provedores de serviços, mas os benefícios "chegarão" aos consumidores, diz o co-autor Manya Ghobadi, o TIBCO Career Development Assistant Professor no Departamento de Engenharia Elétrica e Ciência da Computação do MIT e um pesquisador no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL).
"Ter uma infraestrutura mais utilizada não é bom apenas para serviços em nuvem - também é melhor para o mundo, "Ghobadi diz." As empresas não precisam comprar tanta infraestrutura para vender serviços aos clientes. Mais, ser capaz de utilizar de forma eficiente os recursos do datacenter pode economizar enormes quantidades de consumo de energia pela infraestrutura da nuvem. Então, há benefícios para os usuários e para o meio ambiente ao mesmo tempo. "
Juntando-se a Ghobadi no papel estão seus alunos Jeremy Bogle e Nikhil Bhatia, ambos do CSAIL; Ishai Menache e Nikolaj Bjorner da Microsoft Research; e Asaf Valadarsky e Michael Schapira da Universidade Hebraica.
No dinheiro
Os provedores de serviços em nuvem usam redes de cabos de fibra ótica que funcionam no subsolo, conectando centros de dados em diferentes cidades. Para rotear o tráfego, os provedores contam com um software de "engenharia de tráfego" (TE) que aloca de maneira ideal a largura de banda de dados - quantidade de dados que pode ser transferida de uma vez - por meio de todos os caminhos de rede.
O objetivo é garantir a máxima disponibilidade aos usuários em todo o mundo. Mas isso é desafiador quando alguns links podem falhar inesperadamente, devido a quedas na qualidade do sinal óptico resultante de interrupções ou linhas cortadas durante a construção, entre outros fatores. Para permanecer robusto até o fracasso, provedores mantêm muitos links com utilização muito baixa, esperando para absorver todas as cargas de dados de links desativados.
Assim, é uma troca complicada entre disponibilidade e utilização da rede, o que permitiria maiores taxas de transferência de dados. E é aí que os métodos tradicionais de TE falham, dizem os pesquisadores. Eles encontram caminhos ideais com base em vários fatores, mas nunca quantifique a confiabilidade dos links. "Eles não dizem, 'Este link tem uma probabilidade maior de estar instalado e funcionando, então isso significa que você deve enviar mais tráfego aqui, "Bogle diz." A maioria dos links em uma rede está operando com baixa utilização e não está enviando tanto tráfego quanto poderia. "
Os pesquisadores, em vez disso, projetaram um modelo TE que adapta a matemática básica do "valor condicional em risco, "uma medida de avaliação de risco que quantifica a perda média de dinheiro. Com o investimento em ações, se você tiver um valor condicional de 99 por cento de um dia com risco de $ 50, sua perda esperada do pior cenário de 1 por cento naquele dia é de $ 50. Mas 99 por cento das vezes, você se sairá muito melhor. Essa medida é usada para investir no mercado de ações - o que é notoriamente difícil de prever.
"Mas a matemática é, na verdade, um ajuste melhor para nossa configuração de infraestrutura em nuvem, "Ghobadi diz." Principalmente, as falhas de link são devido à idade do equipamento, portanto, as probabilidades de falha não mudam muito com o tempo. Isso significa que nossas probabilidades são mais confiáveis, em comparação com o mercado de ações. "
Modelo ciente de risco
Em redes, compartilhamentos de largura de banda de dados são análogos ao "dinheiro investido, "e o equipamento de rede com diferentes probabilidades de falha são os" estoques "e sua incerteza de mudança de valores. Usando as fórmulas subjacentes, os pesquisadores desenvolveram um modelo "ciente do risco" que, como sua contraparte financeira, garante que os dados chegarão ao seu destino 99,9 por cento do tempo, mas mantém a perda de tráfego no mínimo durante os cenários de pior caso de falha de 0,1 por cento. Isso permite que os provedores de nuvem ajustem a compensação entre disponibilidade e utilização.
Os pesquisadores mapearam estatisticamente três anos de intensidade do sinal de rede das redes da Microsoft que conectam seus data centers a uma distribuição de probabilidade de falhas de link. A entrada é a topologia da rede em um gráfico, com fluxos de dados de origem e destino conectados por meio de linhas (links) e nós (cidades), com cada link atribuído a uma largura de banda.
As probabilidades de falha foram obtidas verificando a qualidade do sinal de cada link a cada 15 minutos. Se a qualidade do sinal cair abaixo de um limite de recepção, eles consideraram isso uma falha de link. Qualquer coisa acima significa que o link está instalado e funcionando. A partir desse, o modelo gerou um tempo médio que cada link ficou ativo ou inativo, e calculou uma probabilidade de falha - ou "risco" - para cada link em cada janela de tempo de 15 minutos. A partir desses dados, ele foi capaz de prever quando links arriscados falhariam em qualquer janela de tempo.
Os pesquisadores testaram o modelo em relação a outro software TE em tráfego simulado enviado por meio de redes do Google, IBM, ATT, e outros que se espalham pelo mundo. Os pesquisadores criaram vários cenários de falha com base em sua probabilidade de ocorrência. Então, eles enviaram demandas de dados simulados e do mundo real pela rede e orientaram seus modelos para começar a alocar largura de banda.
O modelo dos pesquisadores manteve links confiáveis funcionando quase a plena capacidade, ao mesmo tempo em que direciona os dados para longe de links mais arriscados. Sobre as abordagens tradicionais, o modelo deles executou três vezes mais dados pela rede, enquanto ainda garante que todos os dados cheguem ao seu destino. O código está disponível gratuitamente no GitHub.