p O cientista da computação da Universidade Rice, Eugene Ng, liderou o desenvolvimento do ShareBackup, uma solução de hardware e software para ajudar os data centers a se recuperarem de falhas sem reduzir a velocidade dos aplicativos. Crédito:Jeff Fitlow / Rice University
p Qualquer pessoa que já tenha amaldiçoado uma rede de computadores quando ela ficou lenta e engatinhada apreciará o remédio oferecido pelos cientistas da Rice University. p O cientista da computação da Rice, Eugene Ng, e sua equipe dizem que sua solução manterá os dados em alta velocidade quando as falhas inevitavelmente acontecerem.
p Ng introduziu o ShareBackup, uma estratégia que permitiria que switches de backup compartilhados em data centers assumissem o tráfego da rede em uma fração de segundo após uma falha de switch de software ou hardware.
p Ele apresentará um artigo revisado por pares sobre o trabalho esta semana na conferência SIGCOMM 2018 em Budapeste, Hungria. O artigo está online e disponível para download.
p Ng disse que a ideia resolveria um incômodo comum entre os profissionais de dados, cientistas e todos que dependem de uma rede para entregar resultados no dia a dia.
p "Uma rede de dados consiste em servidores e switches de rede, "disse Ng, professor de ciência da computação e engenharia elétrica e da computação. "Os switches movem os pacotes de dados para onde precisam ir. Mas as coisas falham, especialmente em data centers de grande escala com milhares de peças de hardware. "
p A resposta usual a uma falha de switch é desviar o fluxo de dados para outra linha. "Geralmente, a rede tem vários caminhos para conectar servidores, então, como se houvesse um fechamento na rodovia, nós dirigiríamos em torno dele. Este é um convencional, abordagem natural que faz muito sentido:você redireciona para contornar o fracasso para chegar aonde precisa. "
p Mas às vezes essa outra estrada fica congestionada e tudo fica mais lento. "Os data centers não são a internet; não são sobre pessoas navegando em sites, "Ng disse." Eles são sobre o suporte de aplicativos com uso intensivo de dados, como mineração de dados ou aprendizado de máquina. E muitos desses aplicativos têm prazos de desempenho rigorosos, portanto, redirecionar o tráfego às cegas pode ser a coisa errada a se fazer em um data center. "
p Em vez da opção cara de instalar switches redundantes em uma rede, a estratégia do laboratório Ng colocaria switches rápidos e software em locais estratégicos que poderiam captar o tráfego de um switch com falha em um microssegundo. Quando esse problema for resolvido, o software da equipe disponibiliza o switch de backup para lidar com outra falha.
p A mudança é rápida o suficiente - o tempo de recuperação de falha é de 0,73 milissegundos, incluindo latência de hardware e sistemas de controle - que a maioria dos usuários nunca saberia que parte do sistema havia falhado.
p "A realidade é que a fração de dispositivos que falham em determinado momento é muito pequena, e a maioria dessas falhas pode ser resolvida por coisas como reiniciar o dispositivo, "Disse Ng." Às vezes, o software fica bagunçado e um simples ciclo de energia o trará de volta. Essas falhas também podem não durar muito.
p "Estas são as características que estamos tentando explorar, "disse ele." Por causa disso, podemos nos safar tendo muito poucos dispositivos fazendo backup de um grande número de dispositivos. "
p Ng disse que o ShareBackup pode economizar tempo e dinheiro dos data centers, não apenas mantendo a largura de banda total, mas também ajudando a analisar problemas, incluindo configurações incorretas que geralmente levam à falha da rede.
p "Parte do nosso trabalho é ajudar os data centers a descobrir o que deu errado na rede, "disse ele." Assim que o backup for ativado, você pode retirar o dispositivo com falha da rede de produção e testá-lo para identificar qual componente causou o problema.
p "Agora, se retirarmos dois dispositivos e não conseguirmos descobrir qual deu errado, ambos precisam ser substituídos, "disse ele." É muito provável que apenas um dos dispositivos esteja apresentando o problema. Nosso software pode diagnosticar esses dispositivos de maneira semiautomática, e se uma das partes for boa, pode ser reintegrado. "