• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Mudar as regras da computação pode diminuir o impacto dos Big Datas na internet

    Crédito CC0:domínio público

    Em um momento em que contamos com a internet em um grau sem precedentes em nossas vidas diárias, uma equipe de pesquisadores da U-M liderada por Mosharaf Chowdhury e Harsha Madhyastha encontrou um caminho para empresas de tecnologia, bancos e sistemas de saúde para extrair mais capacidade de nossa infraestrutura existente.

    Uma mudança no design da ferramenta de software de big data Apache Spark pode permitir que os maiores usuários mundiais de poder de computação processem tarefas massivas até 16 vezes mais rápido, ao mesmo tempo que aliviam sua carga na Internet. Chowdhury é professor assistente e Madhyastha é professora associada, tanto de ciência da computação quanto de engenharia. A modificação, chamado Sol, já está disponível para download no GitHub.

    Spark é uma estrutura eletrônica de código aberto que atua como gerenciador de tarefas, coordenar vastas redes de computadores individuais para trabalharem juntos como uma única máquina em grandes tarefas de computação. Uma das ferramentas desse tipo mais utilizadas no mundo, é usado por todas as grandes empresas de tecnologia, bem como bancos, empresas de telecomunicações, governos e muitos outros.

    Quando o Spark foi construído há uma década, a maior parte desse trabalho ocorreu em grandes data centers, onde vastos bancos de máquinas estavam localizados em um único local. Mas hoje, está cada vez mais sendo usado para conectar máquinas que estão espalhadas por todo o mundo e conectadas pela internet.

    Chowdhury ajudou a construir o Spark durante seu tempo como estudante de graduação na Universidade da Califórnia em Berkeley. Ele explica que distribui o trabalho para máquinas individuais usando um componente chamado mecanismo de execução. Ele foi projetado principalmente para grandes data centers, onde grupos de máquinas na mesma rede local podem se comunicar rapidamente entre si. Mas é menos eficiente quando as máquinas estão a milhares de quilômetros de distância, conectado pelo tubo relativamente estreito da Internet.

    "O mecanismo de execução existente do Spark toma decisões sobre para onde enviar o trabalho no último minuto - somente depois que a CPU sinaliza que está pronta para mais trabalho é que envia uma nova tarefa, "Chowdhury disse." Essa abordagem maximiza a flexibilidade, e faz sentido quando uma tarefa está alojada em um único data center. Mas essa comunicação demora muito mais entre máquinas que estão conectadas pela internet. A abordagem de última hora muitas vezes deixa CPUs subutilizadas, o que significa que eles estão sentados esperando o trabalho. "

    Então Chowdhury e Madhyastha, trabalhando com estudantes de pós-graduação assistentes de pesquisa Fan Lai e Jie You, bem como estudante de graduação Xiangfeng Zhu, escreveu um novo mecanismo de execução chamado Sol. Sol tem uma abordagem mais proativa; em vez de esperar que as CPUs avisem que estão prontas para um novo trabalho, ele adivinha quais serão os próximos na fila e os empurra ativamente para novas tarefas. Ele também instrui as máquinas a processar dados localmente, quando possível, em vez de movê-los constantemente entre as máquinas.

    Isso significa menos embaralhamento de dados e comandos entre as máquinas, diminuindo a carga na Internet e acelerando o processamento de dados. A equipe de Chowdhury descobriu que ele acelera a computação dramaticamente, tornando as tarefas comuns de quatro a 16 vezes mais rápidas.

    Embora a versão atualmente disponível seja uma versão de pesquisa do software, em vez de um produto mais polido, Chowdhury diz que lançá-lo em sua forma atual é uma forma de impulsionar a pesquisa em um momento em que a velocidade é essencial.

    “Fan Lai já está se colocando à disposição para ajudar quem quiser experimentar, "disse ele." Estamos fazendo tudo o que podemos para agir rapidamente. "

    O artigo é intitulado "Sol:Computação Distribuída Rápida em Redes Lentas".


    © Ciência https://pt.scienceaq.com