• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • O sistema LearnedSketch AI para estimativa de frequência melhora as estimativas das tendências de consulta de pesquisa

    Crédito:Stuart Miles / Freerange

    Se você olhar os bastidores da Internet, você encontrará muitas engrenagens girando que tornam tudo possível.

    Por exemplo, pegue uma empresa como a AT&T. Eles precisam entender intimamente quais dados da Internet estão indo para onde, para que possam acomodar melhor os diferentes níveis de uso. Mas não é prático monitorar com precisão cada pacote de dados, porque as empresas simplesmente não têm quantidades ilimitadas de espaço de armazenamento. (Os pesquisadores realmente chamam isso de "problema de Britney Spears, "nomeado em homenagem aos esforços de longa data dos mecanismos de pesquisa para contabilizar os tópicos em alta.)

    Por causa disso, as empresas de tecnologia usam algoritmos especiais para estimar aproximadamente a quantidade de tráfego que segue para diferentes endereços IP. Os algoritmos de estimativa de frequência tradicionais envolvem "hashing, "ou dividir itens aleatoriamente em grupos diferentes. Mas essa abordagem descarta o fato de que existem padrões que podem ser descobertos em grandes volumes de dados, por exemplo, por que um endereço IP tende a gerar mais tráfego na Internet do que outro.

    Pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) desenvolveram uma nova maneira de encontrar esses padrões usando o aprendizado de máquina.

    Seu sistema usa uma rede neural para prever automaticamente se um elemento específico aparecerá com frequência em um fluxo de dados. Se isso acontecer, é colocado em um balde separado dos chamados "pesos pesados" para se concentrar; se não, ele é tratado por meio de hashing.

    "É como uma situação de triagem em uma sala de emergência, onde priorizamos os maiores problemas antes de chegar aos menores, "diz o professor Piotr Indyk do MIT, co-autor de um novo artigo sobre o sistema que será apresentado em maio na Conferência Internacional sobre Representações de Aprendizagem em Nova Orleans, Louisiana. "Ao aprender as propriedades dos pesos pesados ​​à medida que chegam, podemos fazer estimativas de frequência com muito mais eficiência e muito menos erros. "

    Em testes, A equipe de Indyk mostrou que sua abordagem baseada na aprendizagem teve mais de 57 por cento menos erros para estimar a quantidade de tráfego de Internet em uma rede, e mais de 71 por cento a menos de erros para estimar o número de consultas para um determinado termo de pesquisa.

    A equipe chama seu sistema de "LearnedSketch, "porque eles veem isso como um método de" esboçar "os dados em um fluxo de dados com mais eficiência. Para seu conhecimento, é a primeira abordagem baseada em aprendizado de máquina do mundo não apenas para estimativa de frequência em si, mas para uma classe mais ampla dos chamados algoritmos de "streaming" que são usados ​​em tudo, desde sistemas de segurança até processamento de linguagem natural.

    LearnedSketch pode ajudar as empresas de tecnologia a processar de forma mais eficaz todos os tipos de dados significativos, de tópicos de tendência no Twitter a picos no tráfego da web que podem sugerir futuros ataques distribuídos de negação de serviço. As empresas de comércio eletrônico podem usá-lo para melhorar as recomendações de produtos:Se a LearnedSketch descobrir que os clientes tendem a fazer mais compras comparativas de eletrônicos domésticos do que de brinquedos, ele poderia dedicar automaticamente mais recursos para garantir a precisão de suas contagens de frequência para eletrônicos.

    "Estamos todos familiarizados com aplicativos de aprendizado de máquina voltados para o consumidor, como processamento de linguagem natural e tradução de fala, "diz Sergei Vassilvitskii, um cientista da computação que estuda o aprendizado de máquina algorítmico e não estava envolvido no projeto. "Esta linha de trabalho, por outro lado, é um exemplo empolgante de como usar o aprendizado de máquina para melhorar o próprio sistema de computação principal. "

    O que também é surpreendente sobre LearnedSketch é que, à medida que aprende a contar itens, a estrutura que ele aprende pode ser generalizada até mesmo para itens invisíveis. Por exemplo, para prever quais conexões de internet têm mais tráfego, o modelo aprende a agrupar conexões diferentes pelo prefixo de seu IP de destino. Isso ocorre porque os lugares que geram grande tráfego, como grandes empresas e universidades, tendem a compartilhar um prefixo particular.

    "Combinamos o modelo com algoritmos clássicos para que nosso algoritmo herde as garantias de pior caso dos algoritmos clássicos naturalmente, "diz o estudante de doutorado Chen-Yu Hsu, co-autor do novo artigo. "Esses tipos de resultados mostram que o aprendizado de máquina é uma abordagem que pode ser usada junto com os paradigmas algorítmicos clássicos como 'dividir para conquistar' e programação dinâmica."

    Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.




    © Ciência https://pt.scienceaq.com