• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Reduzindo falsos positivos na detecção de fraude de cartão de crédito

    Os pesquisadores do MIT empregaram uma nova técnica de aprendizado de máquina para reduzir substancialmente os falsos positivos em tecnologias de detecção de fraude. Crédito:Chelsea Turner

    Você já usou seu cartão de crédito em uma nova loja ou local apenas para tê-lo recusado? Uma venda já foi bloqueada porque você cobrou um valor maior do que o normal?

    Os cartões de crédito dos consumidores são recusados ​​com uma frequência surpreendente em transações legítimas. Uma das causas é que as tecnologias de detecção de fraude usadas pelo banco de um consumidor sinalizaram incorretamente a venda como suspeita. Agora, os pesquisadores do MIT empregaram uma nova técnica de aprendizado de máquina para reduzir drasticamente esses falsos positivos, economizando dinheiro dos bancos e diminuindo a frustração do cliente.

    O uso do aprendizado de máquina para detectar fraudes financeiras remonta ao início da década de 1990 e tem avançado ao longo dos anos. Os pesquisadores treinam modelos para extrair padrões comportamentais de transações anteriores, chamados de "recursos, "aquele sinal de fraude. Quando você passa seu cartão, o cartão faz ping no modelo e, se os recursos corresponderem a um comportamento de fraude, a venda é bloqueada.

    Por trás das cenas, Contudo, os cientistas de dados devem sonhar com esses recursos, que se concentram principalmente em regras gerais para quantidade e localização. Se um determinado cliente gasta mais do que, dizer, $ 2, 000 em uma compra, ou faz várias compras no mesmo dia, eles podem ser sinalizados. Mas, como os hábitos de consumo dos consumidores variam, mesmo em contas individuais, esses modelos às vezes são imprecisos:um relatório de 2015 da Javelin Strategy and Research estima que apenas uma em cada cinco previsões de fraude está correta e que os erros podem custar a um banco $ 118 bilhões em receita perdida, já que os clientes recusados, evitam usar esse cartão de crédito.

    Os pesquisadores do MIT desenvolveram uma abordagem de "engenharia automatizada de recursos" que extrai mais de 200 recursos detalhados para cada transação individual - digamos, se um usuário estava presente durante as compras, e o valor médio gasto em determinados dias em determinados fornecedores. Ao fazê-lo, ele pode identificar melhor quando os hábitos de consumo de um titular de cartão específico se desviam da norma.

    Testado em um conjunto de dados de 1,8 milhões de transações de um grande banco, o modelo reduziu as previsões de falsos positivos em 54 por cento em relação aos modelos tradicionais, que os pesquisadores estimam que poderia ter salvado o banco 190, 000 euros (cerca de $ 220, 000) em receita perdida.

    "O grande desafio nesta indústria são os falsos positivos, "diz Kalyan Veeramachaneni, cientista pesquisador principal do Laboratório de Sistemas de Informação e Decisão (LIDS) do MIT e co-autor de um artigo que descreve o modelo, que foi apresentado na recente Conferência Europeia de Aprendizado de Máquina. "Podemos dizer que há uma conexão direta entre a engenharia de recursos e a redução de falsos positivos. ... Essa é a coisa mais impactante para melhorar a precisão desses modelos de aprendizado de máquina."

    Os co-autores do artigo são:autor principal Roy Wedge, um ex-pesquisador do Data to AI Lab no LIDS; James Max Kanter '15, SM '15; e Santiago Moral Rubio e Sergio Iglesias Perez, do Banco Bilbao Vizcaya Argentaria.

    Extraindo recursos "profundos"

    Três anos atrás, Veeramachaneni e Kanter desenvolveram Deep Feature Synthesis (DFS), uma abordagem automatizada que extrai recursos altamente detalhados de quaisquer dados, e decidiu aplicá-lo às transações financeiras.

    Às vezes, as empresas hospedam competições em que fornecem um conjunto de dados limitado junto com um problema de previsão, como fraude. Cientistas de dados desenvolvem modelos de previsão, e um prêmio em dinheiro vai para o modelo mais preciso. Os pesquisadores participaram de uma dessas competições e alcançaram as melhores pontuações com o DFS.

    Contudo, eles perceberam que a abordagem poderia atingir todo o seu potencial se treinada em várias fontes de dados brutos. "Se você olhar o que as empresas de dados divulgam, é uma pequena porção do que eles realmente têm, "Veeramachaneni diz." Nossa pergunta era, 'Como adotamos essa abordagem para negócios reais?' "

    Apoiado pelo programa Data-Driven Discovery of Models da Defense Advanced Research Projects Agency, Kanter e sua equipe no FeatureLabs - um spinout comercializando a tecnologia - desenvolveram uma biblioteca de código aberto para extração automatizada de recursos, chamado Featuretools, que foi utilizado nesta pesquisa.

    Os pesquisadores obtiveram um conjunto de dados de três anos fornecido por um banco internacional, que incluía informações granulares sobre o valor da transação, vezes, Localizações, tipos de fornecedores, e terminais usados. Continha cerca de 900 milhões de transações de cerca de 7 milhões de cartões individuais. Dessas transações, por volta de 122, 000 foram confirmados como fraude. Os pesquisadores treinaram e testaram seu modelo em subconjuntos desses dados.

    Em treinamento, o modelo busca padrões de transações e entre cartões que correspondam a casos de fraude. Em seguida, ele combina automaticamente todas as diferentes variáveis ​​que encontra em recursos "profundos" que fornecem uma visão altamente detalhada de cada transação. Do conjunto de dados, o modelo DFS extraiu 237 recursos para cada transação. Esses representam variáveis ​​altamente personalizadas para titulares de cartão, Veeramachaneni diz. "Dizer, na sexta, é normal que um cliente gaste $ 5 ou $ 15 dólares no Starbucks, "ele diz." Essa variável será parecida com, 'Quanto dinheiro foi gasto em um café em uma manhã de sexta-feira?' "

    Em seguida, ele cria uma árvore de decisão se / então para essa conta de recursos que apontam e não apontam para fraude. Quando uma nova transação é executada na árvore de decisão, o modelo decide em tempo real se a transação é fraudulenta ou não.

    Comparado a um modelo tradicional usado por um banco, o modelo DFS gerou cerca de 133, 000 falsos positivos contra 289, 000 falsos positivos, cerca de 54 por cento menos incidentes. Este, junto com um número menor de falsos negativos detectados - fraude real que não foi detectada - poderia salvar o banco cerca de 190, 000 euros, os pesquisadores estimam.

    Empilhamento de primitivas

    A espinha dorsal do modelo consiste em "primitivas empilhadas criativamente, "funções simples que pegam duas entradas e dão uma saída. Por exemplo, calcular uma média de dois números é um primitivo. Isso pode ser combinado com uma primitiva que examina o registro de data e hora de duas transações para obter um tempo médio entre as transações. Empilhar outra primitiva que calcula a distância entre dois endereços dessas transações dá um tempo médio entre duas compras em dois locais específicos. Outro primitivo poderia determinar se a compra foi feita em um dia da semana ou fim de semana, e assim por diante.

    "Assim que tivermos esses primitivos, não há como nos impedir de empilhá-los ... e você começa a ver essas variáveis ​​interessantes nas quais não havia pensado antes. Se você se aprofundar no algoritmo, primitivos são o molho secreto, "Veeramachaneni diz.

    Um recurso importante que o modelo gera, Veeramachaneni observa, está calculando a distância entre esses dois locais e se aconteceram pessoalmente ou remotamente. Se alguém que compra algo em, dizer, o Stata Center pessoalmente e, meia hora depois, compra algo pessoalmente a 200 milhas de distância, então é uma alta probabilidade de fraude. Mas se uma compra ocorreu pelo celular, a probabilidade de fraude cai.

    "Existem tantos recursos que você pode extrair que caracterizam comportamentos que você vê em dados anteriores relacionados a casos de uso de fraude ou não fraude, "Veeramachaneni diz.

    Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.




    © Ciência https://pt.scienceaq.com