A regressão múltipla é usada para examinar o relacionamento entre várias variáveis independentes e uma variável dependente. Embora vários modelos de regressão permitam analisar as influências relativas dessas variáveis independentes ou preditoras na variável dependente ou critério, esses conjuntos de dados geralmente complexos podem levar a conclusões falsas se não forem analisados adequadamente. de regressão múltipla
Um agente imobiliário poderia usar regressão múltipla para analisar o valor das casas. Por exemplo, ela poderia usar como variáveis independentes o tamanho das casas, a idade, o número de quartos, o preço médio da casa na vizinhança e a proximidade das escolas. Ao colocá-las em um modelo de regressão múltipla, ela poderia usar esses fatores para ver a relação deles com os preços das casas como a variável critério.
Outro exemplo de uso de um modelo de regressão múltipla pode ser alguém em recursos humanos determinando o salário dos cargos de gerência - a variável critério. As variáveis preditivas podem ser a antiguidade de cada gerente, o número médio de horas trabalhadas, o número de pessoas gerenciadas e o orçamento departamental do gerente.
Vantagens da regressão múltipla
Existem duas vantagens principais na análise de dados usando um modelo de regressão múltipla. A primeira é a capacidade de determinar a influência relativa de uma ou mais variáveis preditoras no valor do critério. O corretor de imóveis pode descobrir que o tamanho das casas e o número de quartos têm uma forte correlação com o preço de uma casa, enquanto a proximidade das escolas não tem nenhuma correlação, ou mesmo uma correlação negativa se for principalmente uma aposentadoria. comunidade.
A segunda vantagem é a capacidade de identificar discrepâncias ou anomalias. Por exemplo, ao revisar os dados relacionados aos salários dos gerentes, o gerente de recursos humanos pôde descobrir que o número de horas trabalhadas, o tamanho do departamento e o orçamento tinham uma forte correlação com os salários, enquanto a antiguidade não. Como alternativa, todos os valores preditores listados foram correlacionados com cada um dos salários examinados, exceto um gerente que estava sendo pago em excesso em comparação com os outros.
Desvantagens da regressão múltipla
Qualquer desvantagem O uso de um modelo de regressão múltipla geralmente se resume aos dados que estão sendo usados. Dois exemplos disso são o uso de dados incompletos e a conclusão falsa de que uma correlação é uma causa.
Ao revisar o preço das casas, por exemplo, suponha que o agente imobiliário tenha examinado apenas 10 casas, sete das quais foram compradas por pais jovens. Nesse caso, a relação entre a proximidade das escolas pode levá-la a acreditar que isso afetou o preço de venda de todas as casas vendidas na comunidade. Isso ilustra as armadilhas dos dados incompletos. Se ela tivesse usado uma amostra maior, poderia ter descoberto que, de 100 casas vendidas, apenas dez por cento dos valores das casas estavam relacionados à proximidade de uma escola. Se ela tivesse usado a idade dos compradores como um valor preditivo, poderia descobrir que os compradores mais jovens estavam dispostos a pagar mais por casas na comunidade do que os compradores mais velhos.
No exemplo dos salários dos gerentes, suponha que exista alguém que tinha um orçamento menor, menos antiguidade e menos pessoal para administrar, mas estava ganhando mais do que qualquer outra pessoa. O gerente de RH pode analisar os dados e concluir que esse indivíduo está sendo pago em excesso. No entanto, essa conclusão seria errônea se ele não levasse em conta que esse gerente estava no comando do site da empresa e tinha um conjunto de habilidades altamente cobiçado em segurança de rede.