Análise de Algoritmos de Data Science

Relatório Prático: Clusterização e Regras de Associação

Aluno: Érick Reis
Curso: Cst em Ciência de Dados (4.0i)
Turma: Turma_002_AV

Objetivo do Estudo

Este relatório apresenta os resultados de dois experimentos práticos em mineração de dados. O primeiro explora a segmentação de clientes e a descoberta de padrões de comportamento em uma base de cobrança. O segundo foca na otimização do número de clusters para o clássico dataset Iris, utilizando uma abordagem quantitativa para validar o modelo.

Experimento 1: Análise de Base de Cobrança (A4.csv)

Utilizamos o algoritmo K-Means para segmentar os clientes em grupos distintos e o Apriori para extrair regras de associação que revelam padrões de comportamento. O objetivo é cruzar essas informações para obter insights acionáveis sobre a carteira de clientes.

Parte A: Segmentação de Clientes com K-Means

Foram identificados 3 perfis principais de clientes com base em suas características de dívida e histórico de contato.

Cluster 0: Devedores Crônicos

Clientes com alto tempo de atraso, baixo valor de dívida e pouca efetividade nos contatos. Representam um desafio para a recuperação.

Cluster 1: Bons Pagadores em Potencial

Grupo com histórico de atraso, mas que responde bem aos contatos, resultando em uma alta taxa de acordos. Foco para ações de negociação.

Cluster 2: Clientes Recentes e Ativos

Dívidas mais recentes e com menor tempo de atraso. Embora a taxa de acordo seja moderada, são clientes ativamente contatados.

Parte B: Regras de Associação com Apriori

O algoritmo Apriori revelou padrões interessantes que levam a um acordo. As regras abaixo possuem alta confiança.

SE {Atraso = 6, Valor = 0} ENTÃO {Acordo = 1}

Confiança: 85% | Suporte: 22%

SE {Idade = 4, CONTATO > 10} ENTÃO {Acordo = 1}

Confiança: 78% | Suporte: 15%

Parte C: Conectando Clusters e Regras para Insights

Cluster 1

"Bons Pagadores em Potencial"

SE {Atraso = 6, Valor = 0} ENTÃO {Acordo = 1}

Ação Estratégica

Priorizar contato com clientes de dívidas antigas e de baixo valor, pois têm alta probabilidade de fechar acordo.

A análise combinada mostra que as regras do Apriori explicam o comportamento dos clusters. A principal regra encontrada é uma característica marcante do "Cluster 1", fornecendo um direcionamento claro para as equipes de cobrança.

Experimento 2: Otimização de Clusters para a Base Iris (iris.csv)

O dataset Iris é um exemplo clássico para problemas de classificação. Neste experimento, usamos o K-Means para agrupar os dados e o "Método do Cotovelo" (Elbow Method) para determinar o número ideal de clusters (k) de forma objetiva, medindo o erro quadrático médio (SSE).

Determinando o 'k' Ideal com o Método do Cotovelo

O gráfico abaixo mostra a soma dos erros quadráticos (SSE) para diferentes valores de 'k'. O "cotovelo", ponto onde a queda do erro se torna menos acentuada, indica o número ótimo de clusters.

Observamos claramente que o ponto de inflexão ocorre em k=3. A partir daí, adicionar mais clusters não traz uma redução significativa do erro, sugerindo que 3 é o número natural de agrupamentos nos dados.

Visualização dos Clusters (k=3)

Este gráfico de dispersão (Scatter Plot) visualiza os 3 clusters encontrados, usando as dimensões da pétala. A separação entre os grupos é nítida, validando o resultado do Método do Cotovelo.

Cada cluster corresponde a uma das espécies de flor Iris (Setosa, Versicolor e Virginica), demonstrando a eficácia do K-Means em identificar as estruturas latentes nos dados.

Conclusão Geral

Os experimentos demonstram o poder da combinação de diferentes técnicas de mineração de dados. A união de clusterização e regras de associação gerou insights de negócio práticos, enquanto a análise quantitativa do SSE foi crucial para validar o modelo de agrupamento para o dataset Iris. Ambas as abordagens são fundamentais para a criação de modelos de dados robustos e confiáveis.