Pequeno manual para evitar análises irrelevantes

Análise de dados para quem tem pressa (ou quem pelo menos não gosta de perder tempo)

Pequeno manual para evitar análises irrelevantes
Photo by Robert Ruggiero / Unsplash

Todo dado parece, em um primeiro momento, interessante. Entretanto, é apenas depois de termos gastado muito tempo construindo um complicado dashboard que nos damos conta de que aquela análise ou métrica não nos ajudará em nada. Isso me faz acreditar que mais importante do que saber quais dados olhar, é saber quais dados não olhar. Esse artigo traz um caso de como você pode refinar as métricas e dados antes mesmo de tê-los em mãos, garantindo sua relevância pro negócio.

Estudo de caso: cancelamento de assinatura

O gerente de produto chega apressado com um novo pedido para a analista de dados. O negócio requisitou ao gerente mais atenção pois apesar do aumento do investimento em marketing de aquisição de novos clientes, os números não estão crescendo proporcionalmente. Há chances de que, apesar da entrada de muitos usuários, haja um fluxo de saída muito grande.

O gerente de produto, mesmo passando um pouco do contexto à analista, já possui um dado em mente: total de cliques no botão de cancelamento. A analista de dados, antes de ver qualquer dado, percebe que há alguns problemas nesse pedido, mas retorna com uma pergunta: “Você tem poder sobre essa tela, funcionalidade ou processo?”.

Ela já sabe que há outros fluxos que geram o cancelamento para além deste, como por exemplo, quando há problemas de pagamento, portanto seria mais coerente pegar dados de transações do banco de dados ao invés de cliques em um botão. Mais que isso, ela lembra que esse botão não faz sequer parte das funcionalidades desenvolvidas por esse gerente de produto. Esse botão era responsabilidade de outro time.

O gerente concorda com seus pontos e pede então total de cancelamentos transacionais, concordando com a proposta da analista. Apesar da melhora, ela percebe que ainda há algo faltando. Ao considerarmos o contexto inicial, essa análise surge do problema de haver novos clientes mas não aumento de clientes totais. Ela então pergunta: “Ao invés do número absoluto, não deveríamos ter uma porcentagem ou taxa proporcional?”. Ela sugere que se olhe a porcentagem de cancelamento do total de usuários ativos. Outra alternativa seria número de cancelamentos sobre número de novos usuários. Em ambos os casos a métrica se tornaria mais útil para o negócio.

Porcentagem dos usuários ativos que cancelaram, pediu o gerente, e a analista percebeu que ainda faltava algo. “Como definir se estamos melhorando ou piorando?”. Seria necessário olhar esses valores ao longo do tempo para que pudéssemos ver mudanças positivas ou negativas, nesse caso poderíamos ver mensalmente.

Agora o pedido já faz mais sentido: porcentagem mensal dos usuários ativos que cancelaram. A analista percebe que, apesar de estar mais refinada, não há muito o que fazer com essa métrica. Estaríamos apenas sabendo se ela melhora ou piora sem ter nada o que fazer a respeito, por isso questiona: “Qual outra dimensão ou variável parece estar relacionada com essa alteração?”. Não há sentido em ver uma métrica caindo ou subindo se você não faz ideia de qual ação tomar, ao ver outra dimensão, você pode encontrar correlações que te possibilitam agir.

Após refletir um pouco, o gerente sugere: relacionar a região com a porcentagem de cancelamento. Essa análise buscaria alguma relação entre o cancelamento e a localidade, respectivamente, a métrica que queremos modificar e alguma outra variável que impacta a métrica. A analista de dados vê algum valor nesta análise, ela com certeza nos dará melhor compreensão do cliente, entretanto ela não seria das mais interessantes. Mesmo se descobrirmos que uma região possui uma chance maior de cancelamento, isso não seria suficiente para formularmos hipóteses de funcionalidade. Haveria sentido em fazer uma funcionalidade para uma região e não para outra? A analista então dá mais um passo: “Essa variável nos ajudaria a prever o comportamento que queremos influenciar?.

Além da métrica, o gerente sugere olhar para a seguinte relação: relação entre uso na última semana e porcentagem de cancelamento. Com essa análise temos agora uma hipótese mais específica se desenhando que permitirá não apenas o acompanhamento de uma métrica mas a geração de hipóteses que levarão à testagem de novas funcionalidades. Ainda assim, mais uma pergunta surge: “Como podemos refutar ou excluir a hipótese de relação entre as variáveis?”. Não adianta olhar para os dados para confirmar o que você pensou, os dados precisam te dizer o que você não sabe. Olhamos os dados para descobrir e refutar, não apenas para confirmar! Então antes mesmo de gerar o valor é preciso permitir a refutação da hipótese.

Para que a hipótese de relações entre as variáveis possa ser confirmada ou rejeitada, deve-se: comparar a porcentagem de cancelamento entre grupos com uso e sem uso na última semana. Caso seja encontrada diferença entre os grupos, a hipótese de que há alguma relação entre elas, ou seja, de que o período que a pessoa fica sem usar aumenta a chance dela sair.

Agora termina o trabalho de encontrar o insight. Se confirmada a relação entre as variáveis algo deve ser modificado no produto para melhorar a métrica! O gerente tem uma lista enorme de ideias, de notificações a novas funcionalidades. A analista antes para ajudar a  escolher qual funcionalidade faz mais duas perguntas: “Como validar se a ação ou modificação do produto foi efetiva?" e “Há possibilidade de teste comparado a um grupo controle? Se não, podemos avaliar pelo menos a melhoria após implementação?”.

Esse pequeno trajeto serve para exemplificar algumas das principais perguntas que evitam análises irrelevantes. O maior perigo em uma análise é que os dados apresentam infinitas possibilidades. Análise de dados não é tanto a arte de encontrar o melhor caminho, pois há caminhos demais. A boa análise de dados consiste acima de tudo em evitar os becos-sem-saída que te fazem perder tempo.

O que fazer na sua próxima análise

As perguntas utilizadas durante esse caso te ajudam no refinamento de dados e métricas. Elas testam a relevância da sua análise. A tabela a seguir será útil para sua próxima análise, pois traz todas elas com a característica que cada uma identifica. Caso você não saiba a resposta para uma dessas perguntas durante a formulação de uma métrica, provavelmente ainda falta algo para que o dado seja útil!

Característica

Descrição

Pergunta

Poder de decisão

Autoridade e escopo na empresa para aplicar insight

Você tem poder sobre essa tela, funcionalidade ou processo?

Proporcionalidade

Valor é relativo a um ponto de referência

Ao invés do número absoluto, não deveríamos ter uma porcentagem ou taxa proporcional?

Significação, valência

Indica a aproximação ou afastamento de um objetivo

Como definir se estamos melhorando ou piorando?

Relação (correlação ou causalidade)

Além da métrica central, ter uma variável que com ela se relaciona e, portanto, poderá ser usada como alavanca da métrica

Qual outra dimensão ou variável parece estar relacionada com essa alteração?

Essa variável nos ajudaria a prever o comportamento que queremos influenciar?

Refutabilidade

Número poderá refutar ou invalidar a hipótese inicialmente formulada

Como podemos refutar ou excluir a hipótese de relação entre as variáveis?

Validação

Após implementação, há meios de se garantir que a hipótese inicial estava correta.

Como validar se ação ou modificação do produto foi efetiva?

Testabilidade (estatística ou histórica)

Após a implementação, mensurar pelo teste A/B ou pela série histórica o impacto da mudança

Há possibilidade de teste comparado a um grupo controle? Se não, podemos avaliar pelo menos a melhoria após implementação?