Entender estatística descritiva certamente irá te dar uma grande vantagem em análise de dados em seu dia a dia como PM. Não é intenção desse texto o aprofundamento em termos avançados matemáticos, mas trarei alguns conceitos que me ajudaram a enxergar mais sentido nas análises.
Como o próprio nome diz, a estatística descritiva permite descrever um conjunto de dados de uma forma que nos faça sentido.
Imagine que você está trabalhando em uma empresa que fornece dados sobre o meio ambiente para o governo brasileiro e tem em mãos o desafio de fornecer para as agências do meio ambiente uma análise histórica sobre a temperatura de todas as capitais brasileiras.
Você então resolve começar por São Paulo, buscando os dados das temperaturas diárias da grande metrópole para os últimos 20 anos, ou seja, as últimas 7200 temperaturas diárias. Você precisa responder, basicamente, se a temperatura tem subido historicamente e em quais regiões essa subida é mais acentuada.
Se você for analisar temperatura a temperatura (ponto a ponto do conjunto), como você chegará a uma conclusão? Na trigésima temperatura é bem provável que você já não lembre muito bem das primeiras. Está claro que você precisa de uma ferramenta matemática que te ajude a descrever esse conjunto de temperaturas de uma forma que seja mais simples de identificar os padrões que você quer achar.
A estatística descritiva é de fato a ferramenta que você está precisando. É claro que para pequenos conjuntos de dados você irá conseguir realizar essa análise sem ter que utilizar estatística, mas no mundo conectado que a gente vive, onde tudo vira dado, os conjuntos de dados dificilmente serão pequenos e os que forem, dificilmente serão úteis.
Sendo assim, a estatística descritiva é ferramenta fundamental na vida de qualquer profissional que precisa analisar grandes conjuntos de dados para extrair informações e padrões e assim, conseguir contar uma história que faça sentido.
Para o nosso exemplo, poderíamos calcular a média anual da temperatura em São Paulo para os últimos 20 anos e então traçar um gráfico de linha com as médias anuais que encontraríamos a tendência que estávamos buscando.
Você certamente já calculou a média de algum conjunto e, provavelmente, também sabe que a média pode ter alguns problemas para descrever o seu conjunto de dados. Quem nunca ouviu a história de homens num bar com um salário mediano e de repente, chega um bilionário lá.
O fato é, saber estatística descritiva, eu diria que com um bom entendimento (claro, não precisa ser um estatístico) vai te ajudar muito no seu dia a dia como PM, principalmente se você trabalhar numa empresa em que fazer análises para tomada de decisão é coisa da mais básica.
Nessa série de textos, abordarei desde o básico até alguns conceitos mais avançados em estatística descritiva, depois passarei para um pouco de probabilidade e alguns outros conceitos matemáticos que tenho certeza que irá te ajudar a ter uma carreira de produto mais sólida.
Comecemos, então, pelo mais básico dos conceitos: conjuntos de dados e a maneira como eles podem estar distribuídos. Vamos lá?
Distribuição de dados
Certamente, se você estudou um pouco de matemática ou estatística, já deve ter ouvido falar em tipos de distribuição de dados, muito provavelmente, da distribuição normal. Distribuição de dados é exatamente o que o nome diz, é como um conjunto de dados está matematicamente distribuído.
Na matemática temos o conceito de curvas, que nos ajudam a entender como um conjunto de dados se "materializa" no mundo real. Como sempre, um amontoado de dados não serve para muita coisa se não conseguimos entender o que eles significam. As curvas matemáticas nos ajudam nessa tarefa.
Um conjunto de dados com uma distribuição normal, é aquele onde os pontos são simetricamente distribuídos em relação à média. Então, antes de falarmos com mais detalhes sobre a distribuição normal, falemos sobre as medidas de tendência central, sendo a média uma delas.
Medidas de tendência central
Quando medimos algo no tempo, temos um conjunto de dados, que por sua vez, estão distribuídos aleatoriamente em relação às medições que foram feitas. Dados desorganizados não são muito úteis, exceto se estivermos querendo analisar dado a dado, o que se mostra inviável em grandes conjuntos de dados.
No geral, estamos tentando encontrar tendências no meio desses dados desorganizados para que a gente consiga entendê-los melhor e então, conseguir extrair informações que ajudam em nossa tomada de decisão.
As medidas de tendência central, incluindo a média, mediana e moda, são estatísticas sumárias que nos ajudam a compreender um conjunto de dados ao identificar um valor central ao redor do qual os dados tendem a se agrupar, daí o nome de medidas de tendência central.