Definindo e mensurando sucesso em produtos de IA

Produtos que utilizam inteligência artificial estão cada vez mais presentes e, quando entregam valor real para o usuário, costumam ter bastante sucesso. Mas você sabe exatamente como definir o que é sucesso para um produto de IA?

Não tem uma receita de bolo para isso - como para a maioria das coisas no universo de produtos (e na vida 😅). No entanto, vou trazer algumas perspectivas ao longo deste texto que podem te ajudar a avaliar se o seu produto está caminhando para a direção certa.

Disclaimer inicial: alguns conceitos técnicos e suas aplicações foram simplificados - tanto para fins didáticos, quanto por eu não ter o conhecimento necessário para abordá-los de forma mais profunda. O objetivo continua sendo compartilhar o que venho aprendendo ao longo de mais de 5 anos trabalhando em produtos de IA, e trazer mais clareza sobre o tema para pessoas não-técnicas.

Talvez você já tenha me ouvido dizer que produtos de IA não são tão diferentes de outros produtos digitais - e não são mesmo. Como product manager, você tem muitas métricas clássicas que vão te ajudar a entender a performance do produto como um todo - estou falando daqueles diversos frameworks que PMs estão super acostumados a utilizar no dia a dia e que medem KPIs como Ativação, Retenção, Aquisição, Receita, Engajamento etc.

Produto de IA ainda é produto! Então, sim, essas medições são muito úteis e todo o resto que você estudou e já aplica no seu dia a dia como PM continua sendo valioso na hora de medir a performance e mensurar o sucesso de uma feature. No entanto, fica cada vez mais claro que todo profissional vai começar a sentir a necessidade de adicionar mais uma caixinha de conhecimento dentro do seu arsenal, especialmente aqueles que lidam diariamente com aplicações de IA.

Dentro desse novo universo de informações, se estivermos falando de aplicações de inteligência artificial mais clássicas, antes da chegada dos LLMs e outros modelos generativos, você provavelmente vai precisar entender como um modelo de machine learning funciona e toma as suas decisões - pelo menos em alto nível.

👉 Escolhi deixar os generativos para um outro momento, uma vez que a avaliação da tomada de decisão é diferente, com suas próprias particularidades.

O critério de avaliação e seu impacto na experiência do usuário

Quando pensamos em modelos de inteligência artificial que fazem classificações, um ponto importante é entender o que é considerado certo ou errado para o modelo - isso envolve definir claramente um critério de avaliação. Em outras palavras, precisamos estabelecer os parâmetros e métricas de sucesso que guiarão o aprendizado da inteligência artificial. No nosso contexto, esse critério de avaliação vai dizer o que é considerado um resultado (ou uma previsão) bom ou ruim e, a partir disso, orientar as próximas correções e ajustes.

A forma com que esse critério de avaliação é definido influencia diretamente as ações da IA e, consequentemente, a experiência do produto. Se os parâmetros não estiverem bem estabelecidos, podemos encontrar comportamentos indesejados e previsões que vão totalmente na contramão das expectativas dos usuários, diminuindo consideravelmente a percepção de valor; por isso, mesmo que pareça algo muito técnico, é muito interessante que todas as especialidades de produto participem das discussões sobre como definir e configurar esses parâmetros, trazendo suas percepções a respeito do que realmente vai definir uma boa experiência naquele cenário.

De forma mais simplista e para deixar um pouco mais claro como as IAs podem acertar ou errar, vou trazer um exemplo de um modelo de classificação binária que, basicamente, tem o objetivo de prever se um exemplo pertence ou não a uma determinada categoria, com base em algumas regras. Quando esse tipo de modelo faz previsões, existem quatro outcomes possíveis a respeito do que foi previsto:

Verdadeiro positivo: quando o modelo faz uma classificação correta 👉 ele nos diz que banana É banana.
Verdadeiro negativo: quando o modelo classifica corretamente um exemplo como NÃO pertencendo a uma determinada categoria 👉 ele nos diz que banana NÃO é maçã.
Falso positivo: quando o modelo classifica incorretamente um exemplo 👉 ele nos diz que banana É maçã.
Falso negativo: quando o modelo classifica incorretamente como NÃO pertencendo a uma determinada categoria 👉 ele diz que banana NÃO é banana

Dependendo da natureza do seu produto, você vai querer definir pesos diferentes para cada uma dessas previsões - isso é uma decisão muito crítica e fundamental que vai dizer sobre a sua tolerância ao erro e impactar diretamente a experiência do usuário.

Talvez você esteja se perguntando “por que não deixar todas com o mesmo peso?” - e é realmente um pensamento válido; mas essa decisão precisa ser tomada levando em consideração o negócio como todo e o impacto que uma informação errada pode ter na experiência e, até, na vida dos seus usuários.

Por exemplo, em sistemas e produtos que tocam em temas sérios e sensíveis como saúde, segurança ou a vida financeira, um erro pode ter consequências graves - como um diagnóstico incorreto, uma falha na proteção de dados ou a aprovação indevida de uma transação fraudulenta. Nesses casos, o critério de avaliação deve ser projetado com muito mais rigor para minimizar riscos e garantir a melhor experiência e segurança para o usuário.

Por outro lado, em produtos voltados para experiência e descoberta, como um aplicativo que recomenda bares e restaurantes para você conhecer, os erros tendem a ter impactos menos críticos: se a IA sugerir um restaurante que o usuário não gosta, ele pode simplesmente ignorar a recomendação ou escolher outro local. Nesse caso, o critério de avaliação pode ser mais flexível, priorizando a variedade e a personalização para incentivar a descoberta e exploração de novos lugares.

Para tangibilizar um pouco mais, vamos imaginar que você é o PM de um produto da área da saúde, que usa um modelo de classificação binária para suportar o médico na hora do diagnóstico de uma determinada condição - vamos chamá-lo de MedDiag. Nesse contexto, teríamos quatro resultados possíveis ao classificar um paciente:

Verdadeiro positivo (VP): o modelo classifica corretamente o paciente como portador da condição - vamos supor que o modelo indica que o paciente tem determinada doença e isso é confirmado após exames clínicos.
- Consequência: a decisão de tratamento é tomada de forma rápida e baseada em dados de confiança. Isso reforça a credibilidade do sistema, ajudando o profissional a agilizar o atendimento e o paciente a receber os cuidados que precisa o mais rápido possível.
- Essa classificação é “verdadeira” porque é correta e é “positiva” porque diz que É algo.
Verdadeiro negativo (VN): o modelo acerta ao afirmar que o paciente não tem a condição - nesse caso, o modelo indica que o paciente não tem uma condição específica, o que é confirmado por exames posteriores.
- Consequência: o usuário (médico) tem segurança para descartar hipóteses desnecessárias, evitando tratamentos ou exames adicionais. Da mesma forma, isso também reforça a confiança no sistema e até ajuda o médico a priorizar quais pacientes deveriam ter suas condições melhor investigadas.
- Essa classificação é “verdadeira” porque é correta e é “negativa” porque diz que NÃO É algo.
Falso positivo (FP): o modelo indica, incorretamente, que o paciente tem uma determinada condição - aqui teríamos um “falso diagnóstico”, que seria desbancado por exames posteriores, sugerindo que o paciente está saudável e, na verdade, não possui a condição previamente diagnosticada.
- Consequência: nesse caso, tanto o médico quanto o paciente vão ter algum estresse - seja por levar mais tempo para desconsiderar um diagnóstico, por ter que fazer exames desnecessários ou, até mesmo, pelo estresse de receber um diagnóstico que, posteriormente, será revogado. Esse cenário certamente diminui a confiança do usuário no produto por causa de uma má experiência.
- Essa classificação é “falsa” porque é incorreta e é “positiva” porque diz que É algo.
Falso negativo (FN) : o modelo deixa de indicar que o paciente possui a condição quando, na verdade, deveria.
- Consequência: esse é o cenário mais crítico, no contexto deste produto, uma vez que atrasar um diagnóstico ou deixar de indicar um tratamento, pode ter graves implicações clínicas. Nesse caso, a experiência é a pior possível, tanto para o médico, quanto para o paciente, levando a quebra de confiança no produto e, possivelmente, perda de usuários.
- Essa classificação é “falsa” porque é incorreta e é “negativa” porque diz que NÃO É algo.

No contexto do MedDiag, dependendo do tipo de condição que o produto auxilia a diagnosticar, o peso de cada erro (FP, FN) pode variar enormemente. Em muitos cenários de saúde, o falso negativo é o mais perigoso, pois ignorar um problema de saúde pode ocasionar complicações sérias ao paciente. Logo, é comum que o critério de avaliação seja desenhado para minimizar os falsos negativos.

Por outro lado, um falso positivo pode não ser tão crítico em certas especialidades, resultando apenas em exames ou questionários adicionais. Entretanto, quando o volume de FPs é muito alto, o médico pode ficar sobrecarregado, desperdiçar recursos e passar a questionar a efetividade do sistema.

Em outros contextos, no entanto, o peso de cada uma dessas métricas pode mudar, pois as consequências de uma classificação incorreta podem ser insignificantes frente aos benefícios de uma classificação correta.

Precisão e Recall: como medir a qualidade das classificações

Além dos quatro resultados possíveis em um modelo de classificação, existem duas métricas importantes para entender o desempenho do seu modelo: precisão e Recall. Eles nos ajudam a determinar como a inteligência artificial faz as suas classificações e, também, os tipos de erro que os usuários podem experienciar.

Duda Bona: Product Manager at Take Blip. Enthusiast of the “AI Driven Products” concept, passionate about technology and the possibility of impacting people with my work.