O perigo de aprender (só) com os sucessos
Você sabe o que é o viés do sobrevivente? Como ele pode impactar a qualidade das análises da sua área de dados?
Existem diversos vieses que acometem os modelos e análises. Alguns são intrínsecos dos modelos, outros, decorrentes de como obtemos, estruturamos e tratamos os dados. Para citar alguns vieses conhecidos: viés de predição (que resulta no tradeoff viés-variância), o viés de confirmação, em que se seleciona apenas dados que confirmem uma hipótese (consciente ou inconscientemente); o viés de seleção, em que nem todas as amostras relevantes são consideradas no modelo (fazer um modelo de renda média da população brasileira usando apenas residentes em São Paulo, por exemplo). São todos vieses interessantes e provavelmente escreverei sobre eles.
Mas quero falar sobre um viés particularmente difícil de perceber e que pode afetar muito a qualidade de diversas análises, e vou trazer exemplos concretos de como nos afetou e como minimizamos.
Um dos exemplos mais emblemáticos desse viés remonta à Segunda Guerra Mundial, durante a análise de aviões que voltaram de combate. Foi percebido que aviões que voltavam de combate tinham muitos tiros em sua fuselagem nas regiões próximas das extremidades das asas, da cauda traseira e no corpo central, mas longe do cockpit do piloto. Foi sugerido que se reforçassem estas partes, uma vez que eram as áreas mais alvejadas.
Entretanto, reforçar estas regiões seria muito provavelmente um erro, pois o conjunto de dados estava enviesado, levando em conta apenas a informação referente aos sobreviventes, ou seja, as aeronaves que voltaram. Uma parte importante da informação havia se perdido. O viés do sobrevivente, em resumo, é um tipo de viés de seleção em que apenas os dados dos vencedores, ou dos que obtiveram sucesso, são considerados.
Outro exemplo comum de viés do sobrevivente são as fórmulas de sucesso baseadas apenas nas histórias do tipo “faça x, y, z como Bill Gates, Warren Buffett etc.”. Usar as histórias de sucesso como uma regra para obter sucesso ignora um potencialmente grande número de histórias de fracasso que podem ter seguido as mesmas regras daqueles que obtiveram sucesso. Não é que não existem lições a serem aprendidas, mas, para se obter ganho real de informação, é importante ver também as histórias de fracasso.
O viés do sobrevivente é um caso de confusão entre correlação e causalidade. Não necessariamente duas coisas correlacionadas entre si são uma causa da outra ou vice-versa. Existem correlações espúrias por todos os lugares. Identificar traços e características que ocorrem entre sobreviventes (correlação) não quer dizer que a sobrevivência ocorreu por causa desses traços e características (causalidade).
Viés do sobrevivente no contexto de dados
Me deparo com diversas análises e é impressionante como muita coisa vem acompanhada do viés do sobrevivente. Seguem alguns exemplos que me deparo no cotidiano.
Alta recompra nos estados em que diminuímos anúncios
Entre final de 2021 e início de 2022 fizemos um estudo de rentabilidade por estado e decidimos concentrar mais esforços de marketing em alguns estados do que outros. Os critérios utilizados para seleção consistiam em: pagamento de boletos, taxa de recompra, custo de aquisição de clientes, taxa de conversão e custo de entrega. Avaliamos as recompras das UFs que foram selecionadas de acordo com estes critérios e vimos que as recompras eram realmente quase 5% maiores que aquelas que não foram selecionadas.
Alguns meses depois, reavaliamos todo o estudo para verificar se fomos assertivos ou não e o resultado surpreendeu: as recompras das UFs selecionadas eram agora 5.2% menores do que dos estados que reduzimos os investimentos em anúncios. Nos perguntamos: será que o que tínhamos visto era apenas variabilidade e tomamos decisões usando dados incertos?
Fizemos um deep dive nos dados e verificamos que as diferenças eram significativas tanto antes quanto depois e vimos também que não era só uma questão de variabilidade ou volatilidade dessas métricas, mas que, de fato, as recompras das UFs que não foram selecionadas estavam maiores. Avaliamos alguns estados com poucas compras para entender o comportamento das clientes e pudemos ver alguns casos interessantes:
- Algumas clientes adquiridas muito anteriormente se tornaram clientes fiéis, comprando com boa regularidade;
- A proporção de clientes orgânicas aumentou significativamente.
Logo, o que acontece é: ao reduzir os investimentos, as clientes que permanecem comprando são clientes já recompradoras que foram adquiridas anteriormente ou clientes recentes, mas adquiridas organicamente, que já têm uma tendência a maior aderência à marca. Um claro caso de viés do sobrevivente.
Previsão de resultado de anúncios
Nos diversos modelos que fizemos para prever resultados de anúncios, vimos que uma das variáveis que mais se destacavam era a quantidade de dias em que o anúncio estava ativo. Alguém desavisado poderia imaginar que os algoritmos favorecem anúncios que permanecem ativos, ou que, conforme passa o tempo e o anúncio é impresso mais vezes, aumentam as chances de obter um bom resultado de anúncio.
Mas, na prática, não é isso que acontece. Sabemos que os anúncios fadigam depois de um tempo, e, até onde sabemos, não há nada no algoritmo que favoreça anúncios que permanecem mais tempo. O que estamos vendo é claramente um caso de viés do sobrevivente. Os anúncios que ficam mais ativos é porque tiveram resultados bons no passado, o que aumentam suas chances de permanecer mais tempo ativo.
Podemos ver o quão significativo é o impacto dos dias ativos no ROAS. Para isso, agrupamos os anúncios em relação a quantidade de dias que ficaram ativos, de 10 em 10 dias (1 a 10 dias, 11 a 20 etc.) e calculamos o ROAS médio para cada uma desta faixa de dias. Como queremos saber só o quanto variou, dividimos tudo pela média dos ROAS de 1 a 10 dias (ROAS referência).
Como podemos ver na figura abaixo, os anúncios que ficam acima de 31 dias, nas 3 últimas categorias, tiveram quase o dobro de ROAS dos que ficaram 1 a 10 dias. Se isso fosse uma relação de causalidade, poderíamos dobrar nossa rentabilidade só aguardando os anúncios “amadurecerem”.
O que fazer para identificar e evitar o viés do sobrevivente?
Identificar o viés nem sempre é fácil, uma vez que estamos acostumados a assumir as evidências que temos como sendo toda a evidência, uma fotografia completa do fenômeno, enquanto, na verdade, temos acesso apenas a aquilo que chegou até nós e que escolhemos (muitas vezes inconscientemente) absorver como evidência.
O melhor jeito de identificar é conhecer o que se está estudando (no nosso caso, de análise de marketing digital), conhecer os porquês, os conceitos, a teoria e se perguntar: isso faz sentido? Se não fizer sentido, é necessário olhar sob outras perspectivas e ver se elas confirmam ou rejeitam o achado inicial. Nunca confie em uma única forma de mensurar algo.
Para evitar o viés do sobrevivente há algumas estratégias:
- Remover as variáveis que podem carregar esse viés (nem sempre é possível ou desejável);
- Fazer comparações entre grupos similares (por exemplo, comparar apenas anúncios que tenham ficado quantidades de dias similares, filtrar anúncios muito curtos ou muito longos etc.);
- Incorporar o viés à compreensão do fenômeno. Fazer isso é arriscado, mas, muitas vezes, queremos saber o resultado mesmo levando em consideração esse viés. O risco é a informação de que esse viés está presente se perder e levar à compreensões erradas do fenômeno.
- Não analise apenas os sucessos. Aprenda e entenda as falhas. Aprender com os sucessos é confirmar uma hipótese / visão (é importante, mas não suficiente para adquirir conhecimento). Entender as falhas permite rejeitar hipóteses.
O viés do sobrevivente é em essência impossível de eliminar, uma vez que os dados que escolhemos registrar e armazenar já representam em alguma medida uma seleção do universo de dados que poderiam ser registrados e armazenados. O melhor que podemos fazer é minimizar seu impacto e estarmos conscientes de quando ele está presente e como isto pode afetar nossa compreensão do problema.