Victor Lira |27 de maio de 2020
Um dilema comum dentro das empresas: precisamos enviar uma campanha para nossa base de usuários (ou assinantes, ou cadastrados) e temos que decidir entre duas alternativas. Como escolher entre elas?
“Ah não, isso não é mais um artigo sobre teste A/B, é?” Você pode apostar que sim! Mas não se preocupe, não vai ter contas e números aqui (tudo o que você precisa para usar o que aprender nesse artigo estará em uma conveniente planilha de Excel®). O foco vai ser mais conceitual.
Vamos começar entendendo por que devemos fazer um teste, depois ver por que testar com um número adequado de usuários, e, por fim como fazer a “conta” (por sorte, sem cálculos).
Por um simples motivo: gosto não é uma coisa universal e objetiva. O seu objetivo é mandar uma mensagem que faça sentido para seus usuários, não necessariamente para você. E a única forma de entendermos como nossos usuários reagem é perguntando – indiretamente – para eles.
Ao mesmo tempo, não dá para dizer que todo experimento parte de uma folha em branco: é óbvio que alguns tipos de mensagem são mais bem vistos pela população em geral do que outros. Para pensar em um caso simples: ao final de uma partida de futebol entre dois times com torcidas gigantes, você deve mandar uma mensagem fazendo brincadeira com o perdedor para a sua base? Os torcedores do time podem não gostar e quem não gosta de futebol pode achar de mau gosto.
Esses dois fatores devem ser levados em consideração na hora de montar um teste para comparar duas mensagens:
1. O quanto nós sabemos sobre os nossos usuários
2. O quanto nós não sabemos sobre os nossos usuários
Digamos que você tenha que descobrir qual de duas moedas é desbalanceada para tirar cara ou coroa (ou seja, tem chance maior de sair cara do que coroa). Se você sabe que a moeda desbalanceada não é nem um pouco aleatória, por algum motivo ela sempre cai cara ou sempre coroa, então basta jogar as duas moedas 2 ou 3 vezes cada para que fique claro qual é a injusta (vai ser a que deu a mesma coisa todas as vezes).
Agora, se você sabe que a moeda injusta tem 51% de chance de sair para o lado com vantagem, mesmo depois de jogar as duas moedas 100 vezes não vai estar claro qual das duas é desbalanceada: a moeda normal deve ter dado cara ou coroa mais ou menos 50% das vezes, também.
Sua intuição (de chutar que a que deu mais vezes o mesmo resultado é a desbalanceada) está “certa”, mas você com certeza não teria muita confiança nisso. E se você não soubesse quão grande é a diferença entre as chances da moeda desbalanceada com as da normal, você jogaria até estar razoavelmente certo de qual é a desbalanceada. Se fosse grande, você pararia depois de poucas rodadas. Se fosse pequena, depois de muitas.
A comparação com um jogo de cara e coroa é bem apta para um teste de engajamento: os usuários podem clicar (ou fazer uma ação qualquer) ou não clicar na nossa mensagem. E assim como as moedas no último caso, nós não temos certeza, antes de testar, quão melhor uma é do que a outra. Mas podemos ter uma ideia e quanto mais confiamos nessa ideia, menos precisamos de confirmação para estarmos certos do que fazer.
Baixe a tabela neste link para começar: https://painel.flowsense.com.br/wp-content/uploads/2020/05/TesteAB_Simplificado.xlsx
Nessa seção, da célula B2 a E3, nós vamos dizer para o teste o que a gente “acha”. A planilha está construída de forma que fica mais natural considerar que a mensagem “A” é a nossa mensagem padrão, mas na verdade isso não importa muito.
Caso você tenha um CTR histórico, coloque no lugar do CTR esperado de A, junto com uma faixa mais ou menos abrangente (ou seja, que compreenda a grande maioria dos CTRs que você costuma ter com essa mensagem). Caso você nunca tenha feito essa mensuração antes, use algum valor de 2% a 10%, com uma faixa de variação de 1% a 3% (não se preocupe, essa incerteza maior vai ser compensada com uma necessidade de uma base de teste maior).
Para o caso B, que estamos supondo ser uma variedade nova (mas caso não seja e você tenha um histórico para esse segundo formato, pode preencher conforme descrevemos no caso A), podemos ter uma expectativa diferente do CTR (nessa imagem, estamos otimistas, achamos que ele vai ser 20% melhor), mas ao mesmo tempo, como não temos muitas informações, precisamos ser um pouco mais conservadores, e colocar uma faixa maior. O efeito disso vem no próximo passo.
Nessa seção, das células B6 a C7, nós já teremos um valor sugerido para o tamanho do teste (a fórmula para determinar esse valor vai ser discutida em um artigo futuro, por enquanto vamos nos focar no procedimento). Esse valor é limitado a 20% do tamanho da sua base, porque algum teste já é melhor do que nenhum e não há necessidade de “queimar” toda a base rodando o teste.
Definida a quantidade de envios para cada variante da mensagem, agora é hora de escrever o seu email, push ou engajamento e enviar. Quanto tempo esperar para considerar o resultado final vai depender do tipo de contato e da sua base, então sugerimos definir isso com antecedência para não ficar lendo demais as variações diárias. Como estamos fazendo esse procedimento para mandar a mensagem para o grosso da base de usuários, muitas vezes teremos que nos contentar com um dia, ou talvez até algumas poucas horas.
Com o resultado em mãos, preencha as células H11 e J11 com os números de cliques (ou interações, ou qualquer que seja a medida de sucesso) da mensagem A e da B, respectivamente.
Depois de todo esse trabalho (nem foi tanto, não é mesmo?), nós finalmente temos a conclusão. Não vamos explicar neste artigo como exatamente chegamos a esses valores (isso é tema para depois), mas vale a pena gastar um tempo entendendo o que esses números significam.
Lembra quando dissemos que a planilha foi pensada para o caso de termos uma mensagem padrão A e uma “competidora” B? É só por isso que esse resultado está escrito dessa forma. Basicamente, isso é o quão certos nós devemos estar de que B é, realmente, melhor do que A. Mas esse número não diz muita coisa sobre quão melhor B é. Isso é trabalho para o próximo valor
Agora sim, isso é o que buscávamos desde o começo! O que esse valor aqui diz é que, se A na verdade tem um CTR de X% (que pode ser diferente daquele inicial que nós tínhamos antes de fazer o teste para averiguar), nós esperamos que na média o CTR de B seja (X+Y)% (nesse caso da imagem, Y é 3.68). Então se A era realmente 2%, nós esperamos um CTR de 5.68% para B
Esse aqui é o mais difícil de interpretar (não, não é o velho “intervalo de confiança” das aulas de estatística, mas é primo dele), mas nos dá uma ideia da incerteza que devemos ter em relação ao quanto B é realmente melhor do que A. Com 95% de probabilidade, entendemos que essa melhoria vai de 1.60% a 5.78% (ou seja, se A era 2%, o CTR de B quase com certeza está entre 3.6% e 7.78%!).
Agora que você já sabe como fazer o famigerado Teste A/B (e viu que não é tão difícil), pode partir para avaliar como a sua base de usuários responde às suas mensagens antes de arriscar tudo em uma só!
Mas, se você se interessa pelo assunto, pode esperar que em artigos futuros passaremos por pontos importantes como:
Aqui na Flowsense sabemos que a mensagem certa, no momento certo é essencial para gerar engajamento e relevância ao seu App, por isso a importância de realizar testes e análises. E se você precisar alavancar os resultados da sua operação mobile, é só marcar um bate-papo com o nosso time para saber como podemos ajudar!