O GPS Ideológico, ferramenta da Folha que acompanha a discussão política no Twitter, leva em conta duas etapas de análise, interligadas.
Quem a pessoa segue e por quem é seguida são as informações essenciais para o modelo.
Primeiramente, analisa-se potenciais perfis-influenciadores. A reportagem escolheu para essa etapa os deputados federais, senadores, ministros, veículos de imprensa e outros perfis que falavam de política na rede social (e que possuíam ao menos dois mil seguidores).
A ideia era identificar grupos que podem definir bem a polarização política.
O modelo estatístico, então, analisa a afinidade dos seguidores desses perfis-influenciadores iniciais, para sugerir outros perfis que também podem ser bons marcadores de posicionamento político e que tenham sido esquecidos.
Ao grupo inicial, foram acrescentados 256 perfis, chegando a um grupo de mil influenciadores.
Todos eles podem ser colocados numa reta de acordo com a tendência de seus seguidores seguirem as mesmas pessoas. Assim, dois influenciadores que possuem tendência de serem seguidos por um grupo de pessoas ficam mais próximos; perfis que têm seguidores muitos distintos ficam mais distantes.
Essa reta reflete polos do debate político atual, um mais identificado com discursos progressistas e de esquerda e outro de direita e conservador.
No gráfico abaixo, estão mil desses perfis considerados influenciadores.
Em síntese, significa que alguém que segue somente Olavo de Carvalho e Alexandre Frota está em um polo, e quem segue Fernando Haddad e José de Abreu, no outro.
O modelo estatístico, desenvolvido inicialmente pelo pesquisador Pablo Barberá (London School of Economics), permite então posicionar todos os usuários do Twitter nessa reta ideológica.
O algoritmo considera quais dos influenciadores cada usuário segue.
O GPS Ideológico analisou apenas os usuários no Brasil que tuitaram ou retuitaram em 2019, em português, pelo menos cem vezes e seguiam ao menos três dos perfis-influenciadores.
A ideia era definir se a conta estava ativa e recebendo conteúdo político.
Foi aplicada também uma ferramenta para excluir da análise os robôs mais evidentes (foram analisados frequência de posts, número de contas que segue, relação de posts originais com retuítes, entre outros.
Passaram por todos esses filtros 1,7 milhão de usuários, que passou a ser o universo para análise.
As informações foram coletadas entre 26 de março e 2 de maio.
A reportagem testou essa categorização dos perfis no Twitter com outras informações, para verificar se a classificação feita pelo algoritmo estava robusta.
O resultado do GPS Ideológico é condizente com a comparação com os resultados eleitorais e perfil dos deputados.
Os 1,7 milhão de usuários foram divididos em 20 grupos (cada um com 5% do universo estudado), também do mais à direita à mais esquerda. A separação em grupos menores foi feita para haver análise mais focada de cada espectro.
Para algumas análises, a reportagem juntou alguns desses grupos. Quando se analisa quanto os 5% mais radiciais de direita estão fechados em si, considerou-se quanto eles seguem ou retuítam do grupo 20% mais à direita.
A mesma lógica foi aplicada para a esquerda e para o centro.
Metodologia completa
A metodologia desse projeto é baseada no artigo "Tweeting From Left to Right: Is Online Political Communication More Than an Echo Chamber", de Pablo Barberá e colaboradores.
1. Iniciamos esse projeto com uma lista com os perfis do Twitter de agentes políticos (deputados federais, senadores, ministros, prefeitos de capitais, governadores, mídia, influenciadores etc).
2. Removemos agentes políticos que tinham menos de 2 mil seguidores.
3. Obtivemos a lista de seguidores desses perfis.
4. Removemos seguidores que não havia postado em 2019; tinham menos de 20 seguidores; tinham feito menos de 200 posts desde que criaram a conta.
5. Obtivemos os cem últimos posts dos seguidores.
6. Removemos seguidores que, segundo análise desses cem últimos posts, tinham mais de 95% de chance de serem bots utilizando a função "botornot" do pacote tweetbotornot em R.
7. Removemos seguidores que tinham menos de 75% dos posts em português.
8. Fizemos uma matriz de adjacência entre os agentes políticos e seguidores, ou seja, uma tabela em que cada coluna representa um agente e cada linha um seguidor.
9. Utilizando 100 mil linhas sorteadas entre os seguidores que seguiam pelo menos 10 agentes calculamos o ponto ideal dos agentes e desses seguidores usando a função "ca" do pacote "ca" em R (com a opção nd = 3).
10. Sorteamos 500 contas entre as 20% com o ponto ideal dos seguidores mais à direita e 500 contas entre as 20% mais à esquerda.
11. Buscamos todas as contas que essas mil contas seguiam.
12. Calculamos a diferença entre o número de seguidores de cada uma das contas entre direita e esquerda.
13. Selecionamos 500 contas seguidas mais pela esquerda do que pela direita e 500 contas seguidas mais pela direita do que pela esquerda.
14. Obtivemos os últimos 3,2 mil posts dessas mil contas.
15. Por meio de palavras-chave (como Bolsonaro, Lula, deputado, senador, STF) filtramos contas em que menos de 5% desses posts falavam de política ou que não tinham pelo menos 25% dos posts em português.
16. Das contas restantes selecionamos as 256 com maior diferença entre seguidores de cada lado (128 da esquerda e da direita). Totalizando 1.000 contas de influenciadores.
17. Essas contas foram adicionadas aos influenciadores do passo 1.
18. Repetimos os passos 3 ao 8, no final gerando uma nova tabela de adjacência com mais seguidores e influenciadores.
19. Essa tabela foi usada para projetar os novos influenciadores e seguidores na mesma dimensão dos pontos ideais calculados no passo