Em 2 de maio de 2014, o USS Blue Ridge, navio de comando da Sétima Frota da Marinha dos Estados Unidos, estava patrulhando as águas do Mar do Sul da China. A inteligência detectou o que parecia ser uma grande formação de navios na área conhecida como Zona Econômica Exclusiva (ZEE) vietnamita. Os dados de uma intrincada rede de dispositivos de vigilância implantada na região tinham sido exibidos no Sistema de Comando e Controle Naval Global, conhecido como “Geeks”.
Andreas Xenachis estava trabalhando naquele dia, liderando seis analistas em um “watch floor”, termo que designa os grupos rotativos que monitoram e analisam a inundação de dados provenientes da operação C4I – sigla para comando, controle, comunicação, computadores e inteligência. Sua equipe era responsável por inserir todos os dados no Geeks, o que significava uma dança complexa de recepção, recuperação e exibição de dados sobre movimentos de navios, dados de satélite, sinais de radar e boletins eletrônicos. Eles também eram responsáveis por fornecer ao comandante da frota uma noção em primeira mão sobre o que os dados estavam indicando e o possível perigo para qualquer um dos 80 navios, centenas de aeronaves e dezenas de milhares de pessoas sob seu comando.
Nunca ninguém da equipe tinha visto uma formação de pontos na tela de radar como a que o Geeks mostrava naquele momento. Os pontos pareciam estar dispostos numa formação de proteção em fileiras, algo tipicamente usado por frotas militares. Poderia ser uma operação militar chinesa? Seria a preparação de um ataque? Ou apenas algum tipo de exercício marítimo?
China, Taiwan, Vietnã, Malásia, Brunei e Filipinas têm reivindicações territoriais no mar do Sul da China, e cada um contesta a reivindicação dos outros. O interesse não é de admirar: há 11 bilhões de barris de petróleo e uma abundância de gás natural, e consequentemente um enorme interesse por recursos energéticos na região. A China, exercendo sua força econômica, construiu de forma agressiva uma série de instalações militares que se estendem por grande parte do mar, e a cercou de ilhas artificiais equipadas para abrigar uma frota crescente de navios de guerra, cortadas por pistas de pouso para caças. Apesar dos fortes protestos dos países vizinhos, a China prossegue ambiciosamente com a perfuração de petróleo no terreno em disputa.
Em face dessa agressão, a Marinha dos Estados Unidos intensificou as patrulhas no local, procurando assegurar a liberdade de navegação garantida pelo direito internacional. Várias provocações já tinham sido dirigidas a navios dos Estados Unidos por navios chineses. Em 2009, embarcações de pesca chinesas, conhecidas por cumprir demandas do Estado, tentaram cortar cabos subaquáticos conectados a uma matriz de sonar dos Estados Unidos. Mais tarde naquele ano, um submarino chinês colidiu com um submersível norte- -americano que estava realizando vigilância subaquática perto das Filipinas.
Os dados do C4I não eram conclusivos para que a equipe de turno pudesse avaliar exatamente o padrão exibido e aconselhar o comandante. Era preciso um julgamento especialmente bem-fundamentado sobre o nível de ameaça potencial; o mar do Sul da China é um lugar inflamável, onde um movimento errado pode facilmente se transformar em um grande conflito.
Com muita cautela, Xenachis e a equipe discutiram o espectro de situações e explicações que poderiam elucidar a densa formação de navios que viram. Eles consideraram toda a inteligência coletada, e todo o conhecimento a respeito, e após a análise das circunstâncias completas em jogo naquele lugar, concluíram conjuntamente que o grande objeto em torno do qual os navios menores estavam dispostos era uma plataforma petrolífera chinesa, cercada por dezenas de barcos de pesca, bem como por navios da guarda costeira chinesa e de escolta militar. Mais tarde, isso se confirmou: a estatal China National Off shore Oil Corporation estava transportando sua enorme plataforma de perfuração de profundidade Haiyang Shiyou 981 (HYSY) para um local ao largo das ilhas Paracel – reivindicadas por Vietnã, China e Taiwan. [Não era uma operação militar, portanto.]
O impasse da HYSY 981, como o incidente se tornou conhecido, é representativo dos limites do que as vastas quantidades de dados hoje coletadas podem fornecer em termos de informações valiosas. O sistema Geeks é de fato uma ferramenta robusta, que fornece inestimáveis informações em tempo real sobre os movimentos dos navios em todos os mares. Mas esses dados devem ser interpretados com a sabedoria da experiência humana e da resolução criativa de problemas.
A formação em ciências humanas de Xenachis o preparou bem para liderar sua equipe nesse processo. Longe dos estudos de tecnologia, ele se especializou em ciências políticas com graduação na Yale University, e em política internacional na Fletcher School of Law and Diplomacy da Tufts University. Após a formatura, assumiu assumiu um cargo na Brookings Institution, em Washington, onde trabalhou como assistente especial do presidente, aperfeiçoando sua habilidade analítica. Aos 31 anos, compelido a servir o país que dera tantas oportunidades a um imigrante da Romênia como ele, juntou-se à Marinha dos Estados Unidos – atuou inicialmente em uma equipe como analista, e logo foi promovido a oficial de vigilância da frota a bordo do USS Blue Ridge.
Uma das atitudes mais importantes para que nós, humanos, sigamos em frente é ajudar a melhorar as novas tecnologias naquilo que elas fazem. Isso não quer dizer que o conjunto STEM [sigla em inglês de ciências, tecnologias, engenharia e matemática] seja menos importante, mas que, à medida que nossas tecnologias se tornam mais acessíveis, nossa capacidade de aplicá-las de forma significativa se torna fundamental. A oportunidade de reforçar o poder da tecnologia e aplicá-lo de modo mais frutífero é um campo aberto.
Em 2011, o psicólogo Philip Tetlock, professor de gestão, psicologia e ciência política da Wharton School, da University of Pennsylvania, lançou, com sua mulher, a pesquisadora Barbara Mellers, e o economista Don Moore, o Good Judgment Project [Projeto Bom Senso], um dos esforços mais emocionantes para maximizar a combinação da inteligência humana e da experiência em campo com o volume maciço e a riqueza dos big data que estão sendo coletados hoje.
[O projeto surgiu para enfrentar o desafio do programa Aggregative Contingent Estimation – ACE, que a agência do governo norte-americano Iarpa, que conduz pesquisas na área de inteligência, lançou em 2010 para “aumentar drasticamente a exatidão, a precisão e a pontualidade das previsões de inteligência em uma ampla gama de tipos de eventos”, fazendo isso com eventos de política externa como a probabilidade de inspeções de armas químicas na Síria ou a chance de uma mulher ser nomeada secretária-geral das Nações Unidas.]
Durante duas décadas, Tetlock havia explorado as características e as armadilhas da forma como os especialistas tomam decisões, combinando os insights qualitativos da psicologia e da ciência política com os métodos quantitativos de análise para avaliar a opinião de especialistas – em particular, para determinar quando essa opinião é confiável e quando tende a falhar. O consenso na Iarpa, por sua vez, é que a resposta seria uma solução de big data, o que significa que seria encontrada pela aplicação de análises matemáticas sofisticadas a vastas quantidades de dados. Para resolver o desafio, a Iarpa deu aos participantes acesso a um grande banco de dados composto de dados históricos sobre conflitos e permissão para usarem qualquer metodologia que julgassem adequada.
Várias equipes [do desafio] contrataram especialistas em análise de dados das principais instituições acadêmicas nos Estados Unidos e buscaram soluções puramente tecnológicas, incorporando uma série de técnicas analíticas, que incluíam o machine learning, ou aprendizado de máquina. A equipe de Tetlock adotou uma abordagem diferente: além dos últimos desenvolvimentos em ciência de dados, buscou a contribuição de milhares de colaboradores humanos com uma vasta gama de experiências, incluindo o histórico de Xenachis com os movimentos dos navios. Usou análises de alto nível para realizar uma investigação inicial dos dados, mas também considerou o expertise humano. Os resultados da competição foram surpreendentes.
O Good Judgment Project foi a única equipe que mostrou uma melhoria significativa na previsão de eventos em relação ao grupo de controle, que usou o método preexistente. “As outras equipes não estavam melhorando em relação às referências. Apesar de possuírem algoritmos técnicos sofisticados, elas estavam deixando passar alguma coisa. O que eu acho que estava faltando era um elemento humano”, explicou Xenachis.
Os resultados foram tão impactantes que a Iarpa recolheu o dinheiro que havia dado a outras equipes e entregou tudo ao grupo Wharton para expandir seu programa. O presidente do Conselho Nacional de Inteligência e outros, como o professor de direito de Harvard e ex-assessor da Casa Branca Cass Sunstein, elogiaram publicamente o programa. Sunstein chegou a dizer que foi o estudo científico mais importante que já lera sobre previsão. O colunista do New York Times David Brooks afi rmou que, se fosse presidente, gostaria de ter previsões como as fornecidas pelo GJP em sua mesa.
Hoje, o Good Judgment Project está capacitando uma série de tomadores de decisão dos setores público e privado para treinar seus próprios especialistas em previsão, que podem ajudá-los a prever evoluções para as quais precisarão estar preparados. Andreas Xenachis agora dirige a equipe do governo.
“O interessante”, ele refletiu sobre a competição da Iarpa, “foi haver uma suposição inicial que questionava: ‘Como podemos automatizar isso? Como podemos tirar o fator humano do circuito?’. Havia esse pensamento de que poderiam tornar o humano supérfluo. Eu acredito na inovação, mas também acredito que não devemos nos submeter às soluções tecnológicas ao ponto de tirar o ser humano da equação – quando muito ainda temos um significativo valor agregado”.
Com o GJP agora expandindo seu alcance ao setor privado, suas novas pesquisas em previsão incluem falhas nas inovações de veículos. Em parceria com o Program on Vehicle and Mobility Innovation da Wharton School, está pesquisando previsões sobre as atualizações de software do sistema de piloto automático da Tesla e a adoção de veículos elétricos na China. Mais uma vez, estão sendo combinados o fuzzy e o techie, desenvolvendo um progresso bastante real em big data, complementado pelas ciências sociais.
**A SIMBIOSE – CASOS DA PALANTIR**
O novo poder de aprendizado da máquina substituirá completamente o papel humano na análise de dados? Alguns cronistas dos tempos atuais – como Chris Anderson, ex-editor-chefe da revista _Wired_ – sustentam isso. Uma série de avanços no desenvolvimento de tecnologias “inteligentes” nos últimos anos levou ao argumento de que muitas capacidades humanas já foram superadas pelas máquinas, ou logo o serão.
Eu acredito que o cenário mais provável é que os seres humanos encontrarão maneiras melhores e mais eficientes de aproveitar o poder do big data e do aprendizado de máquinas para ajudá-los a lidar com uma série de problemas pendentes que estão clamando por melhores análises, mas exigem máquinas e humanos para enfrentá-los. Em meados do século passado, J.C. Licklider, professor do MIT, defendeu que as máquinas complementariam as habilidades dos seres humanos em vez de substituí-las. Licklider plantou as sementes fundamentais para desenvolvimentos importantes na área, incluindo o conceito de computadores pessoais, a importância da interação homem-computador e até a internet. Ele influenciou quase todos os aspectos da tecnologia de hoje. Em seu notável ensaio de 1960, “Man-Computer Symbiosis” [Simbiose homem-computador], Licklider argumentou que não haveria um apocalipse robótico, mas que “a parceria resultante pensará como nenhum cérebro humano jamais pensou e processará dados de uma maneira que não foi abordada pela informação manuseada por máquinas que conhecemos hoje”.
**SAIBA MAIS SOBRE SCOTT HARTLEY**
“Precisamos de mais techies em instituições tradicionalmente fuzzies, como o governo, e precisamos de mais fuzzies erguendo empresas de tecnologia.” Essa é a bandeira que o capitalista de risco e ex-funcionário de Google e Facebook Scott Hartley levanta em seu livro O Fuzzy e o Techie , lançado pela Bei Editora – fuzzy e techie são termos usados para descrever, respectivamente, os alunos das ciências humanas e sociais, de um lado, e os da engenharia e ciências exatas, de outro, na Stanford University, nos EUA, onde Hartley se graduou em administração (humanas), sendo, como se autodenomina, um “fuzzy em um mundo techie” – depois, ele fez mestrado em negócios internacionais na Columbia University, novamente uma opção por humanidades.
Hoje o mundo dos negócios repete que pessoas versadas nas ciências humanas clássicas não estão preparadas para o sucesso na economia do amanhã, e pede prioridade para disciplinas de ciência, tecnologia, engenharia e matemática [STEM, na sigla em inglês].
Como escreve Hartley, a divisão atual entre humanistas e tecnicistas “é uma encarnação moderna do hiato formado entre as humanidades e as ciências pelo famoso ensaio As duas culturas . Seu autor, o naturalista e escritor Charles Percy Snow, lamentou ter contribuído para o hiato e defendeu que se erguessem pontes entre os treinados nas chamadas artes liberais e os treinados em tecnologia e ciências. Hartley também lamenta e enfatiza que, mais do que nunca, uns precisam dos outros.
Um exemplo dessa simbiose é a Palantir Technologies de Shyam Sankar. A Palantir é uma empresa de US$ 20 bilhões que projeta plataformas de análise para capacitar especialistas nos campos da segurança, da aplicação da lei e da elaboração de políticas, permitindo combater a criminalidade e o terrorismo global de forma mais eficiente ao alavancar a ciência de dados. A empresa é contratada por algumas das agências de “três letras” mais secretas.
Os “engenheiros em posições avançadas” da Palantir, como as pessoas da empresa são conhecidas, podem facilmente encontrar-se configurando painéis analíticos atrás das linhas inimigas, trabalhando diretamente com comandantes de operações especiais. Inclusive, em 2016, a Palantir ganhou um contrato de US$ 222 milhões para trabalhar com o Comando de Operações Especiais dos Estados Unidos.
Sankar obteve seu diploma de graduação em engenharia elétrica e informática na Cornell University, e fez um mestrado em gestão e engenharia em Stanford. Ele é o techie dos techies. Mas acredita na visão de J. C. Licklider de complementar a inteligência humana, a intuição e o reconhecimento de padrões com poderosas análises feitas por máquinas. A fi losofi a de Sankar é que o aumento da inteligência humana é o único meio de se manter à frente de adversários tão adaptáveis quanto grupos terroristas. “Os terroristas estão sempre se adaptando, em menor ou maior escala, a novas circunstâncias”, observou Sankar no palco do TED Global em 2012, em Glasgow. “Apesar do que você vê na TV, essas adaptações e suas detecções são fundamentalmente humanas. Os computadores não detectam padrões inovadores e novos comportamentos, os seres humanos, sim: humanos usando tecnologia, testando hipóteses e buscando insights ao demandar as máquinas realizarem tarefas para eles. Osama bin Laden não foi capturado pela inteligência artificial. Ele foi pego por pessoas dedicadas, engenhosas e brilhantes em parceria com várias tecnologias”.
Em outro caso, em outubro de 2007, os Estados Unidos e as forças da coalizão atacaram uma casa segura da Al-Qaeda em Sinjar, na fronteira síria do Iraque. Encontraram 700 esboços biográficos de combatentes estrangeiros, formulários de recursos humanos sobre de onde os combatentes eram, quem os recrutou, o trabalho que eles procuravam e por que se juntaram ao grupo. O único problema era que esses formulários eram pedaços de papel amassados, escritos à mão em árabe. Peneirar os formulários e interpretá-los exigiu conhecimentos humanos, mas o poder de análise da máquina também foi usado, uma vez que os dados foram extraídos e codificados.
Os analistas descobriram que 20% dos combatentes estrangeiros eram da Líbia, 50% deles de apenas uma cidade. Eles viram um aumento na participação após um discurso de um clérigo sênior no Libyan Islamic Fighting Group, o que imediatamente os alertou para sua estatura crescente dentro da Al-Qaeda. A detecção de tal padrão não teria sido possível sem que as máquinas classificassem os volumes de dados, mas os dados não estariam disponíveis ou não seriam de alta qualidade sem o processo prático de invasão de uma casa segura, a recuperação de ativos físicos e a tradução e anotação dos formulários de recursos humanos para processamento das máquinas. Tanto o contexto quanto o enquadramento do problema foram necessários para pôr as máquinas a funcionar e os pensadores críticos a interpretar os resultados.
As muitas empresas envolvidas no fornecimento de serviços de análise de dados, como a Palantir, geralmente são retratadas como pontas de lança da alta tecnologia para obter informações valiosas a partir do big data. A imprensa apresenta essas empresas como puramente tecnológicas. Isso porque a narrativa predominante que vem do vale do Silício é a de que as capacidades técnicas são muito superiores às humanas. Mas a verdade é que todas as empresas de tecnologia – Google, Facebook, Slack, Palantir e outras – dependem fortemente de contribuições tanto técnicas quanto humanas.
**OS VIESES – DOS CRIMES AO CÂNCER**
A verdade é que os dados não são objetivos, e os diferentes pontos de vista dentro dos conjuntos de dados devem ser contabilizados em sua análise. “Os sistemas algorítmicos que transformam os dados em informações não são infalíveis – eles dependem de entradas imperfeitas, da lógica, da probabilidade e das pessoas que os criam”, advertiu a Casa Branca em 2016.
Por exemplo, os dados sobre crimes não refletem todos os crimes cometidos; são apenas um reflexo dos crimes relatados, e a denúncia de crimes é distorcida por muitos fatores. Uma comunidade pode ser favorável a chamar a polícia e denunciar os crimes, enquanto outra, não. Será que comunidades de imigrantes majoritariamente habitadas por pessoas que vivem no país ilegalmente chamam a polícia para lidar com pequenos crimes em seus bairros nas mesmas taxas que as comunidades que não temem ter seus membros deportados? Alguém com uma dúzia de multas de estacionamento não pagas ligará para denunciar um pequeno roubo em seu carro? Os dados de crime relatados, portanto, refletem uma série de nuances em torno da confiança e das características da comunidade que, na superfície, podem ser facilmente ignoradas.
Um estudo publicado na revista _Significance_, da Royal Statistical Society, investigou a eficácia de um algoritmo de policiamento de prevenção publicado pela PredPol, uma empresa focada em prever e prevenir o crime por meio da ciência dos dados. O algoritmo destina-se a informar os departamentos de polícia quanto aos melhores lugares para posicionar policiais, com o objetivo de prevenir prováveis crimes. Seus autores, os pesquisadores Kristian Lum e William Isaac, decidiram aplicar o algoritmo, que foi um dos poucos divulgados publicamente em uma revista especializada, aos dados que retiraram dos registros disponíveis sobre crimes com drogas em Oakland, Califórnia. Embora o crime por drogas fosse distribuído uniformemente em toda a cidade, descobriram que as prisões por drogas estavam concentradas em apenas alguns locais, principalmente West Oakland e Fruitville, duas comunidades predominantemente não brancas e de baixa renda. Se os policiais fossem despachados em maior número para aqueles bairros com as maiores taxas de criminalidade relatadas, como o algoritmo sugeria, o viés já existente seria exacerbado, porque, com mais policiais nesses bairros, é provável que fossem feitas ainda mais prisões.
Claudia Perlich, cientista de dados e professora adjunta de inteligência comercial e prospecção de dados da Stern School of Business da University of New York, oferece um exemplo que ilustra o viés. Em uma palestra intitulada “All the Data and Still Not Enough”, ela contou que, em 2008, a Siemens Medical desafiou equipes de pesquisa concorrentes a classificar áreas extraídas de imagens de mama obtidas por ressonância magnética quanto à probabilidade de revelarem cânceres. As equipes receberam um conjunto de dados de 100 mil dessas áreas, de imagens de 1.712 pacientes. Delas, 118 pacientes apresentavam ao menos uma área potencialmente maligna. A Siemens também lhes disse para observar 117 características em cada imagem, algumas das quais com o potencial de demonstrar se a paciente tinha câncer. As equipes foram convidadas a construir um modelo que analisasse essas 117 características e constatar quão bem esse modelo preditivo poderia diagnosticar as áreas potenciais e, finalmente, a paciente.
A equipe de Perlich integrava a Watson Research, da IBM. Ao explorar o conjunto de dados, percebeu uma taxa de incidência muito alta em pacientes com números de identificação baixos, superando em muito o esperado aproximado de 10%. Ao adicionar a identificação da paciente ao seu modelo preditivo (algo que nenhum cientista de dados consideraria), observaram um aumento notável no desempenho preditivo. A identidade era, em teoria, um número de dez dígitos gerado aleatoriamente que meramente identificava a paciente e não devia ter absolutamente nada a ver com a incidência de câncer de mama. Mas, na verdade, as identidades das pacientes tinham sido agrupadas em caixas. Em uma delas, 36% das pacientes apresentavam áreas malignas, enquanto em duas outras, apenas 1% tinham câncer.
A melhor hipótese para explicar esse efeito foi que os dados deviam ter sido retirados de quatro fontes. Reunir dados de várias fontes geralmente é uma boa prática na análise de dados. Mas, neste caso, aqueles que reuniram o conjunto de dados não registraram explicitamente o fato de que alguns pacientes eram de instituições de triagem de câncer de mama e outros, de instituições de tratamento de câncer. A identificação da paciente tornou-se fácil de prever porque a incidência de câncer seria muito maior nos locais de tratamento.
Tais erros humanos na coleta e interpretação de dados devem ser corrigidos pela análise humana, e esse é um trabalho para o qual os treinados em ciências humanas e sociais estão bem equipados.
[Em suma, ao] avaliar como respondemos às lacunas e aos pressupostos em nossos dados, como devemos administrar novas ferramentas e como montamos nossas equipes, temos de considerar o papel crucial do fuzzy como complemento do techie.