Na essência, o aprendizado por máquinas – machine learning, na expressão em inglês – diz respeito a usar grandes conjuntos de dados para aprender as relações entre variáveis, fazer previsões e interagir com um ambiente em mudança constante. E está se tornando uma ferramenta cada vez mais importante nos negócios – tanto que quase todos os funcionários devem ser impactados por isso de uma forma ou de outra nos próximos anos.
Grandes massas de dados sobre variáveis que descrevem o comportamento de compras, o movimento dos preços e do estoque, e muitos outros aspectos de uma empresa não são novidade. O novo é que os avanços na velocidade de processamento dos computadores e a redução nos custos de armazenamento de dados atualmente nos permitem tirar conclusões a partir de enormes conjuntos de dados de maneiras que simplesmente não eram possíveis há 20 ou 30 anos.
Aprendizado por máquinas, também chamado de ciência de dados, é o novo mundo da estatística. Tradicionalmente, estatísticas diziam respeito a itens como distribuições de probabilidade, intervalos de confiança, testes de significância e regressão linear. O conhecimento desses tópicos continua importante, mas agora somos capazes de aprender de novas formas, como:
– podemos desenvolver modelos não lineares para prever e melhorar a tomada de decisão;
– podemos buscar padrões nos dados para melhorar a compreensão de uma empresa sobre seus clientes e o ambiente em que opera; e
– podemos desenvolver regras de decisão em interação com um ambiente em mudança.
Meu livro mais recente, Machine learning in business: An introduction to the world of data science, explica os algoritmos mais populares usados por cientistas de dados. O objetivo é permitir aos leitores interagir produtivamente com esses profissionais e entender como essa ciência pode ser usada em várias situações de negócios. No resumo a seguir, apresento algumas das questões-chave apresentadas à sociedade pela inteligência artificial (IA), que deveriam estar no radar dos líderes de todo o mundo.
## Questões para a sociedade
Os computadores têm sido usados para automatizar tarefas como manutenção de registros e envio de solicitações há muitos anos, e, de forma geral, a sociedade se beneficiou disso. Mas é importante reconhecer que inovações trazidas pela IA envolvem mais do que apenas a automação de tarefas. Na verdade, permitem às máquinas aprender, tomar decisões e interagir com o ambiente de forma similar à maneira como os humanos o fazem. Realmente, em muitos casos, o objetivo é treinar máquinas de modo que melhorem a forma como humanos desempenham certas tarefas.
A maioria dos leitores tem familiaridade com o sucesso do AlphaGo do Google ao vencer o jogador de Go campeão do mundo Ke Jie. Para quem não sabe, Go é um jogo bem complexo. Tem muitos movimentos, o que dificulta para o computador calcular todas as possibilidades. Então o AlphaGo usa uma estratégia de deep learning para estudar a forma como os melhores jogadores humanos pensam seus movimentos, e então melhorar seu desempenho no jogo. O ponto é que os programadores não ensinaram ao AlphaGo “como jogar Go”: eles o ensinaram a “aprender como jogar Go”. Ensinar máquinas a usar dados para aprender e se comportar de forma inteligente levanta muitas questões complexas para a sociedade. A seguir estão cinco questões específicas com as quais os líderes deveriam se familiarizar.
### Privacidade de dados
Questões associadas à privacidade de dados receberam muita atenção devido à saga da Cambridge Analytica. Essa empresa trabalhou tanto para a campanha presidencial de Donald Trump em 2016 como para uma organização que defendia que o Reino Unido deixasse a União Europeia. A empresa conseguiu adquirir e usar dados pessoais de milhões de usuários do Facebook sem a permissão deles. Os dados eram detalhados o suficiente para que a empresa pudesse criar perfis e determinar que tipo de anúncio ou outras ações seriam mais eficazes para promover o interesse das organizações que a contrataram.
Muitos governos estão preocupados com questões relativas à privacidade de dados. A União Europeia tem sido especialmente proativa e aprovou a General Data Protection Regulation (GDPR), que começou a valer em maio de 2018. Ele reconhece que dados são valiosos e inclui em suas exigências:
– Uma pessoa deve dar seu consentimento antes que a empresa use seus dados para outro propósito que não o que foi consentido.
– Se houver um vazamento de dados, notificações para todos os afetados são obrigatórias em 72 horas.
– Os dados devem ser manuseados de forma segura entre fronteiras.
– As empresas devem apontar um agente de proteção de dados.
Multas por não seguir a GDPR podem chegar a 20 milhões de euros ou 4% da receita global da empresa. É provável que outros governos aprovem legislação similar no futuro [no Brasil já temos a nossa LGPD]. É interessante que não são só governos que estão expressando a necessidade de regulamentar a forma como os dados são usados pelas empresas. Mark Zuckerberg, CEO do Facebook, concorda que as regras são necessárias para governar a internet e expressou apoio à GDPR.
### Vieses
Até o momento, todos sabemos que seres humanos têm vieses. Alguns levam a um comportamento avesso a riscos; outros procuram o risco; alguns cuidam das pessoas; outros nos levam a ser insensíveis. Pode-se pensar que uma vantagem das máquinas é que tomam decisões lógicas e não estão sujeitas a vieses de forma alguma. Infelizmente, não é o caso. Os algoritmos de machine learning apresentam muitos vieses. Um dos principais a se prestar atenção diz respeito aos dados que foram coletados: podem não ser suficientemente representativos. Há vários exemplos em que softwares de reconhecimento facial foram treinados principalmente com imagens de pessoas brancas e assim não reconheciam outras raças adequadamente.
A tendência natural é que se use os dados imediatamente disponíveis, que acabam agindo em favor de práticas existentes. Os dados disponíveis para tomar decisões de empréstimos no futuro provavelmente serão os dados sobre empréstimos já concedidos no passado. Seria bom saber como os empréstimos que não foram feitos no passado teriam se comportado, mas esse dado, por sua natureza, não está disponível. A Amazon vivenciou algo semelhante quando desenvolveu um software de recrutamento. Sua equipe era predominantemente de homens, e isso levou o software a ter um viés contra as mulheres.
Consequentemente, escolher as características que serão consideradas em uma ação de machine learning é uma tarefa importantíssima. Na maioria dos casos, é claramente inaceitável usar características como raça, gênero e afiliação religiosa. Mas cientistas de dados também têm de ser cuidadosos para não incluir outras características altamente correlacionadas a essas características sensíveis. Por exemplo, se um bairro específico tem uma alta proporção de residentes negros, usar “bairro da residência” como característica quando se desenvolve um algoritmo para decisões de empréstimo pode levar a vieses raciais.
Não faltam possibilidades – conscientes ou inconscientes – que podem gerar vieses no desenvolvimento de um algoritmo de machine learning. Por exemplo, a forma como os dados são selecionados e descartados, a escolha dos modelos matemáticos e a forma como os resultados são interpretados e usados podem todas trazer consigo preconceitos.
### Ética
O machine learning levanta muitas considerações éticas. Muitos sentem que a China foi longe demais com seu Social Credit System, que tem por finalidade padronizar a forma como os cidadãos são acessados. O “score social” individual dos chineses aumenta ou diminui conforme seu comportamento. Infrações de trânsito, fumar em locais proibidos e comprar videogames em excesso são exemplos de atividades que diminuem o score. O resultado pode afetar a escola que os filhos frequentam, as possibilidades de viajar para o exterior e as perspectivas de emprego.
E quanto às questões de guerra? Deveriam envolver aprendizado por máquinas? Talvez seja inevitável. Depois que milhares de funcionários do Google assinaram uma carta aberta condenando a iniciativa, o Google cancelou o Project Maven, uma colaboração com o Departamento de Defesa dos Estados Unidos para melhorar a forma como os drones acertam alvos. Porém, Estados Unidos e outros países continuam a pesquisar como a IA pode ser usada para fins militares.
Os algoritmos de machine learning podem ser programados para se comportar de forma moralmente responsável e de um jeito ético? É possível criar um novo algoritmo de machine learning, e oferecer uma grande quantidade de dados classificados como “éticos” ou “antiéticos” de forma que ele aprenda a identificar dados antiéticos. Quando novos dados chegam para um projeto específico, o algoritmo pode ser usado para decidir se é apropriado ou não usar aqueles dados. O pensamento aqui é que se um ser humano pode aprender comportamento ético, a máquina também pode. Na verdade, alguns argumentam que as máquinas podem aprender a ser mais éticas que os humanos.
Um dilema ético interessante surge em relação aos carros sem motorista. Se um acidente é inevitável, que decisão deve ser tomada? Que opção o algoritmo faria entre atingir um idoso ou um jovem? Como deveria escolher entre atropelar um pedestre fora da faixa ou alguém que está obedecendo as regras? Deveria acertar um ciclista de capacete ou o que não está usando?
A interação de seres humanos com tecnologias de machine learning às vezes pode levar a resultados inesperados, com o aprendizado de comportamento antiético. Em março de 2016, a Microsoft lançou o Tay (abreviatura de “thinking about you”, ou pensando em você, em tradução livre), destinado a aprender ao interagir com seres humanos no Twitter de forma a imitar os padrões de linguagem de uma garota norte-americana de 19 anos. Alguns usuários do Twitter começaram a tuitar frases politicamente incorretas. O Tay aprendeu com isso, e como resultado enviou mensagens racistas e sexistas para outros usuários do Twitter. A Microsoft encerrou o serviço apenas 16 horas depois de seu lançamento.
### Transparência
Quando um banco usa um algoritmo de árvore de decisão com machine learning para definir quem deve receber empréstimos, é relativamente fácil ver por que um empréstimo foi aceito ou rejeitado. Porém, a maioria dos algoritmos de aprendizado por máquina são “caixas pretas” no sentido de que os motivos para os resultados não ficam explícitos.
Isso pode criar problemas. Alguém que é recusado para empréstimo poderia, não sem razão, perguntar por que a decisão foi tomada. Uma resposta do tipo “O algoritmo o rejeitou, não tenho mais informações” provavelmente seria insatisfatória. A General Data Protection Regulation mencionada anteriormente inclui um “direito à explicação” em relação a algoritmos de machine learning aplicados a dados de cidadãos da União Europeia.
Especificamente, indivíduos têm o direto à “informação significativa sobre a lógica envolvida assim como a importância e as consequências prováveis de tal processamento dos dados do sujeito”.
Ao fazer previsões, é importante desenvolver formas de tornar os resultados dos algoritmos de machine learning acessíveis àqueles que são afetados. Uma forma de avaliar a importância de uma característica particular (como o score de crédito em um pedido de empréstimo) é fazer uma mudança na característica e ver que efeito tem sobre o alvo (probabilidade de default no caso de uma aplicação de empréstimo). A mudança pode refletir a representatividade da característica nos dados usados para treinar o algoritmo.
Usando essa abordagem é possível criar um sistema que atribua uma porcentagem para cada característica usada. Por exemplo, seria possível dizer a um emprestador: “40% da decisão de rejeitar seu pedido foi baseada em seu histórico de crédito, 25% em sua renda, 20% no índice débito x renda e 15% em outros fatores”.
Também é importante que as empresas entendam os algoritmos que usam para certificarem-se de que as decisões estão sendo tomadas de forma sensata. Há sempre um risco de que os algoritmos pareçam tomar decisões inteligentes quando na verdade estão se valendo de correlações imprecisas.
Há histórias de softwares de reconhecimento de imagens que conseguem distinguir entre ursos polares e cães, mas, na verdade, estão só reagindo ao fundo (gelo ou árvores), não às imagens dos animais em si. Se queremos confiar em um algoritmo para tomar decisões importantes para uma organização, é fundamental que entendamos exatamente como ele toma essas decisões.
### Aprendizado por máquina contraditório
Refere-se à possibilidade de o algoritmo de machine learning ser atacado por dados criados especificamente para enganá-lo. De certa forma, é mais fácil enganar uma máquina do que uma pessoa. Um exemplo simples disso é um indivíduo que entende como um filtro de spam funciona e cria um e-mail para evitá-lo.
“Spoofing” é uma forma de aprendizado por máquina contraditório. O termo é usado também para quando alguém tenta (ilegalmente) manipular o mercado ao alimentá-lo com ordens de compra e venda, e cancelar a execução antes. Um exemplo grave de machine learning contraditório pode ser um indivíduo mal-intencionado que visa carros sem motorista, colocando uma placa na lateral da via para confundir o algoritmo do carro e causar acidentes.
Uma abordagem para esse problema é gerar exemplos de tentativas de machine learning contraditório e treinar a máquina a não ser enganada por elas. Porém, parece provável que humanos terão de monitorar os algoritmos por algum tempo para se certificar de que não estão sendo enganados ou manipulados. Os perigos do machine learning contraditório reforçam o ponto de que os algoritmos de aprendizado por máquina não deveriam ser caixas pretas. Transparência e interpretação do resultado são extremamente importantes.
Não podemos subestimar os avanços possíveis do aprendizado por máquina. No futuro, as máquinas muito provavelmente serão mais inteligentes do que o ser humano em quase todos os aspectos. Por isso, um desafio contínuo para a humanidade será abordar as questões discutidas aqui e descobrir como se associar a máquinas de maneiras que beneficiem mais do que prejudiquem o conjunto da sociedade.
© Rotman Management
Editado com autorização da Rotman School of Management, ligada à University of Toronto. Todos os direitos reservados.