Perigo ou evolução? Robôs curiosos são premiados quando experimentam algo novo

© AP Photo / Shuji KajiyamaO robô BB-8 posando com atores e diretor durante conferência de imprensa do filme Star Wars: O Despertar da Força
O robô BB-8 posando com atores e diretor durante conferência de imprensa do filme Star Wars: O Despertar da Força - Sputnik Brasil
Nos siga no
Cientistas de computação programaram robôs para serem curiosos, que exploram tudo a seu redor por iniciativa própria, bem como se dedicam aos estudos sem receberem comando. Finalmente, robôs podem até começar a formar ideias e desenvolver o entendimento científico da humanidade.

A curiosidade é um componente essencial da inteligência. Os cientistas há muito tempo tentam elaborar algoritmos de curiosidade, mas sua reprodução chegou a ser considerada inalcançável, pois a maioria dos métodos não permite avaliar brechas nos conhecimentos da inteligência artificial (AI, sigla em inglês) sendo muitos sistemas de AI incapazes de formular hipóteses previsíveis.

​"Desenvolvimento de curiosidade é o maior problema para inteligência de robôs, diz George Konidaris"

Em geral, enquanto a maioria das pessoas pode distinguir ideias más das boas e acertar de forma intuitiva o que vale estudar e o que não, máquinas fracassaram neste aspecto, gastando muito tempo em coisas óbvias.

Consultoria McKinsey estima que 50% do trabalho no Brasil podem ser feitos por robôs - Sputnik Brasil
Notícias do Brasil
Psiu... Tem um robô de olho no seu emprego
No entanto, Todd Hester e Peter Stone, cientistas de computação da companhia Google DeepMind e da Universidade do Texas, respetivamente, decidiram resolver este problema de vez.

A dupla desenvolveu o novo algoritmo Exploração Direcionada com Variância e Recompensas Intrínsecas Inovadoras (TEXPLORE-VENIR), que se baseia na técnica de "aprendizagem reforçada" para contornar um problema.

Na "aprendizagem reforçada", um programa AI é premiado se o caminho, seguido por ele, aproxima-o do objetivo predestinado, por exemplo, a resolução de um problema matemático difícil. Quando o AI é premiado por acertar, as chances de ele seguir o mesmo caminho no futuro aumentam.

O TEXPLORE-VENIR estabelece um objetivo ao programa, e o programa se recompensa por aprender algo novo, mesmo que o conhecimento não o aproxime do objetivo final. O AI também se recompensa por reduzir a incerteza, conhecendo coisas novas.

Os cientistas testaram seu método em dois experimentos. Em um deles, o algoritmo foi implantado em um brinquedo, Nao. Ele tinha três tarefas separadas, em que ganhou pontos por bater em um prato, segurar uma fita rosa em frente aos olhos e pressionar um botão no seu pé. Ao passar por 13 tarefas, Nao foi melhor em encontrar a fita rosa na sua mão quando foi auxiliado pelo TEXPLORE-VENIR. O mesmo aconteceu com as restantes tarefas — o desempenho era sempre melhor, quando contava com o TEXPLORE-VENIR.

"Não se comporte como máquina"

No entanto, curiosidade pode ter um efeito negativo para a produtividade de robôs — se recompensas por ganhar conhecimento são maiores do que cumprimento de metas básicas e essenciais, as últimas podem ser ignoradas pela ganância em querer ser premiado.

Por outro lado, prêmios externos podem também interferir no processo de aprendizagem, tal como acontece quando um estudante apenas busca notas altas ao invés de querer aprender a matéria. O desafio é treinar os robôs para atingir o equilíbrio entre recompensas internas e externas.

Feed de notícias
0
Para participar da discussão
inicie sessão ou cadastre-se
loader
Bate-papos
Заголовок открываемого материала