p Quando você vai fazer o quê? Prof. Jürgen Gall (à direita) e Yazan Abu Farha do Instituto de Ciência da Computação da Universidade de Bonn. Crédito:Barbara Frommann / Uni Bonn
p Cientistas da computação da Universidade de Bonn desenvolveram um software que pode olhar alguns minutos para o futuro. O programa primeiro aprende a sequência típica de ações, como cozinhar, a partir de sequências de vídeo. Com base neste conhecimento, ele pode, então, prever com precisão em novas situações o que o chef fará em cada momento. Os pesquisadores apresentarão suas descobertas na maior conferência mundial sobre visão computacional e reconhecimento de padrões, que será realizada de 19 a 21 de junho em Salt Lake City, EUA. p O mordomo perfeito, como todo fã do drama social britânico sabe, tem uma habilidade especial:ele sente os desejos de seu empregador antes mesmo de serem expressos. O grupo de trabalho do Prof. Dr. Jürgen Gall quer ensinar aos computadores algo semelhante:"Queremos prever o tempo e a duração das atividades - minutos ou até horas antes de acontecerem, " ele explica.
p Um robô de cozinha, por exemplo, pode então passar os ingredientes assim que forem necessários, pré-aqueça o forno a tempo - e enquanto isso avise o chef se ele estiver prestes a esquecer uma etapa de preparação. O aspirador de pó automático, entretanto, sabe que não tem nada a ver com a cozinha naquele momento, e, em vez disso, cuida da sala de estar.
p Nós, humanos, somos muito bons em antecipar as ações dos outros. Para computadores, no entanto, esta disciplina ainda está em sua infância. Os pesquisadores do Instituto de Ciência da Computação da Universidade de Bonn podem agora anunciar um primeiro sucesso:eles desenvolveram um software de autoaprendizagem que pode estimar o tempo e a duração de atividades futuras com surpreendente precisão por períodos de vários minutos.
p
Dados de treinamento:quatro horas de vídeos de salada
p Os dados de treinamento usados pelos cientistas incluíram 40 vídeos nos quais os performers preparam diferentes saladas. Cada uma das gravações durou cerca de 6 minutos e continha uma média de 20 ações diferentes. Os vídeos também continham detalhes precisos de quando a ação começou e quanto tempo demorou.
p O computador "assistiu" a esses vídeos de saladas totalizando cerca de quatro horas. Por aqui, o algoritmo aprendeu quais ações normalmente se sucedem durante essa tarefa e quanto tempo elas duram. Isso não é nada trivial:afinal, cada chef tem sua própria abordagem. Adicionalmente, a sequência pode variar dependendo da receita.
p "Em seguida, testamos o quão bem-sucedido foi o processo de aprendizagem, "explica Gall." Para isso, confrontamos o software com vídeos que ele não tinha visto antes. "Pelo menos os novos curtas se encaixam no contexto:Eles também mostraram o preparo de uma salada. Para o teste, o computador foi informado do que é mostrado nos primeiros 20 ou 30 por cento de um dos novos vídeos. Com base nisso, ele teve que prever o que aconteceria durante o resto do filme.
p Isso funcionou incrivelmente bem. Gall:"A precisão foi superior a 40 por cento para períodos curtos de previsão, mas caiu quanto mais o algoritmo teve de olhar para o futuro. "Para atividades que duravam mais de três minutos, o computador ainda estava certo em 15% dos casos. Contudo, o prognóstico só foi considerado correto se tanto a atividade quanto seu tempo fossem previstos corretamente.
p Gall e seus colegas querem que o estudo seja entendido apenas como um primeiro passo para o novo campo de previsão de atividades. Especialmente porque o algoritmo tem um desempenho visivelmente pior se tiver que reconhecer por conta própria o que acontece na primeira parte do vídeo, em vez de ser informado. Como essa análise nunca é 100% correta - Gall fala de dados "barulhentos". "Nosso processo funciona com isso, "ele diz." Mas, infelizmente, nem de longe também. "