Helping machines see and understand like humans [video]