Matrix multiply on Adreno GPUs – Part 1: OpenCL optimization