openai o3 benchmark