最高でも回答精度9%程度だった「人類最後の試験」でOpenAIのDeep researchが26%以上を記録