OpenAI特别介绍了o1 pro mode,称ChatGPT Pro提供了OpenAI“最智能模型的一个版本”,“该模型可以思考更长时间,从而获得最可靠的回应。”在外部专家测试人员的评估中,o1 pro mode可以产生更可靠、更准确、更全面的回应,尤其是在数据科学、编程和案例法分析等领域。
下图显示,在数学、科学和编码等具有挑战性的机器学习(ML)基准测试中,o1 pro mode的表现均胜过o1 和 o1-preview。在数学方面,o1 pro mode得分86,o1 和 o1-preview分别为78和50,在编码方面,o1 pro mode得分90,o1 和 o1-preview分别为89和62,在问答博士级别的科学问题方面,o1 pro mode得分79,后两者分别为76和74。
为了突出o1 pro mode的主要优势——可靠性更高,OpenAI还提高了评估门槛,要求只有在四次尝试中四次全部能够正确回答问题、而不是仅一次答对时,才能算作模型解决了问题。即使在这种高标准要求下,o1 pro mode的表现也明显强于o1 和 o1-preview。
下图可见,在以上四次答问都必须正确的标准下,o1 pro mode相比o1 和 o1-preview的优势更大。数学方面,o1 pro mode得分80,o1 和 o1-preview分别为67和37,在编码方面,o1 pro mode得分75,o1 和 o1-preview分别为64和26,在问答博士级别的科学问题方面,o1 pro mode得分74,后两者分别为67和58。