发布日期:2024-12-08 13:42 点击次数:105
当地时分12月6日,OpenAI公布第二日活动主题:推出了强化微调(Reinforcement Fine-Tuning),匡助开垦者和机器学习工程师打造针对特定复杂领域任务的众人模子。OpenAI CEO Sam Altman在X发帖称巨乳 女優,强化微调的效劳荒谬棒,是他本年最大的惊喜之一,期待看到环球利用这种功能的创造。
该名目通过全新的模子定制工夫,让开垦者不错使用高质料任务集对模子进行微调,并利用参考谜底评估模子的反应,从而耕种模子在特定领域任务中的推理才气和准确性。
OpenAI的揣度员称,强化微调并不是只教模子模子输出,它的运作方式是,当模子发现一个问题的时候,揣度者给模子空间区仔细想考这个问题,然后评估模子给出的最终解答,行使强化学习,揣度者不错强化产生正确谜底的想路,防止产生纰缪谜底的想路,只需要“几十个例子”致使12个例子,模子就能以有用的新方式学习特定领域的推理。
OpenAI揣度员演示,强化微调后的o1 mini测试通过率致使比郑再版o1高24%巨乳 女優,比未强化微调的o1 mini提高了82%。