为什么在Deepseek-R1-ZERO出现前，无人尝试放弃微调对齐，通过强化学习生成思考链推理模型？ - 每日热点

首页 > 知乎-每日热榜

本条热点详情

标题：为什么在Deepseek-R1-ZERO出现前，无人尝试放弃微调对齐，通过强化学习生成思考链推理模型？

原文链接：点击查看
来源：知乎-每日热榜(2025-02-03)
热度：500000
快照时间：2025-02-03 20:02:24

全网搜-移动手机端

全网搜-电脑PC端