[Literature Reivew] Deepseek Series
帮我列出Deepseek所发表的所有论文,按照时间顺序排列
Chatgpt output:
根据现有资料,DeepSeek团队自2024年以来发表了多篇论文,以下是按时间顺序排列的主要论文:
2024年1月5日:《DeepSeek LLM: Scaling Open-Source Language Models with Longtermism》PDF 该论文探讨了开源大型语言模型的扩展方法,介绍了DeepSeek LLM项目,旨在通过长期视角推进开源语言模型的发展。
2024年1月11日:《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》PDF此研究提出了DeepSeekMoE模型,一种专家混合(MoE)语言模型,强调经济高效的训练和推理。
2024年1月19日:《Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations》PDF该论文介绍了Math-Shepherd方法,通过逐步验证和强化学习,在无需人工标注的情况下提升大型语言模型的数学推理能力。
2024年5月7日:《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》PDF 这篇论文介绍了DeepSeek-V2模型,强调其在经济高效的训练和推理方面的优势,以及在多种任务中的卓越表现。
2024年6月17日:《DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence》PDF 此研究聚焦于DeepSeek-Coder-V2模型,旨在打破闭源模型在代码智能领域的壁垒,提升开源代码模型的性能。
2024年12月27日:《DeepSeek-V3 Technical Report》PDF 该技术报告详细介绍了DeepSeek-V3模型的架构、训练方法以及在各项基准测试中的表现。
2025年1月22日:《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》PDF 这篇论文提出了DeepSeek-R1模型,探讨了通过强化学习激励大型语言模型的推理能力的方法。
2025年2月18日:《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》PDF DeepSeek团队发布了一篇关于新的注意力机制“NSA”的论文。该研究提出了一种新的注意力机制“NSA”,用于超快长上下文训练和推理,具有与硬件对齐的特点。
请注意,以上信息基于截至2025年2月18日的公开资料,可能并未涵盖DeepSeek团队的所有发表论文。