自2022年底ChatGPT引爆全球大语言模型(LLM)热潮,从“百模大战”到“智能体元年”,LLM迅速成为数字社会的基础设施。然而,对大多数学习者而言,大模型仍是“黑箱”:原理难懂、训练复杂、落地无门。 为此,国内知名AI开源社区Datawhale依托多年开源深耕经验,整合Self-LLM和LLM-Universe两大热门项目经验,编撰这本入门实战书籍。 早在开源阶段,Happy-LLM便一路刷 ...
变体管理面临着日益增长的复杂性,这对传统的基于规则的配置方法提出了挑战。本研究探讨了人工智能(AI)如何支持配置规则的生成:(1) 通过比较两种解决方案概念——一种基于Python的确定性方法和一种基于大语言模型(LLM)的方法。遵循结构化的早期人工智能系统开 变体管理面临着日益增长的复杂性,这对传统的基于规则的配置方法提出了挑战。本研究探讨了人工智能(AI)如何支持配置规则的生成:(1) 通过比 ...
大语言模型(LLM)很火,讨论的文章铺天盖地,但对于没有机器学习背景的人来说,看多了只是粗浅了解了一堆概念,疑惑只增不减。 本文尝试从零开始,用python实现一个极简但完整的大语言模型,在过程中把各种概念“具象化”,让大家亲眼看到、亲手写出 ...
Model Context Protocol (MCP) 这个协议简单说就是给大语言模型接入外部数据和工具提供了一套标准化方案。MCP 统一了模型和各种数据源、工具服务之间的交互方式。 FastMCP 是目前用 Python 构建 MCP 服务器最顺手的框架,把底层那些复杂的协议实现全都封装好了,开发者 ...
DeepSeek-R1是由深度求索公司开发的开源推理模型,可处理需要逻辑推理、数学问题解决和实时决策的任务。该模型的突出特性之一是能够对其逻辑进行跟踪,因此用户更容易理解其输出,并可以在必要时对其输出提出质疑。 这种透明性在要求结果可解释的领域 ...
让LLM能够通过模仿图灵机的方式解决算术问题、掌握运算符的计算逻辑。 本文来自南京大学计算机学院软件研究所,聚焦于 ...
深度学习已经从CNN模型时代发展到大模型LLM时代到如今的MLLM与VLM时代,原有CNN为主的深度学习部署框架已经无法满足LLM与VLM模型部署的需求,最近今年主流的LLM与VLM部署框架主要包含vLLM、TensorRT-LLM、llamacpp、Ollama、LMDeploy、LMStudio等。 vLLM vLLM(Vectorized Large Language ...
Kimi 最近把 Agent 从 Python 转成了 Typescipt 和 pi-tui 的 kimi-code 新的 Agent,这个蛮有意思的,为什么 Kimi 要这么做。是跟着 Claude code 的步伐吗? 让我们看一下 Kimi-code 的结构变化 维度旧版 kimi-cli新版 kimi-code语言Python ...