 首页 > 教程 > llama.cpp：一个适用于中小型研发企业的高性能CPU/GPU大语言模型推理框架

llama.cpp：一个适用于中小型研发企业的高性能CPU/GPU大语言模型推理框架

时间：2024-10-06　|　来源：　|　阅读：94

llama.cpp是一个高性能的CPU/GPU大语言模型推理框架，适用于消费级设备或边缘设备。开发者可以通过工具将各类开源大语言模型转换并量化成gguf格式的文件，然后通过llama.cpp实现本地推理。经过我的调研，相比较其它大模型落地方案，中小型研发企业使用llama.cpp可能是唯一的产品落地

中小型研发企业：相较动辄千万+的硬件投入，中小型研发企业只能支撑少量硬件投入，并且也缺少专业的研发人员。

产品落地方案：项目需要具备在垂直领域落地的能力，大多数情况下还需要私有化部署。

网上有不少介绍的文章，B站上甚至有一些收费课程。但是版本落后较多，基本已经没有参考价值。本文采用b3669版本，发布日期是2024年9月，参考代码：examples/main.cpp。由于作者(Georgi Gerganov)没有提供详细的接口文档，examples的代码质量也确实不高，因此学习曲线比较陡峭。本文旨在介绍如何使用llama.cpp进行推理和介绍重点函数，帮助开发人员入门，深入功能还有待研究。

llama.cpp：一个适用于中小型研发企业的高性能CPU/GPU大语言模型推理框架

一、推理流程

1. 过程描述

以常见的交互推理为例，程序大概可以分成5个子功能模块。

2. 概念介绍

角色（roles）：大语言模型通常会内置三种角色：系统（system），用户（user），助手（assistant）。这三种角色并非所有模型统一指定，但是基本目前所有开源的大模型都兼容这三种角色的交互，它有助于大模型更好的理解人类语境并完成任务。system表示系统提示词，就是我们常说的prompt。网上有不少课程将写系统提示词描述为提示词工程，还煞有介事的进行分类，其实大可不必。从我的使用经验看，一个好的系统提示词（prompt）应具备三个要点即可：语义明确，格式清晰，任务简单。语义明确即在系统提示词中尽量不要使用模棱两可的词语，用人话说就是“把问题说清楚”。格式清晰即可以使用markdown或者json指定一些重要概念。如果你需要让大模型按照某个固定流程进行分析，可以使用markdown的编号语法，如果你需要将大模型对推理结果进行结构化处理，可以使用json语法。任务简单即不要让大模型处理逻辑太复杂或者流程太多的任务。大模型的推理能力完全基于语义理解，它并不具备严格意义上的程序执行逻辑和数学运算逻辑。这就是为什么，当你问大模型：1.11和1.8谁大的时候，它会一本正经的告诉你，当整数部分一样大的时候，仅需要比较小数部分，因为11大于8，因此1.11大于1.8。那么如果我们现实中确实有一些计算任务或复杂的流程需要处理怎么办？我的解决方案是，与程序交互和动态切换上下文。除了系统角色以外，用户一般代表输入和助手一般代表输出。

3. 程序结构

llama.cpp的程序结构比较清晰，核心模块是llama和ggmll。ggml通过llama进行调用，开发通常不会直接使用。在llama中定义了常用的结构体和函数。common是对llama中函数功能的再次封装，有时候起到方便调用的目的。但是版本迭代上，common中的函数变化较快，最好的方法是看懂流程后直接调用llama.h中的函数。