推理引擎

Awesome Chinese LLM

Awesome-Chinese-LLM

An Awesome Collection for LLM in Chinese

收集和梳理中文LLM相关

GitHub stars GitHub issues GitHub forks

自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或

5. LLM推理部署框架

  • vLLM:
    • 地址:https://github.com/vllm-project/vllm
    • 简介:适用于大批量Prompt输入,并对推理速度要求高的场景。吞吐量比HuggingFace Transformers高14x-24倍,比HuggingFace Text Generation Inference(TGI)高2.2x-2.5倍,实现了Continuous batching和PagedAttention等技巧。但该框架对适配器(LoRA、QLoRA等)的支持不友好且缺少权重量化。
  • DeepSpeed-MII:
  • text-generation-inference:
    • 地址:https://github.com/huggingface/text-generation-inference
    • 简介:用于文本生成推断的Rust、Python和gRPC部署框架,可以监控服务器负载,实现了flash attention和Paged attention,所有的依赖项都安装在Docker中:支持HuggingFace模型;但该框架对适配器(LoRA、QLoRA等)的支持不友好。
  • CTranslate2
    • 地址:https://github.com/OpenNMT/CTranslate2
    • 简介:基于C++和python的推理框架,支持在CPU和GPU上并行和异步执行,且支持prompt缓存及量化。但缺少对适配器(LoRA、QLoRA等)的支持。
  • OpenLLM
    • 地址:https://github.com/bentoml/OpenLLM
    • 简介:支持将要部署的LLM连接多个适配器,可以实现只使用一个底座模型来执行多个特定的任务;支持量化推理和LangChain集成。但对批处理和分布式推理的支持相对不友好。
  • MNN LLM
  • MLC LLM
    • 地址:https://github.com/mlc-ai/mlc-llm
    • 简介:支持不同平台上的不同设备部署推理,包括移动设备(iOS或Android设备等)的高效推理,压缩等。但对大规模批量调用相对不友好。
  • LightLLM:
    • 地址:https://github.com/ModelTC/lightllm
    • 简介:一个基于 Python 的 LLM(大型语言模型)推理和服务框架,该框架采用轻量级设计、易于扩展和高速性能,LightLLM引入了一种更细粒度的kv cache管理算法 TokenAttention,并设计了一个与TokenAttention高效配合的Efficient Router调度实现。在TokenAttention 和 Efficient Router的相互作用下,LightLLM在大部分场景下都能获得比vLLM 和 Text Generation Inference 得到更高的吞吐,部分场景下可以得到4倍左右的性能提升。
  • AirLLM:
    • 地址:https://github.com/lyogavin/Anima/tree/main/air_llm
    • 简介:该项目开源了一个优化inference内存的推理框架,可实现4GB单卡GPU可以运行70B大语言模型推理。不需要任何损失模型性能的量化和蒸馏,剪枝等模型压缩,该项目采用了分层推理的技术以在较低的内存下实现大模型推理。
  • LMDeploy:
    • 地址:https://github.com/InternLM/lmdeploy
    • 简介:该项目支持 LLM(大语言模型)和 VL(视觉语言模型)任务在 NVIDIA 设备上量化、推理和服务。LMDeploy 支持有状态的推理,可以缓存对话,记住历史。它实现了 Persistent Batch(即 Continuous Batch),Blocked K/V Cache,动态拆分和融合,张量并行,高效的计算 kernel等重要特性。推理性能是 vLLM 的 1.8 倍以上。其 4bit 量化模型推理性能达 FP16 的 2.4 倍以上。

6. LLM评测

  • FlagEval (天秤)大模型评测体系及开放平台
    • 地址:https://github.com/FlagOpen/FlagEval
    • 简介:旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。FlagEval (天秤)创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。
  • C-Eval: 构造中文大模型的知识评估基准:
    • 地址:https://github.com/SJTU-LIT/ceval
    • 简介:构造了一个覆盖人文,社科,理工,其他专业四个大方向,52 个学科(微积分,线代 …),从中学到大学研究生以及职业考试,一共 13948 道题目的中文知识和推理型测试集。此外还给出了当前主流中文LLM的评测结果。
  • OpenCompass:
    • 地址:https://github.com/InternLM/opencompass
    • 简介:由上海AI实验室发布的面向大模型评测的一站式平台。主要特点包括:开源可复现;全面的能力维度:五大维度设计,提供 50+ 个数据集约 30 万题的的模型评测方案;丰富的模型支持:已支持 20+ HuggingFace 及 API 模型;分布式高效评测:一行命令实现任务分割和分布式评测,数小时即可完成千亿模型全量评测;多样化评测范式:支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板;灵活化拓展。
  • SuperCLUElyb: SuperCLUE琅琊榜
    • 地址:https://github.com/CLUEbenchmark/SuperCLUElyb
    • 简介:中文通用大模型匿名对战评价基准,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。他们发布了初步的结果和基于Elo评级系统的排行榜。
  • GAOKAO-Bench:
    • 地址:https://github.com/OpenLMLab/GAOKAO-Bench
    • 简介:GAOKAO-bench是一个以中国高考题目为数据集,测评大模型语言理解能力、逻辑推理能力的测评框架,收集了2010-2022年全国高考卷的题目,其中包括1781道客观题和1030道主观题,构建起GAOKAO-bench的数据部分。
  • AGIEval:
    • 地址:https://github.com/ruixiangcui/AGIEval
    • 简介:由微软发布的一项新型基准测试,这项基准选取20种面向普通人类考生的官方、公开、高标准往常和资格考试,包括普通大学入学考试(中国高考和美国 SAT 考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等等。
  • Xiezhi:
    • 地址:https://github.com/mikegu721/xiezhibenchmark
    • 简介:由复旦大学发布的一个综合的、多学科的、能够自动更新的领域知识评估Benchmark,包含了哲学、经济学、法学、教育学、文学、历史学、自然科学、工学、农学、医学、军事学、管理学、艺术学这13个学科门类,24万道学科题目,516个具体学科,249587道题目。
  • Open LLM Leaderboard:
  • CMMLU:
    • 地址:https://github.com/haonan-li/CMMLU
    • 简介:CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。
  • MMCU:
    • 地址:https://github.com/Felixgithub2017/MMCU
    • 简介:该项目提供对中文大模型语义理解能力的测试,评测方式、评测数据集、评测记录都公开,确保可以复现。该项目旨在帮助各位研究者们评测自己的模型性能,并验证训练策略是否有效。
  • chinese-llm-benchmark:
    • 地址:https://github.com/jeinlee1991/chinese-llm-benchmark
    • 简介:中文大模型能力评测榜单:覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle / chatglm6b 等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果!
  • Safety-Prompts:
    • 地址:https://github.com/thu-coai/Safety-Prompts
    • 简介:由清华大学提出的一个关于LLM安全评测benchmark,包括安全评测平台等,用于评测和提升大模型的安全性,囊括了多种典型的安全场景和指令攻击的prompt。
  • PromptCBLUE: 中文医疗场景的LLM评测基准
    • 地址:https://github.com/michael-wzhu/PromptCBLUE
    • 简介:为推动LLM在医疗领域的发展和落地,由华东师范大学联合阿里巴巴天池平台,复旦大学附属华山医院,东北大学,哈尔滨工业大学(深圳),鹏城实验室与同济大学推出PromptCBLUE评测基准, 将16种不同的医疗场景NLP任务全部转化为基于提示的语言生成任务,形成首个中文医疗场景的LLM评测基准。
  • HalluQA: 中文幻觉评估基准
    • 地址:https://github.com/xiami2019/HalluQA
    • 简介:该项目提出了一个名为HalluQA的基准测试,用于衡量中文大型语言模型中的幻觉现象。HalluQA包含450个精心设计的对抗性问题,涵盖多个领域,并考虑了中国历史文化、风俗和社会现象。在构建HalluQA时,考虑了两种类型的幻觉:模仿性虚假和事实错误,并基于GLM-130B和ChatGPT构建对抗性样本。为了评估,设计了一种使用GPT-4进行自动评估的方法,判断模型输出是否是幻觉。

7. LLM教程

LLM基础知识

提示工程教程

  • 面向开发者的 LLM 入门课程:
    • 地址:https://github.com/datawhalechina/prompt-engineering-for-developers
    • 简介:一个中文版的大模型入门教程,围绕吴恩达老师的大模型系列课程展开,主要包括:吴恩达《ChatGPT Prompt Engineering for Developers》课程中文版,吴恩达《Building Systems with the ChatGPT API》课程中文版,吴恩达《LangChain for LLM Application Development》课程中文版等。
  • 提示工程指南:
    • 地址:https://www.promptingguide.ai/zh
    • 简介:该项目基于对大语言模型的浓厚兴趣,编写了这份全新的提示工程指南,介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。
  • awesome-chatgpt-prompts-zh:

LLM应用教程

  • LangChain 🦜️🔗 中文网,跟着LangChain一起学LLM/GPT开发:
    • 地址:https://www.langchain.asia
    • 简介:Langchain的中文文档,由是两个在LLM创业者维护,希望帮助到从刚进入AI应用开发的朋友们。
  • OpenAI Cookbook:
    • 地址:https://github.com/openai/openai-cookbook
    • 简介:该项目是OpenAI提供的使用OpenAI API的示例和指导,其中包括如何构建一个问答机器人等教程,能够为从业人员开发类似应用时带来指导。
  • 构筑大语言模型应用:应用开发与架构设计:
    • 地址:https://github.com/phodal/aigc
    • 简介:该项目开源了一本关于 LLM 在真实世界应用的开源电子书,介绍了大语言模型的基础知识和应用,以及如何构建自己的模型。其中包括Prompt的编写、开发和管理,探索最好的大语言模型能带来什么,以及LLM应用开发的模式和架构设计。

LLM实战教程