AI学习路径

发表于 2025-02-28 更新于 2026-01-28 分类于 6-AI ，基础学习阅读次数： Waline：本文字数： 738 阅读时长 ≈ 1 分钟

最近发现不少程序员转行大模型开发，直接去学 pytorch、transformer, 从底层开始学，其实大可不必。你用了那么多年 MYSQL 也没见你想去重新开发一个数据库，怎么突然就想去开发一个新模型了。

如果你想弄个 Deepseek，需要先评估自己的学历背景、学术背景，能不能加入国内这几家大模型开发团队，或者退一步也是做模型微调，但是不用 Github 开源的微调工具，自己有学术成果，设计新的微调方法，这条路几乎不适合半道转行的应用开发程序员。

1. LLM 应用开发

LLM 应用开发涉及的技术很少就下面几点：

了解不同大模型能干什么，知道一些概念就行，例如 RAG、Agent、Workflow、Embedding 向量表示。
了解大模型的 API，其实也没几个 API，对于程序员来说没什么门槛。
熟悉下 prompt 提示词的一些规则。
学习下 LangChain 之类的大模型应用框架、学习一下 Dify/Coze 之类的可视化的 workflow/agent 平台（其实实际开发，你不用这些东西，直接调 API 开发也行，看这些框架或者平台能不能降低你的工作量）
如果做 RAG 应用，还涉及到一个向量数据库，用来解决语义相似搜索问题（区别于传统数据库的 like 搜索），可以选一款向量数据库学习一下就行。
最后就是模型微调，实际上 Github 上有很多微调工具（例如 Llama-factory、unsloth 等）、开源大模型官方也会提供微调脚本，如果你选择阿里云之类的云平台，他也提供在线微调功能，基本上都是傻瓜化的操作，你最大的工作量是数据清洗，用各种办法弄出符合你业务的数据，包括写脚本转换、刷 OpenAI 接口合成数据（业界惯例，就是白嫖最强模型的数据，降低自己准备训练数据的成本）、人工整理数据等等。