最近发现不少程序员转行大模型开发,直接去学pytorch、transformer, 从底层开始学,其实大可不必。你用了那么多年MYSQL也没见你想去重新开发一个数据库,怎么突然就想去开发一个新模型了。
如果你想弄个Deepseek,需要先评估自己的学历背景、学术背景,能不能加入国内这几家大模型开发团队,或者退一步也是做模型微调,但是不用Github开源的微调工具,自己有学术成果,设计新的微调方法,这条路几乎不适合半道转行的应用开发程序员。
1. LLM应用开发
LLM应用开发涉及的技术很少就下面几点:
- 了解不同大模型能干什么,知道一些概念就行,例如RAG、Agent、Workflow、Embedding向量表示。
- 了解大模型的API,其实也没几个API,对于程序员来说没什么门槛。
- 熟悉下prompt提示词的一些规则。
- 学习下LangChain之类的大模型应用框架、学习一下Dify/Coze之类的可视化的workflow/agent平台(其实实际开发,你不用这些东西,直接调API开发也行,看这些框架或者平台能不能降低你的工作量)
- 如果做RAG应用,还涉及到一个向量数据库,用来解决语义相似搜索问题(区别于传统数据库的like搜索),可以选一款向量数据库学习一下就行。
- 最后就是模型微调,实际上Github上有很多微调工具(例如Llama-factory、unsloth等)、开源大模型官方也会提供微调脚本,如果你选择阿里云之类的云平台,他也提供在线微调功能,基本上都是傻瓜化的操作,你最大的工作量是数据清洗,用各种办法弄出符合你业务的数据,包括写脚本转换、刷OpenAI 接口合成数据(业界惯例,就是白嫖最强模型的数据,降低自己准备训练数据的成本)、人工整理数据等等。