Levon's Blog

微信: L6241425

目前最主流的 AI 图像模型(如 Midjourney, Stable Diffusion)都基于一种叫做“扩散模型 (Diffusion Model)”的技术。我们可以把它的工作流程想象成两个阶段:学习和创作。

阶段一:潜心学习(训练阶段)

这就像马良在真正获得神笔之前的苦练。

  1. 加噪: AI 会先拿一张清晰的图片(比如,一张猫的照片)。
  2. 逐步破坏: 它会像给电视加雪花点一样,一点一点地往图片上添加“噪声”,直到这张图片完全变成一片随机的、毫无意义的雪花(噪声图)。
  3. 学习修复: 最关键的一步来了!AI 会记录下整个“从清晰到模糊”的过程,然后反过来学习——如何一步步地把这张“雪花图”恢复成最初那张清晰的猫的照片。

通过对亿万张图片重复这个“先破坏、再修复”的过程,AI 就学会了任何一张正常图片应该有的“样子”和“结构”。

阶段二:挥洒创意(创作阶段)

这就是神笔马良开始画画的时候了。

  1. 听懂你的话 (Text Encoder): 当你输入“一只戴着宇航员头盔的猫”,一个专门负责理解语言的模块(通常是强大的 Transformer 模型)会把你的文字转换成一种 AI 能理解的“数学指令”。
  2. 准备画布 (Initial Noise): AI 不会从白纸开始,而是先生成一张和你想创造的图片尺寸相同的、纯粹的“雪花图”(随机噪声)。这就像是创意的混沌起点。
  3. “照着指令”去修复 (Guided Denoising): AI 开始对这张“雪花图”执行它最擅长的“修复”工作。但这一次,它不是要恢复成某张特定的旧图,而是在每一步“去除噪声”时,都会参照第一步生成的“数学指令”。它会不断地问自己:“我怎样才能把这些噪声变得更像‘一只戴着宇航员头盔的猫’呢?”
  4. 作品诞生 (Final Image): 经过几十个步骤的反复“雕琢”,噪声被完全去除,一张符合你描述的、全新的图像就诞生了!
阅读全文 »

1. 安装

1.1 下载

1
2
3
curl -L -o trojan-go-linux-amd64.zip https://github.com/p4gefau1t/trojan-go/releases/download/v0.10.6/trojan-go-linux-amd64.zip

unzip trojan-go-linux-amd64.zip -d trojan-go
阅读全文 »

1. 全文搜索选型

1.1 全文搜索

1.2 向量搜索(语义搜索)

1.3 结论 (meilisearch)

  • 如果需要全面的搜索功能且有运维能力:Elasticsearch
  • 如果需要简单部署的全文搜索:Meilisearch
  • 如果需要最高性能和专注的向量搜索:Qdrant 或 Weaviate
  • 如果已有 PostgreSQL:考虑 pgvector 扩展
  • 如果希望纯 Go 实现且内嵌:Bleve
阅读全文 »

1. 软路由

我用的是 网件的 R6220路由器,可以刷老毛子和openwrt 固件。

1.1 刷机步骤

  • 准备工作:1个 U 盘,1根网线,1个路由器。
  • 先刷 breed
  • 再刷固件
阅读全文 »

1. 大模型基础

1.1 LLM 核心概念

LLM(Large Language Model,大语言模型)是基于 Transformer 架构 的深度学习模型,参数规模通常达百亿至万亿级别。其核心能力源于自注意力机制(Self-Attention),能够捕捉文本中的长距离依赖关系。

LLM 的训练遵循「预训练 + 微调」范式:

阶段目标数据规模代表技术
预训练学习语言通用表示万亿 TokenNext Token Prediction
指令微调对齐人类指令百万级样本SFT(Supervised Fine-Tuning)
对齐优化提升安全性与有用性人类反馈数据RLHF / DPO

代表模型演进:GPT-3 → ChatGPT(GPT-3.5 + RLHF) → GPT-4 → GPT-4o(原生多模态)

阅读全文 »

1. AI 发展路径概览

%%{init: {'theme': 'base', 'themeVariables': { 'primaryColor': '#4F46E5', 'primaryTextColor': '#000', 'primaryBorderColor': '#3730A3', 'lineColor': '#6366F1', 'secondaryColor': '#10B981', 'tertiaryColor': '#F59E0B'}}}%%
flowchart TD
    subgraph L1["基础层"]
        A["语言模型<br/>Language Models"]
        B["理解能力<br/>Understanding"]
        C["上下文处理<br/>Context"]
    end

    subgraph L2["中级层"]
        D["条件数据生成<br/>Conditional Generation"]
        E["推理与问题解决<br/>Reasoning"]
        F["创造力<br/>Creativity"]
    end

    subgraph L3["高级层"]
        G["AI Agents<br/>代理工作流"]
        H["类人交互<br/>Human-Like Interaction"]
    end

    subgraph L4["终极目标"]
        I["AGI<br/>通用人工智能"]
    end

    A --> D
    B --> E
    C --> F
    D --> G
    E --> G
    F --> H
    G --> I
    H --> I

    classDef foundation fill:#4F46E5,stroke:#3730A3,color:#fff
    classDef intermediate fill:#10B981,stroke:#059669,color:#fff
    classDef advanced fill:#F59E0B,stroke:#D97706,color:#000
    classDef ultimate fill:#EF4444,stroke:#DC2626,color:#fff

    class A,B,C foundation
    class D,E,F intermediate
    class G,H advanced
    class I ultimate
阅读全文 »

1. 基础

1.1 RAG 为什么出现

大模型问题:

  • 幻觉问题,基于概率
  • 数据新鲜度
  • 数据安全
阅读全文 »

最近发现不少程序员转行大模型开发,直接去学 pytorch、transformer, 从底层开始学,其实大可不必。你用了那么多年 MYSQL 也没见你想去重新开发一个数据库,怎么突然就想去开发一个新模型了。

如果你想弄个 Deepseek,需要先评估自己的学历背景、学术背景,能不能加入国内这几家大模型开发团队,或者退一步也是做模型微调,但是不用 Github 开源的微调工具,自己有学术成果,设计新的微调方法,这条路几乎不适合半道转行的应用开发程序员。

阅读全文 »
0%