GGUF 文件如何驱动 AI 推理

一个从静态文件到动态“思考”过程的可视化动画

📄 GGUF 文件内容

元数据 (Metadata)

  • general.architecture: "qwen3"
  • tokenizer.ggml.tokens: [Array]
  • tokenizer.ggml.eos_token_id: 151645

张量 (Tensors)

  • token_embd.weight
  • blk.0.attn_q.weight
  • blk.0.attn_k.weight
  • blk.0.attn_v.weight
  • blk.0.attn_output.weight
  • blk.0.ffn_gate.weight
  • blk.0.ffn_up.weight
  • blk.0.ffn_down.weight
  • ... (blk.1 到 blk.27) ...
  • output_norm.weight

🧠 AI 推理过程

1. 用户输入 (Prompt)

2. 分词 (Tokenization)

使用元数据中的词汇表,将文本转换为数字 ID。

3. 嵌入 (Embedding)

将每个 ID 转换为代表其语义的高维向量。

4. Transformer 层处理 (以 Block 0 为例)

a. 自注意力机制 (Self-Attention)

b. 前馈网络 (Feed-Forward Network)

5. 输出预测

根据最终向量,计算下一个最可能的词元。