Gloary Lei

SAM3 笔记4：ComfyUI + SAM3 容器化部署

By Gloary Lei in ComfyUI on 03 Dec 2025

摘要： Meta 的 SAM3 (Segment Anything Model 3) 带来了强大的图像分割和视频跟踪能力。本文详细介绍了如何在 Docker 环境下部署 ComfyUI-SAM3，解决了依赖缺失、CUDA 编译加速以及模型路径配置等常见坑点，并提供了现成的 Docker 配置文件和测试工作流。 Meta 最近发布的 SAM3 在图像分割和视频对象跟踪方面表现出色。虽然 ComfyUI 社区迅速跟进适配了 PozzettiAndrea/ComfyUI-SAM3 插件，但在 Docker 环境下部署时，我们遇到了一系列依赖和环境问题。本文将分享一套经过验证的 Docker 部署方案，包含显存优化、CUDA 加速编译以及常见报错修复。 1. 核心配置文件我们将使用 pytorch/pytorch:2.5.1-cuda12.4-cudnn9-devel 作为基础镜像，以支持…

在 RTX 4060 Ti 16G 上使用 Docker 部署 ComfyUI Z-Image (FP8版)

By Gloary Lei in 计算机视觉 on 03 Dec 2025

摘要：RTX 4060 Ti 16G 是运行 Z-Image 的“黄金甜点”显卡。本文记录了如何利用 FP8 量化技术、Docker 容器化部署，最终实现生图的全过程。随着 Z-Image (S3-DiT架构) 的发布，AI 绘画进入了新的画质里程碑。但其庞大的参数量（6B 模型 + 3.4B 文本编码器）让许多显卡望而却步。经过实测，RTX 4060 Ti 16GB 配合 FP8 量化是目前性价比最高的解决方案。本文将手把手教你使用 Docker 部署这套环境。 1. 核心策略：为什么选 FP8？在开始动手前，我们需要明确模型版本的选择。Z-Image 有三种主流格式，对于…

SAM3 笔记3：基于 Docker + GPU 的部署方案

By Gloary Lei in SAM3 on 28 Nov 2025

引言 2025年11月，Meta Research 正式发布了 SAM 3 (Segment Anything Model 3)。作为一个统一了图像分割、视频跟踪和概念检测的端到端基础模型，SAM 3 的强大毋庸置疑。但对于工程部署来说，SAM 3 带来了一个巨大的挑战：激进的环境依赖。它强制要求 Python 3.12+、PyTorch 2.7 (预览版) 和 CUDA 12.6+。如果在本地 Windows 或 WSL 环境中直接配置，极易引发“依赖地狱”，破坏现有的环境。本文将分享如何在 Windows WSL 2 环境下，利用 Docker 和 NVIDIA…

SAM3 笔记2：基于 SAM3 与匈牙利算法的答题卡几何匹配方案

By Gloary Lei in SAM3 on 25 Nov 2025

摘要：在自动阅卷场景中，如何解决学生拍摄图片与标准模板的对齐问题？本文提出一套高鲁棒性方案：利用 SAM3 提取纸张边缘，结合“外接矩形兜底”策略解决畸变难题，最后通过匈牙利算法实现答题区域的全局最优匹配。将标准答题卡（Template）与学生作业（Target）进行匹配时，通常面临三大挑战：透视形变、拍摄旋转以及局部检测误差。传统的 SIFT/ORB 特征匹配在答题卡这种“纹理重复”严重的场景下往往表现不佳。随着 SAM3 (Segment Anything Model 3) 的出现，我们可以利用其强大的分割能力，通过几何对齐的方式彻底解决这一难题。本文将分享一套完整的工程化流程：“鲁棒角点提取 -> 透视变换 -> 匈牙利算法匹配”。核心流程架构 1. 特征提取：利用 SAM3 分割出答题卡的“白纸边缘”Mask。…

SAM3 笔记1：从环境配置到成功运行

By Gloary Lei in SAM3 on 22 Nov 2025

SAM3 答题卡检测系统搭建全过程：从环境配置到遇坑解决…

RAG 进阶之路7：REFRAG 机制应对长上下文挑战

By Gloary Lei in RAG on 10 Sep 2025

之前的文章中，我们从基础设施（Milvus）、语义核心（BGE）、到代码落地（LangChain）以及应用层优化（Small-to-Big/HyDE），构建了一套完整的 RAG 知识体系。然而，AI 领域的变化是指数级的。随着 Claude 3 支持 200k 上下文，Gemini 1.5 Pro 甚至支持到 1M token，一种论调开始流行：“RAG 已死，Long Context (长上下文) 才是未来。” 毕竟，如果能把整本《红楼梦》或整个公司的知识库直接塞进 Prompt 里，还需要费劲地做切片、建索引、搞检索吗？但现实是骨感的。“能放进去”不代表“能跑得动”。把海量文本直接喂给…

在 RTX 4060 Ti 16GB 上基于 docker + vLLM部署 Qwen3-8B

By Gloary Lei in LLM on 01 Jun 2025

1. 硬件背景与选型逻辑在当前的本地 LLM（大语言模型）生态中，NVIDIA GeForce RTX 4060 Ti 16GB 是一张极具争议但也极具战略价值的显卡。 * 争议点：128-bit 的显存位宽限制了其在大吞吐量下的带宽上限。 * 战略价值：16GB 的大显存是运行大参数模型或超长上下文（Long Context）的硬门槛。对于 Qwen3 系列模型，我们在 16GB 显存下主要面临三个选择： 1. Qwen3-30B-A3B MoE (Int3/Int4)：极高的智力上限，但显存占用极限，几乎没有空间留给上下文（KV Cache），适合短对话和难题攻克。 2. Qwen3-14B Dense (Int4/Int6)：平衡之选，但在 16GB 卡上略显平庸。 3. Qwen3-8B…

mem0学习笔记5：Mem0 是如何思考的

By Gloary Lei in mem0 on 25 Apr 2025

在第四部分中，我们研究了高层架构。现在，我们要进行"手术"。我们将查看 mem0/memory/main.py 中的代码，以确切了解当你调用 memory.add() 时会发生什么。这是系统中最复杂的部分。它是"思考"发生的地方。 4 步pipline 当你调用 memory.add(messages, user_id="alice") 时，Mem0 会运行一个精心设计的 4 步管道： 1. 事实提取 (Fact Extraction)："用户实际上在说什么？" 2. 上下文检索…