Gloary Lei - Gloary Lei

Windows 安装配置 Flutter+Android Studio 开发环境

By Gloary Lei in Flutter on 15 Jan 2026

Flutter 的安装看似简单，但在实际操作中，特别是涉及到 Android 环境配置时，往往充满了“坑”。本文将带您一步步完成安装，并将原本占用 C 盘几十 GB 的 SDK 和模拟器文件全部迁移至 D 盘，还你一个清爽的系统盘。第一步：基础环境准备 1. 安装 Git Flutter 依赖 Git 进行版本管理和依赖更新。 * 访问 Git 官网下载并安装最新版。 * 安装过程中一路点击 "Next" 即可。 2. 配置国内镜像（关键！）由于国内网络原因，直接下载 Flutter 依赖会非常慢甚至失败。我们需要配置环境变量使用国内镜像。 1. 按 Win + S 搜索…

SAM3 笔记4：ComfyUI + SAM3 容器化部署

By Gloary Lei in ComfyUI on 03 Dec 2025

摘要： Meta 的 SAM3 (Segment Anything Model 3) 带来了强大的图像分割和视频跟踪能力。本文详细介绍了如何在 Docker 环境下部署 ComfyUI-SAM3，解决了依赖缺失、CUDA 编译加速以及模型路径配置等常见坑点，并提供了现成的 Docker 配置文件和测试工作流。 Meta 最近发布的 SAM3 在图像分割和视频对象跟踪方面表现出色。虽然 ComfyUI 社区迅速跟进适配了 PozzettiAndrea/ComfyUI-SAM3 插件，但在 Docker 环境下部署时，我们遇到了一系列依赖和环境问题。本文将分享一套经过验证的 Docker 部署方案，包含显存优化、CUDA 加速编译以及常见报错修复。 1. 核心配置文件我们将使用 pytorch/pytorch:2.5.1-cuda12.4-cudnn9-devel 作为基础镜像，以支持…

在 RTX 4060 Ti 16G 上使用 Docker 部署 ComfyUI Z-Image (FP8版)

By Gloary Lei in 计算机视觉 on 03 Dec 2025

摘要：RTX 4060 Ti 16G 是运行 Z-Image 的“黄金甜点”显卡。本文记录了如何利用 FP8 量化技术、Docker 容器化部署，最终实现生图的全过程。随着 Z-Image (S3-DiT架构) 的发布，AI 绘画进入了新的画质里程碑。但其庞大的参数量（6B 模型 + 3.4B 文本编码器）让许多显卡望而却步。经过实测，RTX 4060 Ti 16GB 配合 FP8 量化是目前性价比最高的解决方案。本文将手把手教你使用 Docker 部署这套环境。 1. 核心策略：为什么选 FP8？在开始动手前，我们需要明确模型版本的选择。Z-Image 有三种主流格式，对于…

SAM3 笔记3：基于 Docker + GPU 的部署方案

By Gloary Lei in SAM3 on 28 Nov 2025

引言 2025年11月，Meta Research 正式发布了 SAM 3 (Segment Anything Model 3)。作为一个统一了图像分割、视频跟踪和概念检测的端到端基础模型，SAM 3 的强大毋庸置疑。但对于工程部署来说，SAM 3 带来了一个巨大的挑战：激进的环境依赖。它强制要求 Python 3.12+、PyTorch 2.7 (预览版) 和 CUDA 12.6+。如果在本地 Windows 或 WSL 环境中直接配置，极易引发“依赖地狱”，破坏现有的环境。本文将分享如何在 Windows WSL 2 环境下，利用 Docker 和 NVIDIA…

SAM3 笔记1：从环境配置到成功运行

By Gloary Lei in SAM3 on 22 Nov 2025

SAM3 答题卡检测系统搭建全过程：从环境配置到遇坑解决…

Browser-Use笔记2：安装与测试

By Gloary Lei in 智能体 on 12 Oct 2025

1. 安装 Browser-Use # 使用 pip 安装 python -m pip install browser-use # 验证安装 python -m pip list | findstr browser-use 安装输出示例： Successfully installed browser-use-0.10.1 ... 2. 安装 Chromium 浏览器 Browser-Use 需要 Chromium 浏览器来执行自动化任务。 # 安装 playwright（用于下载 Chromium） python -m pip install playwright # 下载 Chromium 浏览器 python -m playwright install chromium 预期输出：…

Browser-Use笔记1：web agent全景调研

By Gloary Lei in 智能体 on 10 Oct 2025

摘要：2024 至 2025 年间，AI 领域经历了一场深刻的范式转移——从生成式文本处理（chat）转向自主智能体（Autonomous Agency）。本文深度解析开源 Web 智能体（Web Agents）的生态系统、核心架构之争（视觉 vs 代码）、以及 Browser-Use、Skyvern 等头部项目的技术护城河。 Web 自动化的“智能体” 长期以来，Web 自动化行业一直在“脆弱性”与“能力”之间权衡。传统的 Selenium 脚本依赖于刚性的选择器（如 XPath），一旦前端代码微调，脚本便会失效。 2024-2025 年的“智能体”宣告了这一确定性模型的终结。通过将大语言模型（LLM）和视觉语言模型（…

RAG 进阶之路7：REFRAG 机制应对长上下文挑战

By Gloary Lei in RAG on 10 Sep 2025

之前的文章中，我们从基础设施（Milvus）、语义核心（BGE）、到代码落地（LangChain）以及应用层优化（Small-to-Big/HyDE），构建了一套完整的 RAG 知识体系。然而，AI 领域的变化是指数级的。随着 Claude 3 支持 200k 上下文，Gemini 1.5 Pro 甚至支持到 1M token，一种论调开始流行：“RAG 已死，Long Context (长上下文) 才是未来。” 毕竟，如果能把整本《红楼梦》或整个公司的知识库直接塞进 Prompt 里，还需要费劲地做切片、建索引、搞检索吗？但现实是骨感的。“能放进去”不代表“能跑得动”。把海量文本直接喂给…