教程 07

教程 07 — 随手拍识图助手

掏出手机拍一张照片,发给 Telegram Bot,AI 帮你看懂它。 外国菜单、看不懂的公式、代码截图、路牌——拍一下就行。


这能做什么

你用手机拍一张照片
   ↓
发给 Telegram Bot
   ↓
OpenClaw 收到图片
MiniMax VL-01(视觉模型)分析图像
   ↓
用中文告诉你图里是什么

不需要打开浏览器,不需要手动上传,就是发张图。


实际场景

场景你发什么AI 回什么
出国旅游日文菜单照片每道菜的中文名称和大致价格
看论文数学公式截图公式的含义和推导解释
写代码报错截图错误原因和修复建议
买东西商品成分表关键成分分析,有没有你忌口的
看文件合同某一页这段条款的白话解释
认植物路边花草照片植物名称、习性、是否有毒

前置条件

  • 完成教程 01(网关已启动)
  • 完成教程 02(Telegram 已接入)
  • openclaw.json 中已配置 MiniMax(VL-01 支持图像输入)

第一步:确认视觉模型已配置

~/.openclaw/openclaw.jsonminimax.models 中加入 VL-01:

{
  "id": "MiniMax-VL-01",
  "name": "MiniMax VL-01",
  "reasoning": false,
  "input": ["text", "image"],
  "cost": { "input": 15, "output": 60, "cacheRead": 2, "cacheWrite": 10 },
  "contextWindow": 200000,
  "maxTokens": 8192
}

验证:

pnpm openclaw models list --all | grep VL
# 应看到 minimax/MiniMax-VL-01  text+image  yes

第二步:创建识图技能

新建 ~/.openclaw/workspace/skills/识图/SKILL.md

mkdir -p ~/.openclaw/workspace/skills/识图
# 识图助手

用户发来了一张图片。你需要:

1. **仔细观察**图片的所有细节
2. **判断场景**:这是文字/公式/代码/实物/截图/其他?
3. 根据场景给出最有帮助的回应:

### 如果是文字/菜单/路牌/文件
- 完整转录所有文字
- 如果是外文,翻译成中文
- 用自然语言解释内容

### 如果是代码/截图/报错
- 识别编程语言和框架
- 解释这段代码做了什么 / 错误是什么
- 给出改进建议或修复方案

### 如果是公式/图表
- 用文字说明公式含义
- 解释变量代表什么
- 如果是图表,分析数据趋势

### 如果是实物/植物/食物
- 识别这是什么
- 给出相关背景知识(产地、用途、注意事项等)

## 语气
直接、简洁,先说最重要的结论,再展开细节。
全程使用中文回复。

第三步:就这样,直接用

打开 Telegram,给你的 Bot 发一张图片,同时或之后发一句话描述你想知道什么:

示例 1:日文菜单

[发一张日文菜单照片]
这些菜怎么点?有没有适合不吃辣的?

示例 2:代码报错

[发一张终端报错截图]
这个错是什么意思,怎么修?

示例 3:什么都不说,直接发图

直接发图不加文字,AI 会根据图片内容自动判断你最可能想知道什么。


进阶:出行识图套餐

创建一个专门用于旅行的技能 ~/.openclaw/workspace/skills/旅行助手/SKILL.md

# 旅行识图助手

你是一位经验丰富的旅行助手,用户在旅行中会给你发各种照片。

## 菜单类
- 识别每道菜,中文说明食材和口味
- 标注价格(含税后大约多少人民币)
- 推荐 2-3 道适合中国游客的菜

## 交通类(地铁图、路牌、时刻表)
- 说明当前位置或方向
- 给出最简单的行动建议

## 景点类
- 识别这是哪里
- 简介历史背景(2-3句)
- 参观小贴士

## 购物类(价签、成分表)
- 价格换算成人民币
- 成分中有没有常见过敏原
- 值不值得买(同类商品国内价格对比)

全程中文,简洁实用。

工作原理

OpenClaw 收到 Telegram 图片消息后:

  1. 图片被转为 base64 格式
  2. 连同你的文字问题一起发给 MiniMax VL-01
  3. VL-01 同时理解图像和文本
  4. 回复通过 Telegram 发回给你

整个过程通常在 3-8 秒内完成。


小技巧

一次发多张图:Telegram 支持发图集,AI 会同时分析所有图片

追问:AI 有上下文记忆,发完图可以继续问:

[发菜单图]
这道菜怎么做?
→ 第二条菜是不是有花生?我过敏
→ 那推荐什么代替?

指定语言:如果你想要英文输出,说一声就行:

[发图] answer in English

为什么这个有意思

这是 OpenClaw 把消息渠道(Telegram)、视觉 AI(MiniMax VL-01)、技能系统(SKILL.md)三者串联的典型案例。

以前你要识图,需要打开 ChatGPT 网页→上传图片→等待。 现在只需要在 Telegram 里发一张图,AI 自动处理,就像在跟一个真人助手发微信一样自然。

这种"把 AI 嵌入你日常使用的工具",才是 OpenClaw 最核心的设计理念。