教程 07 — 随手拍识图助手
掏出手机拍一张照片,发给 Telegram Bot,AI 帮你看懂它。 外国菜单、看不懂的公式、代码截图、路牌——拍一下就行。
这能做什么
你用手机拍一张照片
↓
发给 Telegram Bot
↓
OpenClaw 收到图片
MiniMax VL-01(视觉模型)分析图像
↓
用中文告诉你图里是什么
不需要打开浏览器,不需要手动上传,就是发张图。
实际场景
| 场景 | 你发什么 | AI 回什么 |
|---|---|---|
| 出国旅游 | 日文菜单照片 | 每道菜的中文名称和大致价格 |
| 看论文 | 数学公式截图 | 公式的含义和推导解释 |
| 写代码 | 报错截图 | 错误原因和修复建议 |
| 买东西 | 商品成分表 | 关键成分分析,有没有你忌口的 |
| 看文件 | 合同某一页 | 这段条款的白话解释 |
| 认植物 | 路边花草照片 | 植物名称、习性、是否有毒 |
前置条件
第一步:确认视觉模型已配置
在 ~/.openclaw/openclaw.json 的 minimax.models 中加入 VL-01:
{
"id": "MiniMax-VL-01",
"name": "MiniMax VL-01",
"reasoning": false,
"input": ["text", "image"],
"cost": { "input": 15, "output": 60, "cacheRead": 2, "cacheWrite": 10 },
"contextWindow": 200000,
"maxTokens": 8192
}
验证:
pnpm openclaw models list --all | grep VL
# 应看到 minimax/MiniMax-VL-01 text+image yes
第二步:创建识图技能
新建 ~/.openclaw/workspace/skills/识图/SKILL.md:
mkdir -p ~/.openclaw/workspace/skills/识图
# 识图助手
用户发来了一张图片。你需要:
1. **仔细观察**图片的所有细节
2. **判断场景**:这是文字/公式/代码/实物/截图/其他?
3. 根据场景给出最有帮助的回应:
### 如果是文字/菜单/路牌/文件
- 完整转录所有文字
- 如果是外文,翻译成中文
- 用自然语言解释内容
### 如果是代码/截图/报错
- 识别编程语言和框架
- 解释这段代码做了什么 / 错误是什么
- 给出改进建议或修复方案
### 如果是公式/图表
- 用文字说明公式含义
- 解释变量代表什么
- 如果是图表,分析数据趋势
### 如果是实物/植物/食物
- 识别这是什么
- 给出相关背景知识(产地、用途、注意事项等)
## 语气
直接、简洁,先说最重要的结论,再展开细节。
全程使用中文回复。
第三步:就这样,直接用
打开 Telegram,给你的 Bot 发一张图片,同时或之后发一句话描述你想知道什么:
示例 1:日文菜单
[发一张日文菜单照片]
这些菜怎么点?有没有适合不吃辣的?
示例 2:代码报错
[发一张终端报错截图]
这个错是什么意思,怎么修?
示例 3:什么都不说,直接发图
直接发图不加文字,AI 会根据图片内容自动判断你最可能想知道什么。
进阶:出行识图套餐
创建一个专门用于旅行的技能 ~/.openclaw/workspace/skills/旅行助手/SKILL.md:
# 旅行识图助手
你是一位经验丰富的旅行助手,用户在旅行中会给你发各种照片。
## 菜单类
- 识别每道菜,中文说明食材和口味
- 标注价格(含税后大约多少人民币)
- 推荐 2-3 道适合中国游客的菜
## 交通类(地铁图、路牌、时刻表)
- 说明当前位置或方向
- 给出最简单的行动建议
## 景点类
- 识别这是哪里
- 简介历史背景(2-3句)
- 参观小贴士
## 购物类(价签、成分表)
- 价格换算成人民币
- 成分中有没有常见过敏原
- 值不值得买(同类商品国内价格对比)
全程中文,简洁实用。
工作原理
OpenClaw 收到 Telegram 图片消息后:
- 图片被转为 base64 格式
- 连同你的文字问题一起发给 MiniMax VL-01
- VL-01 同时理解图像和文本
- 回复通过 Telegram 发回给你
整个过程通常在 3-8 秒内完成。
小技巧
一次发多张图:Telegram 支持发图集,AI 会同时分析所有图片
追问:AI 有上下文记忆,发完图可以继续问:
[发菜单图]
这道菜怎么做?
→ 第二条菜是不是有花生?我过敏
→ 那推荐什么代替?
指定语言:如果你想要英文输出,说一声就行:
[发图] answer in English
为什么这个有意思
这是 OpenClaw 把消息渠道(Telegram)、视觉 AI(MiniMax VL-01)、技能系统(SKILL.md)三者串联的典型案例。
以前你要识图,需要打开 ChatGPT 网页→上传图片→等待。 现在只需要在 Telegram 里发一张图,AI 自动处理,就像在跟一个真人助手发微信一样自然。
这种"把 AI 嵌入你日常使用的工具",才是 OpenClaw 最核心的设计理念。