GPT-4 Vision图像识别是ONE社区收录的AI SKILL插件,利用GPT-4 Vision能力进行图像分析、OCR识别和内容理解。截至2026年,ONE社区已收录77+款AI SKILL插件,提供一键安装与部署支持。
功能介绍
GPT-4 Vision图像识别
描述
利用GPT-4 Vision能力进行图像分析、OCR识别和内容理解。支持多种图像格式和实时处理。功能特点
- 支持JPEG、PNG、GIF、WebP格式
- 支持URL和Base64编码的图像
- 实时文字识别(OCR)
- 图像内容描述和分析
- 缺陷检测和质量评估
使用说明
1. 上传或提供图像URL 2. 配置识别类型(OCR、描述、分析等) 3. 调用Vision API 4. 获取并处理识别结果示例代码
import base64
import requestsimage_path = "image.jpg"
with open(image_path, "rb") as image_file:
image_data = base64.b64encode(image_file.read()).decode("utf-8")
headers = {"Content-Type": "application/json"}
payload = {
"model": "gpt-4-vision-preview",
"messages": [{
"role": "user",
"content": [{"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_data}"}}]
}]
}
response = requests.post("https://api.openai.com/v1/chat/completions", json=payload, headers=headers)
print(response.json())
安装方式
npx clawhub@latest install gpt4-vision-recognition
安装完成后,在 OpenClaw 中搜索「GPT-4 Vision图像识别」即可启用。