OpenAI Whisper语音转录是ONE社区收录的AI SKILL插件,通过OpenAI音频转录API(Whisper模型)将音频文件转换为文本。支持多种音频格式(MP3、MP4、M4A、WAV等),提供高准确度的语音识别,适用于会议记录、访谈转录、语音笔记转换等多种场景。需要有效的OpenAI API密钥。截至2026年,ONE社区已收录77+款AI SKILL插件,提供一键安装与部署支持。
功能介绍
OpenAI Whisper语音转录
功能介绍
OpenAI Whisper语音转录技能利用OpenAI的Whisper模型,提供高质量的语音转文本服务。Whisper是一个先进的自动语音识别系统,在多种语言和口音上表现出色,特别适合处理真实世界的音频数据。
主要功能包括:
- 多格式支持:支持MP3、MP4、M4A、WAV、MPEG、MPGA、WEBM等多种音频格式
- 多语言识别:支持包括中文、英文在内的多种语言自动检测和转录
- 高准确度:基于大规模多语言数据训练,识别准确度高
- 时间戳生成:可选生成带时间戳的转录文本
- 说话人分离:支持识别不同说话人的语音(需要高级配置)
- 批量处理:支持批量音频文件转录
安装方法
该技能已预装在OpenClaw中。如需手动安装或更新:
# 通过clawhub安装
clawhub install openai-whisper-api或从GitHub直接安装
cd ~/.openclaw/skills && git clone https://github.com/openclaw/skills-openai-whisper-api.git openai-whisper-api使用前准备
1. 获取OpenAI API密钥:访问https://platform.openai.com/api-keys 创建API密钥 2. 配置API密钥:在OpenClaw配置中添加OpenAI API密钥 3. 准备音频文件:确保音频文件格式受支持,质量良好
使用场景
1. 会议记录:自动转录工作会议、团队讨论内容 2. 访谈转录:将采访、访谈录音转换为文字稿 3. 语音笔记:将语音备忘录转换为可搜索的文本 4. 播客字幕:为播客节目生成字幕文件 5. 教育内容:转录讲座、课程音频 6. 客服录音分析:分析客服通话内容,提取关键信息
注意事项
1. API成本:使用OpenAI API会产生费用,请关注使用量 2. 音频质量:背景噪音、多人同时说话可能影响识别准确度 3. 文件大小限制:API有文件大小限制(通常25MB) 4. 隐私考虑:敏感音频内容上传到云端需谨慎 5. 网络要求:需要稳定的网络连接访问OpenAI API
使用示例
# 基本转录
转录 audio.mp3指定语言(中文)
转录 audio.wav --language zh生成带时间戳的转录
转录 audio.m4a --timestamp批量处理目录中的音频文件
转录批量 ./audio_files/设置温度参数(控制随机性)
转录 audio.mp3 --temperature 0.2高级功能
- 提示词工程:提供上下文提示提高特定领域术语识别准确度
- 温度控制:调整生成文本的随机性
- 响应格式:支持JSON、文本、SRT字幕等多种输出格式
- 自定义模型:可选使用不同版本的Whisper模型
最佳实践
- 确保音频质量良好,减少背景噪音
- 对于专业术语,提供相关提示词
- 长音频分段处理以提高准确度
- 定期检查API使用情况和费用
- 敏感内容考虑本地Whisper部署替代方案
安装方式
npx clawhub@latest install openai-whisper-api
安装完成后,在 OpenClaw 中搜索「OpenAI Whisper语音转录」即可启用。