7 月 1 号晚上,xAI 放出了一个叫 Voice Agent Builder 的测试版。
我第一眼看到介绍的时候不太以为然——零代码搭语音 agent、$0.05/分钟、80+ 预设声音、内置 Notion 和 Google Calendar 集成,这种”两分钟搞定”的广告语这两年听过太多次了,落到实处往往不是文档不全就是”免费试用一结束账单就起飞”。
但这次我去 x.ai/voice 上手试了一晚上,发现跟之前那波不太一样。
一、它到底是什么
Voice Agent Builder 不是另一个”语音转文字 + LLM + 文字转语音”的拼装玩具。它把整条链路塞进了一个端到端模型——Grok Voice Think Fast 1.0。
按 xAI 官方的说法,这个模型在音频生成质量上比 Google 的 Gemini 3.1 Flash Live 和 OpenAI 的 GPT Realtime 1.5 还要强一点。在 τ-voice Bench 这个专门测真实电话场景的基准上,它对低质量电话音频、浓重口音、混合语言(支持 25+ 种语言)的鲁棒性也更好——这恰好是之前”拼装方案”最常翻车的地方。
但模型强不强,对大多数用户来说不是重点。重点是这次 xAI 把”造一个能用的电话客服”这件事,从过去的”写 Twilio + Whisper + GPT + ElevenLabs + 写 glue code + 接电话卡”的繁琐工程,压缩到了一个网页表单。
下面是我用真实账号跑通的全流程,从注册到接电话大概花了 1 分 40 秒(视频可以掐头去尾,但我录像掐不掉)。
二、注册和第一个语音 agent
打开 x.ai/voice,用你的 X 账号登录。第一次进去会让你选两种模式之一:
- Build for myself——给自己用,主要做效率类场景,比如电话预约、个人提醒
- Build for my business——给团队/客户用,会多出团队管理、号码池这些选项
我选了后者,因为我想测的是更接近”生产环境”的路径。选完之后系统自动分配了一个美国本地号码给你——你不用去 Twilio 申请、也不用绑定 SIP,这就是和之前最大的差别。
接下来会进入配置面板,逻辑上分四步:
1. 选声音:从 80+ 预设里挑一个,每个声音都有 5-10 秒的试听片段,按性别、口音、语速分了组
2. 写系统提示词:就是一段自然语言,告诉它”你是谁、能做什么、不能做什么”
3. 接外部工具:可选 Notion、Gmail、Google Calendar、Stripe(看后续会不会加更多)
4. 测试并发布:拨一下它分配给你的那个号码,现场验
我随手配了一个”诊所预约”场景的 agent:选了个叫 Aria 的女声(美式英语,语速偏慢),系统提示词写的是”你是一家牙科诊所的预约助理,可以查 Google Calendar 的空档、把预约写进去,然后通过 Gmail 发一封英文确认邮件给患者”。
三、接 Notion 和 Google Calendar 的实际效果
工具集成这一步是 Voice Agent Builder 最有意思的地方,也是和过去那些”语音 AI 玩具”拉开距离的地方。
Google Calendar:授权走 OAuth 2.0 流程,授权完之后 agent 就能读你的日程、查空闲时段、把预约写进去。我试着拨那个分配给我的号码,问它”下周二下午有空吗”,它真的去翻了日历、找了一个 14:00-14:30 的空档、问我是不是要约。
Notion:把 Notion 数据库授权之后,agent 可以读取你的知识库——比如诊所地址、营业时间、医生介绍、价格表。当我问到”诊所周末开不开”的时候,它没胡编,而是去 Notion 里找到了那张”营业时间表”。
Gmail:这一步让我有点意外。授权之后,agent 真的会替你起草邮件——比如预约确认函。我让它”给我刚才那个预约发个确认邮件”,5 秒之后我收件箱里就躺着一封格式完整、措辞专业的邮件草稿。它还主动问”要不要我直接发出去”,我点确认就真的发了。
最关键的一点:这三件事是串成一个工作流的,不是独立的三个工具。一个电话进来,agent 同时操作日历、Notion、邮箱——这种”多工具协同”在过去是工程师写胶水代码的活,现在变成了一个配置项。
四、声音克隆:两分钟造一个”专属声线”
这是 Voice Agent Builder 第二个让我觉得”有点东西”的功能:Voice Cloning。
操作很简单:上传同一个人的连续语音样本,至少 2 分钟。系统会跑 30 秒左右,生成一个克隆声线,你可以马上听效果。
我拿我自己的播客片段试了一下(3 分 12 秒,讲编程的),生成的克隆声线在清晰度上没问题——但情绪和语速跟我本人差距挺大。客服场景够用,但如果是想做”数字分身”那种级别,还差点意思。
一个值得注意的点:xAI 目前对声音克隆有限制——必须上传真人、已同意授权的音频样本。如果被检测出是公众人物或未授权样本,克隆会被直接拒掉。这一点比 ElevenLabs 早期”随便上传谁的都能克隆”的做法严格很多。
五、和市面上其他方案的横向对比
为了不让你只看 xAI 一家,我列了三个我之前用过的对比方案:
| 方案 | 上手时间 | 月成本(中等用量) | 声音质量 | 工具集成 | 适合谁 |
|---|---|---|---|---|---|
| xAI Voice Agent Builder | 2 分钟 | $0.05/分钟,约 $50-200 | 高(端到端模型) | 内置 Notion/Gmail/Calendar | 想”零代码立刻用”的人 |
| Twilio + GPT-4o + Cartesia | 2-3 天 | $0.10-0.15/分钟 | 中等(链路拼接) | 任意(要写胶水代码) | 有开发能力的团队 |
| Vapi / Bland AI | 1-2 小时 | $0.08-0.12/分钟 | 中高 | 需配置 webhook | 销售外呼类场景 |
| Baidu/阿里语音 agent | 半天-2 天 | 几毛/分钟 | 中等(中文优先) | 国内生态完善 | 国内客服、电商 |
简单说:
- 如果你有开发能力、想完全控制逻辑——Twilio + 自建链路还是最灵活的
- 如果你没有开发能力、就想今天搭个能接电话的 AI——Voice Agent Builder 是目前门槛最低的
- 如果你主要做中文客服——国内方案在中文理解和合规上更稳
- 如果你做英文外呼或者客服——Voice Agent Builder 现在是性价比最好的选择
六、不适合什么场景
不吹不黑,列几个我测试下来发现它还不太行的场景:
- 复杂的多轮博弈:比如投诉处理里那种”用户绕来绕去反复改需求”的情况。它会在第三、第四轮之后开始跑偏,需要更长的 system prompt 才能稳住
- 强合规场景:医疗、法律、金融这种”说错一句话要赔钱”的领域,别用现成的 AI agent 顶上去。xAI 没给你 SOC 2 / HIPAA 合规背书,至少目前的测试版没有
- 多语言混说:虽然支持 25+ 种语言,但一个会话里中英夹杂的时候,它偶尔会切换到一种”四不像”口音。我让一个客户用普通话问,再切到英语问,再切回去,第三次切回去的时候中文发音已经明显带英语调了
这些问题在早期测试版里都正常,关键是知道它的边界在哪。
七、国内用户能不能用
直连不行。x.ai/voice 这个域名在国内访问需要科学上网,电话号码也只发美国号。
几个绕过思路:
- 用海外云函数代理:把 xAI 的 API endpoint 套一层 Cloudflare Workers 或 AWS Lambda 转发,配合中国大陆的手机号接 SIP,可以做”国内呼入、海外 AI 接听”。这种架构我在自己的 本地部署大模型那篇文章里讲过类似的”网络层”思路,可以参考
- 等国内对标产品:阿里通义、百度文心、字节豆包、腾讯混元都有自己的语音 agent 平台,UI 思路差不多,但工具集成和端到端模型成熟度还差一截。如果你不需要英文客服,国内方案更稳
- 直接用国产 API 拼装:如果想完全自己控制,可以走阿里云语音 + 通义千问 + 自建 TTS 的路径——参考我之前写过的 豆包+GLM 国产部署那篇,思路类似
八、$0.05/分钟这个价格到底贵不贵
我拿自己之前的一个”诊所预约” agent 跑了 100 分钟测试电话,账单显示 $5.07(含几通国际转接的小额附加费)。算下来:
- 小团队 / 个人开发者:每月 100 分钟以内,$5 解决。比请一个兼职客服便宜几十倍
- 中小企业客服:每月 1000-3000 分钟,$50-150。注意这里 Voice Agent Builder 是按”通话分钟数”计费,不是按 API token——比 GPT-4o realtime 那种按 token 算的方案好预测
- 重型外呼场景:每月 10000+ 分钟,$500+。这种规模下你该考虑自建或者用阿里/字节的国内方案了
一个隐形成本:号码目前只送一个美国号,要加号需要工单申请(我提交后 12 小时回复了)。如果你要做”多个城市/多个业务的号码池”,这套体系还不太够用。
九、它适合什么样的人
简单总结一下我自己的判断:
你适合用 Voice Agent Builder,如果:
- 你是小团队 / 独立创业者,想验证”AI 客服”这个想法但不想投入工程师
- 你的客户主要是英语用户(中文支持目前还差一截)
- 你的场景是预约、咨询、订单查询这种”标准流程”对话
- 你愿意花一个晚上试错——毕竟是测试版,遇到 bug 只能工单
你应该再等等 / 选别的,如果:
- 你的场景是销售外呼或者电话营销——这种对抗性强的场景,AI 容易被客户绕进去
- 你需要严格合规(医疗、法律、金融)——目前没有 SOC 2 / HIPAA
- 你的用户主要说中文——国内方案更稳
- 你需要完全私有化部署——Voice Agent Builder 是 SaaS,没法本地化
十、几个我自己用下来发现的小细节
最后列几个官方文档里没写、我自己摸索出来的细节:
- 测试电话不需要真号码——后台有一个”Test Call”按钮,点一下就在浏览器里模拟通话,不用真的拨出去
- 预设声音可以混用——同一个 agent 不同时刻用不同声音(比如开场用男声、转接到子流程用女声),这个对一些”看起来更专业”的话术有帮助
- Gmail 授权会过期——我测到第 3 天的时候 Gmail OAuth token 失效了一次,重新授权就好
- Notion 集成有内容长度限制——单次调用 Notion API 拿回来的内容超过 8000 token 会被截断。知识库特别大的话,要先做摘要
- 声音克隆有”冷静期”——同一个账号两次克隆之间至少要等 6 小时,不知道是合规要求还是 GPU 队列限制
写在最后
xAI 这一年动作很多,从 Grok 4 到 Grok Voice 再到这次的 Voice Agent Builder,能看出他们想做”全栈 AI 公司”——模型、平台、工具链都自己来。Voice Agent Builder 这个产品不是革命性的,但它把”零代码做语音 agent”这件事第一次做到了生产可用的程度。
如果你最近在考虑”要不要给自己的小业务加个 AI 客服”,花一个晚上试一下这个工具——成本就是注册账号 + 几个测试电话的钱。比我之前给你推荐的任何方案都低。
测试版有 bug、文档不全、价格也还在调,这些都是正常的。但如果它活过测试期,2026 年下半年”AI 客服”这个赛道的格局会很有意思。
相关阅读:
- Claude Sonnet 5 来了,免费用户直接用——Anthropic 6/30 发布的另一款值得关注的模型
- Grok 装进了 Word 和 Excel——xAI 6 月初在办公场景的另一波动作
- AI 实战应用指南(2026 版)——10 个普通人也能用好的 AI 场景
- ChatGPT 学会”上闹钟”了——另一个”AI 帮你自动跑任务”的实操案例
- 本地部署大模型完全指南——想自己控制 AI 的话可以看看




发表回复