无屏幕无AI,儿童VoIP语音硬件Tin Can售出数十万台,累计融资1550万美元;OpenAI开源语音控制交互组件丨日报
开发者朋友们大家好这里是「RTE 开发者日报」每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTEReal-Time Engagement 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」但内容仅代表编辑的个人观点欢迎大家留言、跟帖、讨论。本期编辑koki、鲍勃01 有话题的技术1、OpenAI 开源 realtime-voice-component使用语音控制交互界面OpenAI 发布了基于 OpenAI Realtime API 构建的开源参考实现 realtime-voice-component。该库专为 React 环境设计旨在为具有明确预定义工具的应用提供低延迟、状态可感知的语音交互界面。工具受限型Tool-constrained交互架构不同于通用浏览器自动化该组件要求应用预定义精确的智能体Agent动作。工具所有权归属于应用端由 UI 负责最终的可见状态变更。原生 React 绑定与控制器提供封装好的 React Controller 和可选的 Launcher Widget。支持跨多个屏幕共享控制器实例实现复杂业务流如多步骤表单、共享状态棋类游戏的语音控制。可视化确认机制Ghost Cursor内置「幽灵光标」功能为语音触发的 UI 操作提供视觉反馈与二次确认逻辑降低多模态交互中的指令误判风险。明确的功能分层定界该组件定位于 UI 渲染层与底层传输协议Raw Realtime和高层编排框架openai-agents-js互补。它不负责底层的自定义音频处理也不涉及复杂的智能体交接Handoff或 MCPModel Context Protocol流程。实验性功能集成在 Demo 示例中集成了基于运行时的可选「唤醒词Wake-word」检测实验功能。https://github.com/openai/realtime-voice-component/(OpenAIDevs)2、HeyGen 开源 HyperFrames原生支持 AI 智能体的 HTML-to-MP4 视频渲染框架视频生成平台 HeyGen 开源了 HyperFrames这是一款专为 AI 智能体Agent设计的端到端视频工作空间框架。该工具通过将 HTML/CSS/GSAP 动画转化为逐帧确定的 MP4 视频允许开发者在 Codex、Claude Code、Cursor 等编码环境中通过自然语言指令完成视频的编写、编辑与渲染。智能体原生Agent-native交互模式不同于基于 React 的传统方案如 RemotionHyperFrames 采用原生 HTML 结构作为输入。由于大模型对 HTML 的生成能力远超复杂的组件体系智能体可通过 /hyperframes 等斜杠命令直接操作 DOM 属性和动画逻辑。确定性渲染Deterministic Rendering架构集成无头 Chrome 与 FFmpeg采用帧缓冲Frame buffering和 image2pipe 流式传输技术。该架构确保在相同的 HTML/数据输入下输出的视频帧序列完全一致适用于自动化生产管线。框架适配器模式Frame Adapter支持 GSAP、Lottie、CSS 和 Three.js 等多种动画运行时。通过「库时钟Library-clock」同步技术实现了帧精确Frame-accurate的搜索与预览解决了渲染时动画与墙钟时间不同步的问题。https://github.com/heygen-com/hyperframes/(HeyGenX)3、开源 AI-HR 招聘平台集成 TEN Framework 与 FastAPI实现 1s 延迟实时语音面试AI-HR 发布了基于** Python FastAPI 与 TEN Framework 的端到端智能招聘自动化系统**。该平台通过 LLM 与实时通信RTC技术的深度解耦与重组实现了从简历语义解析到「无人值守」实时语音面试的全流程闭环将面试交互延迟降低至秒级。 1s 拟人化交互延迟通过 TEN Framework 优化 RTC 链路集成 VAD静音检测与语义中断技术解决了传统 ASR-LLM-TTS 架构中 5-10s 的高延迟痛点。基于语义的深度技术追问不再依赖关键词匹配利用 GPT-4o 或 DeepSeek 等模型对简历进行多维度打分并根据应聘者回答实时生成针对性的技术细节核实问题。异构环境下的分布式架构后端 API 采用 FastAPI实时交互体 ten_agent 运行于 Linux/WSL 环境支持 tman 插件管理系统实现了业务逻辑与实时音视频流处理的解耦。全自动招聘 Pipeline系统自动同步 Boss 直聘等平台职位状态根据 AI 评估得分触发简历状态变更、发起面试邀约及生成面试评估报告。企业级稳定性设计内置熔断器 Circuit Breaker 与幂等处理机制通过 Orchestrator面试编排器管理会话状态支持大规模并发场景下的请求监控。https://github.com/shenlan-ai/AI-HR( GitHub)4、商汤开源 SenseNova U1基于 NEO-unify 原生架构实现图文理解生成统一连续性图文创作输出示例商汤发布并开源日日新 SenseNova U1 系列原生理解生成统一模型。该模型基于自研 NEO-unify 架构在单一模型架构内实现了多模态理解、推理与生成的深度融合其轻量化版本在 8B 规模下实现了比肩大型闭源商用模型的生成质量与推理效率。NEO-unify 原生统一架构彻底摒弃主流的「视觉编码器VE 变分自编码器VAE 语言模型」拼接范式通过构建统一表征空间将视觉与语言信息融入每一层计算消除了跨模态转换的信息损耗。首创连续性图文交错创作支持在单次模型调用中输出高一致性的图文内容。在多步骤任务如菜谱、流程图中图像间的风格与语义逻辑可保持像素级的视觉保真度与上下文对齐。高性能轻量化配置开源 SenseNova-U1-8B-MoT稠密骨干与 SenseNova-U1-A3B-MoTMoE 架构两个版本。实测在 OneIG、BizGenEval 等图像生成与视觉推理基准中达到同量级 SOTA生成延迟显著低于同类闭源模型。物理空间与具身智能适配针对物理世界布局与精细关系进行建模旨在实现在单一模型闭环内完成从环境感知、逻辑推演到任务执行的具身智能大脑功能。GitHub:https://github.com/OpenSenseNova/SenseNova-U1Hugging Face:https://huggingface.co/collections/sensenova/sensenova-u1商汤科技02 有亮点的产品1、Jovida 完成千万级 Pre-Seed 轮融资上线主动式生活智能体支持 WhatsApp 触达与跨模态视觉解析由前字节跳动产品合伙人创立的 AI 公司 Jovida 宣布完成数千万元人民币 Pre-Seed 轮融资锦秋基金领投百度风投跟投。该公司正式发布 iOS 端主动式生活智能体产品放弃传统对话框交互采用「后台感知IM 主动触达」的「人类闭环Human Loop」范式通过跨应用上下文调用与垂直技能生态Agent Square接管泛健康等长线个人目标的拆解与执行。交互去 APP 化与交互式卡片Interactive Nudges彻底抛弃长文本对话流。系统通过原生聊天集成Native Chat Integration接入 WhatsApp 并结合 iOS 离线 Push 机制将任务转化为明确的行动卡片。用户无需唤醒 APP 即可在 IM 界面内完成状态打卡、跳过或重新调度。多维上下文动态触发Live Context放弃静态定时提醒。智能体通过端云一体架构Edge-Cloud Architecture调用手机端日历、系统时钟与地理位置权限。算法结合实时物理环境计算触发时机例如检测到用户处于餐厅位置附近时自动推送基于该位置的低碳水餐品选项。封装垂直场景的跨模态视觉解析在细分目标下提供深度的图像处理功能。例如「皮肤扫描Face Scan」生成成分冲突预警与使用建议「餐盘分析Meal Photo Analysis」通过照片即时估算大卡与营养素同时支持实体餐厅菜单的 OCR 扫描与健康项自动过滤。动态挂载的 UGC 技能网络Agent Square系统内置官方与社区用户构建的垂直技能模块涵盖减脂、睡眠优化、英语学习等。当侦测到用户诉求变化时主智能体会自动检索、拉取并静默安装匹配的垂类技能组件Self-Evolving接管对应的底层执行逻辑。结构化持久记忆Long-Term Memory摒弃单向 Markdown 文本日志。系统将用户的跨平台履约率、体征数据变化如 Apple Health 睡眠评分提炼为结构化字段。智能体依赖该状态库而非短期对话上下文动态平滑后续任务的执行难度。发布计划 iOS 客户端现已在 App Store 上线Agent Square 已开放皮肤管理、减脂等数十款垂类技能模块供一键激活。https://jovida.ai/agents( Founder Park)2、Tin Can 发布儿童 VoIP 座机硬件摒弃屏幕与电池建立订阅制语音闭环初创公司 Tin Can 推出一款针对儿童市场的 VoIP 语音终端。该产品通过彻底移除屏幕、摄像头及短信功能并强制采用插电使用的非移动设计配合家长端 App 的白名单过滤试图在智能手机之外建立一套受控的、去沉迷化的儿童社交通讯系统。硬件参数与交互设计采用基于 IP 的语音传输VoIP技术通过 Wi-Fi 联网机身无电池由 USB-C 接口供电以固定使用位置配备 4 个可自定义的 Emoji 快捷拨号物理按键及语音信箱提醒灯。白名单云端管控系统所有接听与拨出号码均需通过家长端 App 授权自动拦截非白名单骚扰电话支持设置「静音时段」保留紧急呼叫支持「一号多机」模式适配离异家庭等跨空间使用场景。定价与商业模式硬件售价 100 美元Tin Can 用户间通过 5 位短号通话免费拨打普通手机/座机需支付 9.99 美元/月的「Party Line」订阅费。融资与交付表现已完成累计 1550 万美元融资Greylock Partners 领投种子轮目前由于产能受限及预购量激增新订单交货期已排至 2026 年 6 月。技术局限与冗余问题初代硬件存在 1 秒左右的 VoIP 通话延迟及回声USB-C 供电接口物理连接稳定性不足2025 年曾因 100 倍流量峰值导致服务器宕机。https://tincan.kids/( APPSO)03 有态度的观点1、Replit CEOAI 已经能写代码但它替代不了系统思维据《商业内幕》报道AI 编程平台公司 Replit CEO Amjad Masad 昨日在《20VC》播客节目中表示年轻人不应仅仅因为薪资前景而选择修读计算机科学专业。如果你对它没有那种如飞蛾扑火般的吸引力就不要因为别人告诉你能在 Google 赚大钱而去读计算机科学这「相当愚蠢」。Masad 指出21 世纪初入行者大多出于真实热情此后该专业逐渐被「炒热」各大高校计算机系急速扩张核心原因只有一个 —— 容易赚钱。而 AI 崛起后这一逻辑已不再成立。他同时强调对真正感兴趣的人而言机器学习与 AI 方向依然大有可为数据结构与算法等基础知识不会因 AI 进化而过时行业始终需要理解底层原理的人才。这一观点在科技界并非孤例。「AI 教父」Geoffrey Hinton 去年也表示计算机科学是「学习系统思维的绝佳专业」AI 替代部分编程任务并不意味着相关学位失去价值。Masad 于 2016 年联合创办 Replit该公司已从在线集成编程环境转型为以 AI 智能体为核心的应用构建平台与微软旗下 GitHub、Cursor 及 Lovable 等 vibe coding 工具展开竞争。( APPSO) Voice Agent 学习笔记了解最懂 AI 语音的头脑都在思考什么写在最后我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创感兴趣的朋友请通过开发者社区或公众号留言联系记得报暗号「共创」。对于任何反馈包括但不限于内容上、形式上我们不胜感激、并有小惊喜回馈例如你希望从日报中看到哪些内容自己推荐的信源、项目、话题、活动等或者列举几个你喜欢看、平时常看的内容渠道内容排版或呈现形式上有哪些可以改进的地方等。作者提示: 个人观点仅供参考