OpenAI最近终于揭开了其首个智能体——Operator的神秘面纱,此消息自去年底以来就频频被业界热议。北京时间1月24日,全球科技界的目光聚焦在OpenAI的直播发布会上,Operator正式登场。这项技术的推出,标志着AI从一个简单的文本对话工具,向一个能够执行复杂操作的数字助手迈出了重要一步。
这个Operator不仅能像一个人一样在网页上轻松点击、滚动和输入,更让人咋舌的是,它能直接模拟人类进行各种日常操作。从预约餐厅到网上购物,Operator都能游刃有余地完成。
作为展示该技术的活生生例子,OpenAI现场演示了如何让Operator为用户在一家名为Beretta的餐厅预订晚餐。虽然对人类而言,这只是简单的几步操作,但对AI而言,这是一项不小的挑战。输入相关指令后,Operator迅速打开云端浏览器,开始了它的搜索之旅。在经历了一轮查询后发现目标时间不可用,它竟能主动调整策略,提供备选方案,显示出了其强大的适应性。
更值得注意的是,Operator在执行任务时的操作过程可以实时回放给用户,保障了透明度,同时用户也能在后台继续执行其他任务或进行修改,彻底颠覆了传统AI工具的工作方式。
其背后的技术基础为OpenAI自己开发的计算机使用智能体(CUA),这使得Operator具备了类似人类的观察和决策能力。CUA依托于先进的视觉和推理能力,可以分析并理解网页上的各种元素,几乎可以执行任何网页上的操作,而不必依赖特定的API接口。
当然,当前的Operator仍处于研究测试阶段,仅对部分用户开放,尚未全面发布。而在与其它智能体产品的比较中,OpenAI的选择运行在云端而非直接操作用户电脑的方式,无疑是出于隐私和使用便利性考虑。
虽然在智能体的开发上,OpenAI并不是第一个,但其在操作能力和用户友好性上的技术实现,预示着智能体可能将为我们未来的工作方式带来更深远的影响。智能体的问世不仅是技术上的突破,也使得人工智能的实际应用场景大大扩展,为AGI的到来铺平了道路。未来,智能体有望解放我们的双手与大脑,让我们从繁琐的操作中解放出来,投入更多精力去创造更有意义的事物。返回搜狐,查看更多