
Zhidongxi AI预览(公共帐户:Zhidxcomai)可能 - set |江YU编辑| Moying Zhidongxi AI预览于今年7月18日报道,Openai正式推出了Chatgpt Agent,这是一种新的“ AI助手表格”,其中包括Web联系,深度提取和代码能力。从产品逻辑的角度来看,网络联系工具操作员和深度信息采集工具尚未分离深入研究。可能包括“发现思想执行”的代理商在chatgpt中出现。用户可以直接允许AI整个网页,代码和个人数据资源完成完成任务。与Openai的顺序偷猎引起的公众舆论的热量相比,Chatgpt代理商的发布似乎没有达到“革命代理人”的期望,并且反应略有乏味。在社区用户体验之后,会有混合的测试。有些人认为“ Agi原型首先是看到”,但是有些人教过诸如简单的PPT布局,复杂的逻辑很容易干扰和幻觉。在ChatGPT代理发布后,竞争对手Manus尽快采取了该计划,并发布了10个实际的测试用例,试图使用各种场景活动,例如财务建模,生活计划,行程,消费者购物,飞行筛查等,以证明Chatgp封闭环和视觉交付。扩展全文
▲(图像来源:Manus X平台)
作为回报 - IT,ChatGpt代理在许多评估中都获得了SOTA,例如浏览网络和燃烧性广告,并在对人类考试的最终测试中获得了41.6的高分。这种成功证明了它的能力,并且还需要在实际情况下进行进一步的验证。
ChatGpt代理将首先在Pro,Plus和Team用户中启动,Pro用户每月收到400个查询,其他每月使用40次的费用。预计将在本月底之前推出企业和教育用户的版本。目前,ChatGpt Pro版本的订阅价格为每月200美元,包括代理和终端功能。相比之下,XAI的Grok 4的最新产品价格高达每月300美元,价格差异为1.5倍。
1。对ChatGpt代理提供“功能难题”的升级是什么?
ChatGpt代理定位只能理解为“操作员和深入研究的集成”,并添加一堆“终端”工具和“图像生成API”。
1。文本浏览器(DeepResearch功能)负责查找批处理网页并阅读长文本;
2。视觉浏览器(操作员函数)负责单击网页,拖动和填充表格;
3。终端可以运行Python脚本,生成和研究文件(Excel表))并调用API,甚至可以访问外部数据,例如Google Drive和GitHub;
4。API图像的产生适合视觉内容的主要代表,可以创建视觉材料用于报告或幻灯片的AL。
该范围的“工具箱”安装在虚拟机环境中,并已安排了经过训练的强化模型。他们可以实现从自动获取,审查和生成文件到最终订单和约会的完整闭环。
在发布示范中,Openai选择了一个近乎生活的案件:使用代理商帮助用户计划婚礼行程。
▲实用的婚礼计划测试(照片来源:OpenAI)
Chatgpt团队提供了指向婚礼网站的链接,并提出了三个需求:“在衣服上帮助,选择酒店并选择礼物”。代理商会自动采用婚礼时间,位置和服装要求,然后检查天气并推荐适当的衣服,然后跳到booking.com寻找酒店选择,最后寻找礼物建议。最后,代理商是“婚礼准备”报告“”,它跟随服装,酒店和礼物,以及资源链接,屏幕截图,并将其全部交付给用户。
▲CHATGPT代理开发的婚礼计划(照片来源:OpenAI)
2.马努斯挑战:前10名比较,避免事务,经验经验
在发行了Chatgpt代理商后,Manus作为竞争对手,立即发布了与X平台测试的实际比较的很多转折,并采取了“战斗”计划。
从显示器的影响的角度来看,手腕通过视觉表现,操作和跨平台交付显示了其优势,试图证明其完整性比闭环任务和最终输出中的ChatGpt代理更好。相比之下,ChatGpt代理人更多地关注基本信息Toting和提供文本,具有类似的范围,但对交互式体验提出了不同的方向。
具体案例介绍:
1。案例1:新加坡公司的选择和政府资助
马努斯输出是完整的研究数据和PPT资金计划,包括总体生态,政策和图片细节; ChatGpt代理仅构成主要幻灯片,缺少要点和视觉表演的摘要。
▲(图片来源:Manus)
案例2:模型高收入
Manus完成了一个完整的PPT,其中包含城市生活成本和税收计划,包括基本图表和视觉元素; ChatGpt代理只列出基本的生活成本,税收信息并不完美,并且没有投资方法或Visal审查。
▲(图片来源:Manus)
案例3:三天的网球行程
MANUS生成了带有阳光的时间表,预算和书籍链接的视觉行程卡; ChatGpt代理发布了一个简单的文本行程,并具有不变且不可避免的布局。
▲(图片来源:Manus)
案例4:旧金山ACFR财务表格
Manus修复了2020-2024创建的财务数据,并产生了PPT视觉预算趋势; ChatGpt代理仅生成没有视觉介绍的财务形式。
▲(图片来源:Manus)
案例5:r电动汽车行业的搜索
MANUS产生了5页完整的PPT,包括自定义的视觉元素,例如行业增长图表和旗帜; CHATGPT代理保留在信息收集中,无法完成PPT交付。
▲(图片来源:Manus)
案例6:筛选防风衣500美元以下
MANUS结合了符合标准并生成比较文件的产品列表; ChatGpt代理仅保留在电子商务页面的屏幕截图中,没有完整的输出。
▲(图片来源:Manus)
案例7:NVIDIA评估建模(DCF模型)
MANUS完成了整个过程,包括历史财务数据爬行,WACC估算,现金流量评估,灵敏度审查和完整的图表输出; ChatGPT代理仅在年度公开报告中寻找信息,并且尚未完成建模和审查。
▲(图片来源:Manus)
案例8:季度财务报告拆分更新
马努斯完成了PPT更新和世代的季度形式以及ChatGPT代理仅填写了主要的Onesg更新表格,而无需季度拆分和PPT。
▲(图片来源:Manus)
案例9:预订寿司餐厅的高率
Manus完成了预订过程,并返回确认页面。 Chatgpt代理只完成了搜索基本餐厅信息的搜索,而无需预订。
佐
案例10:查询空气查询和过滤器首选航班
MANUS完成了与航班飞行的视觉比较卡,而ChatGpt代理仅显示网络搜索信息,而无需视觉摘要和逻辑过滤。
▲(图片来源:Manus)
作为“竞争对手”,Manus的显示更加专注于自己的产品收益。 ChatGpt代理的效果如何,它仍然需要继续观察更多用户的体验反馈。
3。体验有惊奇SES和投诉:效率是在线的,复杂的提取仍然要求人们确保底线。
社区审判还迅速评论了“建议和批评”。
X平台用户在20分钟内与代理商完成了消防计划,称同样的服务可能要花费5,000美元给人类顾问。
ChatGpt代理首先搜索当地税收政策(温哥华),审查了用户的平均月度费用,计算了30岁退休所需的储蓄量,然后是投资组合的建议,随后遵循用户未暴露于完整PT的税收技术
▲(pinaphoto gmulan:x平台)
他还补充说,代理商制作电子表格和PPS的能力是最令人印象深刻的,但总体上的结果是,他使用NUS和Genspark等其他代理工具的吸引力体验“没有太大不同”。他认为,对于大多数从未使用过这些工具的人来说我的性是“令人惊讶的”。
▲(照片来源:X平台)
但是,ChatGpt代理人还揭示了社区用户反馈的实际经验的许多缺点。许多用户抱怨网络触点期间频繁滞后或404个错误,生成的PPT布局简单而困难。当遇到略有复杂的逻辑需求时,工作过程通常需要频繁的中断和manugwuktoto。
沃顿教授和人工智能研究员伊桑·莫利克(Ethan Mollick)也有类似的感觉。他告诉X平台,他使用Chatgpt代理来研究Kaggle数据集。尽管代理成功完成了评估过程并生成了PPT和Excel文件,但初始结果有明确的数据例外。只有在他发表评论之后,代理商才成功地识别了问题并纠正结果。
▲(照片来源:X平台)
该代理在实施过程中具有很高的效率,但仍无法与人类管理员分开根据数据和逻辑控制的酌情定义。
从社区的跑步标记和评论来看,ChatGpt代理在用清晰的说明和清晰的路径(例如根据财务数据制定婚礼准备清单或创建PPPT)来处理任务方面非常出色。在这种类型的标准过程中,代理可以在手术外科手术中进行良好的大量节省。
但是,当遇到需要开放判断的模糊说明或活动时,例如对隐藏的行业进行分类或未发布新闻提示的采矿趋势时,代理商通常会发现很难提供有效的结果,并且容易重复重复“找不到”或“请找到”或“或“请”或“或”或“请”。
4。出色的运行跑步分数:跑步过程中很棒,贫困在于开放推理
在数据分析方面,代理模型在四个尺寸的推理,财务检查,网络互动和电子表格中具有不同的顶级O3水平,最大程度地提高了双重改进。ChatGPT代理在对人类考试的最终评估中得分41.6%,使推理的能力翻了一番,并将该工具召集到跨学科专家问题。
▲人类的最后考试(来源:OpenAi)
DSBENCH专注于实际数据审核任务。数据评估子任务中代理商的准确率范围为87.9%,这显着高于O3(64.1%),这是第一次超过人类参考水平。在DSBENCH数据子任务中,代理达到85.5%,比O3(77.1%)和GPT-4O(45.5%)(接近人类绩效)好。
▲DSBENCH数据分析任务和DSBENCH数据模型服务(来源:OpenAI)
电子表格的电子表格编辑代理操作中的电子表格操作。当ChatGpt代理直接访问.XLSX文件时,其准确率提高到45.5%,Makakusage比Excel中的Copilot更好(20.0%),但是人体水平的空间很大(71.3%)。
▲电子表格活动(来源:OpenAI)
在银行银行的工作中Lyst,代理在完成复杂财务建模时的准确性率达到71.3%,这显着领先O3(48.6%)和DeepResearch(55.9%)。
▲内部投资银行分析师任务评估(来源:OpenAI)
Webarena评估将代理运行到Web交互任务的能力。 CHATGPT代理的精确率达到65.4%,超过了O3和CUA模型并接近人类水平(78.2%)。
▲Webarena Web互动基准(58.1%)(来源:OpenAI)
BrowseComp用于评估获得任务信息任务的代理处理能力。 ChatGpt代理利率达到68.9%,17.4%的点比Deepresearch高。
▲复杂的Web信息检索任务BrowseComp(来源:OpenAI)
CHATGPT代理在基于过程的活动(例如DSBench,电子表格Bench和BrowseComp)方面表现良好。数据分析,表编辑和Web提取的准确性大大提高,并且有些Activi纽带超过人类水平。与O3模型相比,该代理的改善水平从10%到30%。
结论:代理潮正在上升,Openai稳定发展
ChatGpt代理的发布已重申,该代理的轨道加速了其演变。合并多种工具,访问个人数据并具有基本的实施功能逐渐成为代理商产品演变的主要方向,但它离实际工业人口还很遥远。
在此过程中,Openai没有提供“工作阶段”版本,并且只对个人助理和办公场景进行了扎实但平淡的更新。
对于用户而言,ChatGpt代理值得体验,它允许向AI提供一些毫无意义的交易。但是显然说AI“重塑工作流程”还为时过早。 Openai仍在途中,代理商处于产品的半整合阶段。这是一个值得认识的改进但不是一个值得开心的跳跃。回到Sohu看看更多