OpenAI推出医疗开源测试基准HealthBench；苹果发布可在iPhone上运行的极速视觉语言模型FastVLM 全球科技早参BETHASH

时间：2025-05-13 20:31:21

　　BETHASH官方网站(访问: hash.cyou 领取999USDT）

　　OpenAI推出 HealthBench开源基准测试，一项旨在更好地衡量AI系统在医疗健康领域能力的全新基准测试。HealthBench由262位在60个国家/地区执业的医生合作打造，包含5000段真实的健康对话，与以前的狭窄基准不同，HealthBench通过48562个独特的医生编写的评分标准进行有意义的开放式评估，涵盖多个健康背景（例如，紧急情况、全球健康）和行为维度（例如，准确性、遵循指示、沟通）。

　　美国食品药品监督管理局（FDA）近日宣布，将立即在其所有中心引入人工智能技术，以缩短药品审批的时间。此次决定是在 FDA 完成了一项针对科学审查员的生成性 AI 试点后做出的。FDA 表示，借助这项 AI 工具，科学家们可以减少大量重复性、单调的工作，从而提升审核效率。FDA 药品评估与研究中心（CDER）副主任Jinzhong Liu表示，“这项颠覆性技术使我能够在几分钟内完成曾需三天才能完成的科学审查任务。”

　　特斯拉的AI和IT基础设施、网络安全及车辆服务负责人Raj Jegannathan表示，公司正在推出一款专门用于处理客户沟通服务的人工智能代理。这款新的服务AI代理能够检测公司与客户之间沟通的延迟，监测对话的情绪，并自动将某些重要诉求直接上报给管理层。特斯拉正在十个试点地点推出这款AI代理，其首次投入使用的时间为5月8日。客户如果在手机应用的消息中心部分输入“Escalate”一词，系统将在两周的延迟后自动将问题上报给高级管理人员。

　　谷歌Gemini 2.5 Pro视频理解能力再升级，这款旗舰AI模型不仅支持长达6小时的视频分析，还拥有高达200万Token的超大上下文窗口，同时首次实现通过API直接解析YouTube链接。官方数据显示，该模型在VideoMME基准测试中达到84.7%的准确率，与行业顶尖水平的85.2%仅有一线之差，彰显了其强劲实力。这项突破性技术现已通过Google AI Studio向开发者开放体验。Gemini 2.5 Pro的视频理解突破标志着AI正从以语言为中心向以视频为驱动的多模态产品转型。