近年来,人工智能(AI)技术的迅猛发展改变了许多行业的运作方式,尤其是在语音转录领域。OpenAI推出的Whisper工具被誉为几近“人类水平”的自动语音识别(ASR)系统,然而,最近的调查揭示了其严重的幻觉问题。技术界对此展开了深入讨论,尤其是在医疗行业中的应用引发了广泛关注。
Whisper系统于2022年发布,以其简单的端到端架构和68万小时的多语言训练数据脱颖而出。通过将音频分成30秒的块并利用梅尔倒谱分析,Whisper能够实现有效的语音转录,技术上已实现在多种语言间进行无缝转换。然而,令人震惊的是,工程师们发现,在对超过100小时的转录记录进行分析后,近一半的内容存在幻觉问题,即生成了不准确或虚构的文本。
此问题在一些关键应用场景中,尤其是在医疗领域,显得尤为危险。美联社的报道指出,来自明尼苏达州的曼卡托诊所及洛杉矶儿童医院的临床医生们已在使用基于Whisper的Nabla工具进行患者交流的转录。这一技术在700万次医疗就诊中被应用,然而,不准确的转录可能直接影响医疗决策,给患者安全带来隐患。
根据美联社的报道,尽管OpenAI曾明确警告该工具不应被用于高风险领域,一些医疗机构仍然选择忽视这些提示。Nabla公司对此表示,他们正在致力于改进工具,以降低幻觉发生的频率,但由于数据安全原因,生成的文本与原始录音无法进行详细对比。
针对Whisper出现的幻觉问题,许多研究人员也发表了自己的观点。密歇根大学的一位研究员指出,在检查音频转录时,平均每十份转录中就有八份幻觉,而另一位工程师发现,自己分析的超过26,000份转录中,几乎每一份都有类似的问题。这一现象引发了技术界的广泛讨论,研究者们普遍认为,Whisper的幻觉问题可能与音频环境的复杂性有关,比如在背景声音或音乐播放时更容易出现错误。
这种幻觉现象不仅影响了Whisper在医疗行业的应用,也对其他行业造成了潜在风险。在信息日益重要的时代,尤其是在法律、金融等高风险领域,AI工具的准确性显得格外关键。OpenAI发言人已表示,公司将继续致力于研究如何减少幻觉现象,并在未来的模型更新中引入相应的反馈机制。
尽管Whisper在技术上为语音转录领域带来了许多创新和便捷,但它的幻觉问题却成为了一个不容忽视的隐患。在一个纷繁复杂的信息时代,AI的每一次进步都可能影响社会的方方面面,而作为使用者的我们则需时刻保持理性。
与此同时,鼓励更多研究者和软件开发者投入到类似问题的健全和解决中,是推动AI技术向前发展的必要步骤。将AI应用于更广泛的领域时,务必考虑到其潜在的社会影响。
最后,作为科技前沿的探索者,如何正确使用AI语音转录工具,降低风险,提升准确度,依然是未来发展的重要课题。在我使用了数十家AI绘画、AI生文工具后,强烈推荐给大家以下这个工具——简单AI。简单AI是搜狐旗下的全能型AI创作助手,包括AI绘画、文生图、图生图、AI文案、AI头像、AI素材、AI设计等。可一键生成创意美图,3步写出爆款文章。网站提供生成创意美图、动漫头像、种草笔记、爆款标题、活动方案等多项AI创作功能。工具链接:
国漫女神、游戏美女随心爆改,一键定制你的专属AI动漫女神,点击立即生成→ 返回搜狐,查看更多
责任编辑: