人工智能在语言方面表现惊人,用于人类疾病诊断为什么却表现不佳

具恒看科技 2025-01-14 12:37:04

人工智能(AI)主要是让计算机系统模拟人类的智能来执行各项任务。领先的大型模型有 GPT-3.5和GPT-4、Llama-2-7b、Mistral-v2-7b。他们在语言方面的表现令人惊讶。最近,一项新研究发现,即使最先进的在人工智能(AI)模型在语言或者专业考试中得分很高,但如果用于诊断疾病,在与患者交流方面仍然不尽人意,尤其是难以进行开放式诊断推理,诊断的准确性相当差。这是为什么呢?

人工智能(AI)在疾病诊断中的应用已经取得了一定的进展。AI技术,尤其是深度学习的AI技术,已经被用于识别疾病模式、分析医学影像、预测疾病风险以及个性化治疗方案。

例如,谷歌的DeepMind公司开发的AI系统可以通过分析眼部扫描来早期检测出可能导致失明的疾病。此外,IBM的Watson健康平台能够从海量的医疗记录中提取关键信息,帮助医生做出更准确的诊断决策。

尽管AI在医疗诊断中展现了巨大的潜力,但它在实际应用中仍面临一些挑战。

数据隐私和安全问题。医疗数据是高度敏感的个人信息,一旦泄露或被不当使用,可能会对患者造成严重的伤害。因此,如何确保数据的安全和患者的隐私权益,是AI在医疗领域必须面对的重要问题。例如,AI系统在处理患者的基因信息时,必须严格遵守数据隐私法规,确保患者数据不被泄露或滥用。

AI的决策过程往往是黑箱操作,即使是专业的医生也难以理解其内在的逻辑。这种不透明性可能会引发医患之间的信任危机,甚至影响患者的治疗选择。例如,当AI系统给出一个诊断结果时,医生和患者可能不清楚这个结果是如何得出的,这可能导致对AI诊断结果的质疑。

AI在医学影像诊断领域的应用还面临着数据标注的质量问题。高质量的数据标注对于训练有效的AI模型至关重要,但如果数据标注不准确,AI模型的诊断结果也会受到影响,可能会出现误判。

利用AI模型诊断疾病,这是许多科学家的梦想,尤其是模拟医患互动对于评估病史比较重要,难度在于现实生活中的患者可能不知道哪些细节描述对于诊断疾病的重要作用。

最近,美国哈佛大学的研究人员开发出一种模拟医患对话评估的“临床AI”模型,在2000个医疗案例中,美国OpenAI公司的GPT-4模型在与被测试的“临床AI”的对话中扮演了“患者AI”的角色。GPT-4将“临床AI”的诊断结果与每个病例的正确答案进行比较,人类的医学专家对这些评估进行了复核。以检查“患者AI”的准确性,其表现远不如根据书面摘要进行诊断时的表现。多次试验表明:其它三个领先的大型语言模型表现差不多,准确率甚至降到26%。

这是由于AI模型在大多数情况下未能收集到完整的病史,即使AI模型收集了患者的相关病史,诊断的准确率也是比较低。

所以,即使一个AI模型能够根据模拟的患者对话持续做出准确诊断,也并不一定意味着它就优于人类医生。现实世界中的医疗实践更重要,医疗实践与患者、医疗团队协调、身体检查,以及当地复杂的社会和系统因素有关。AI模型诊断疾病还有一段很长的路要走。

综上所述,虽然人工智能在疾病诊断中已经展现出强大的能力,但由于数据的隐私和安全、系统透明度、数据标注质量、医疗实践等问题,它的广泛应用仍然受到一定限制。

(此处已添加书籍卡片,请到今日头条客户端查看)
0 阅读:0