Hugging Face发布生成式AI健康任务测试基准
HuggingFace发布生成式AI健康任务测试基准人工智能初创公司HuggingFace在最新发布的名为OpenMedical-LLM的基准测试中提出了一种解决方案。OpenMedical-LLM是与非营利组织开放生命科学人工智能(OpenLifeScienceAI)和爱丁堡大学自然语言处理小组的研究人员合作创建的,旨在对生成式人工智能模型在一系列医疗相关任务中的性能进行标准化评估。OpenMedical-LLM本身并不是一个全新的基准,而是将现有的测试集(MedQA、PubMedQA、MedMCQA等)拼接在一起,旨在探究医学常识和相关领域(如解剖学、药理学、遗传学和临床实践)的模型。该基准包含要求医学推理和理解的选择题和开放式问题,借鉴了美国和印度医学执照考试和大学生物试题库等材料。HuggingFace在一篇博文中写道:"[开放医学-LLM]使研究人员和从业人员能够识别不同方法的优缺点,推动该领域的进一步发展,并最终促进更好的患者护理和治疗效果。"HuggingFace将该基准定位为对医疗领域生成式人工智能模型的"稳健评估"。但社交媒体上的一些医学专家告诫说,不要对OpenMedical-LLM抱有过高期望,以免导致不明智的部署。阿尔伯塔大学神经病学住院医生利亚姆-麦考伊(LiamMcCoy)在"X"上指出,医学答疑的"人为环境"与实际临床实践之间的差距可能相当大。博文的共同作者、"HuggingFace"研究科学家ClémentineFourrier对此表示赞同。"这些排行榜只应作为针对特定用例探索哪种[生成式人工智能模型]的第一近似值,但随后始终需要进行更深入的测试阶段,以检验模型在真实条件下的局限性和相关性,"Fourrier在X上回答说,"医疗[模型]绝对不应该由患者自行使用,而应该经过培训,成为医学博士的辅助工具。"这不禁让人想起Google在泰国尝试将糖尿病视网膜病变的人工智能筛查工具引入医疗系统时的经历。Google创建了一个深度学习系统,可以扫描眼睛图像,寻找视网膜病变的证据,视网膜病变是导致视力丧失的主要原因。但是,尽管理论上具有很高的准确性,该工具在实际测试中被证明并不实用,结果不一致,与实际操作普遍不协调,令患者和护士都感到沮丧。美国食品和药物管理局迄今已批准了139种与人工智能相关的医疗设备,其中没有一种使用了生成式人工智能,这很能说明问题。要测试生成式人工智能工具在实验室中的表现如何转化到医院和门诊中,或许更重要的是测试其结果如何随时间变化,这异常困难。这并不是说OpenMedical-LLM没有用处或信息量不大。结果排行榜可以提醒人们,模型对基本健康问题的回答有多么糟糕。但是,OpenMedical-LLM以及其他任何基准都无法替代经过深思熟虑的真实世界测试。...PC版:https://www.cnbeta.com.tw/articles/soft/1427874.htm手机版:https://m.cnbeta.com.tw/view/1427874.htm
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人