研究显示AI大语言模型在处理医疗编码方面有着明显局限性

研究显示AI大语言模型在处理医疗编码方面有着明显局限性这项研究从西奈山医疗系统12个月的常规护理中提取了27000多个独特的诊断和手术代码，同时排除了可识别的患者数据。通过对每个代码的描述，研究人员促使OpenAI、Google和Meta的模型输出最准确的医疗代码。研究人员将生成的代码与原始代码进行了比较，并分析了错误的模式。研究人员报告说，所研究的所有大型语言模型，包括GPT-4、GPT-3.5、Gemini-pro和Llama-2-70b在再现原始医疗代码方面都显示出有限的准确性（低于50%），这突出表明这些模型在医疗编码的实用性方面存在很大差距。GPT-4的性能最好，ICD-9-CM（45.9%）、ICD-10-CM（33.9%）和CPT代码（49.8%）的精确匹配率最高。GPT-4还生成了最高比例的错误代码，但仍然表达了正确的含义。例如，当给出ICD-9-CM中"结节性前列腺，无尿路梗阻"的描述时，GPT-4生成了"结节性前列腺"的代码，展示了其对医学术语相对细微的理解。然而，即使考虑到这些技术上正确的代码，仍然存在大量令人无法接受的错误。其次是GPT-3.5模型，该模型的模糊倾向最大。与准确的代码相比，它错误生成的代码中准确但较为笼统的代码比例最高。在这种情况下，当提供ICD-9-CM描述"未指定的麻醉不良反应"时，GPT-3.5生成的代码为"其他未在别处分类的特定不良反应"。研究报告的通讯作者、伊坎山西奈医院数据驱动与数字医学（D3M）和医学（消化内科）助理教授、医学博士、理学硕士阿里-索罗什（AliSoroush）说："我们的研究结果突出表明，在医疗编码等敏感业务领域部署人工智能技术之前，亟需进行严格的评估和改进。虽然人工智能拥有巨大的潜力，但必须谨慎对待并不断开发，以确保其在医疗保健领域的可靠性和有效性。"研究人员说，这些模型在医疗保健行业的一个潜在应用是根据临床文本自动分配医疗代码，用于报销和研究目的。"以前的研究表明，较新的大型语言模型在处理数字任务时非常吃力。然而，这些模型从临床文本中分配医疗代码的准确程度尚未在不同的模型中得到深入研究，"共同第一作者、D3M的生成式人工智能研究项目主任、医学博士EyalKlang说。"因此，我们的目的是评估这些模型能否有效地完成将医疗代码与其相应的官方文本描述相匹配的基本任务。"研究报告的作者提出，将LLM与专家知识相结合可以实现医疗代码提取的自动化，从而有可能提高账单的准确性并降低医疗保健的管理成本。"这项研究揭示了人工智能在医疗保健领域的现有能力和挑战，强调了在广泛采用之前进行仔细考虑和进一步完善的必要性，"共同第一作者、西奈山伊坎大学医学教授、查尔斯-布朗夫曼个性化医学研究所所长兼D3M系统主管艾琳-费什伯格博士（IreneandDr.ArthurM.Fishberg）医学博士、医学博士吉里什-纳德卡尔尼（GirishNadkarni）说。研究人员提醒说，这项研究的人工任务可能并不能完全代表真实世界的情况，在这种情况下，LLM的表现可能会更糟。下一步，研究团队计划开发量身定制的LLM工具，用于准确提取医疗数据和分配账单代码，以提高医疗运营的质量和效率。编译来源：ScitechDaily...PC版：https://www.cnbeta.com.tw/articles/soft/1428862.htm手机版：https://m.cnbeta.com.tw/view/1428862.htm

在Telegram中查看

相关推荐

一个医疗大语言模型的综合评测框架，具有以下三大特点：

一个医疗大语言模型的综合评测框架，具有以下三大特点：1.大规模综合性能评测：GenMedicalEval构建了一个覆盖16大主要科室、3个医生培养阶段、6种医学临床应用场景、基于40，000+道医学考试真题和55，000+三甲医院患者病历构建的总计100,000+例医疗评测数据。这一数据集从医学基础知识、临床应用、安全规范等层面全面评估大模型在真实医疗复杂情境中的整体性能，弥补了现有评测基准未能覆盖医学实践中众多实际挑战的不足。2.深入细分的多维度场景评估：GenMedicalEval融合了医师的临床笔记与医学影像资料，围绕检查、诊断、治疗等关键医疗场景，构建了一系列多样化和主题丰富的生成式评估题目，为现有问答式评测模拟真实临床环境的开放式诊疗流程提供了有力补充。3.创新性的开放式评估指标和自动化评估模型：为解决开放式生成任务缺乏有效评估指标的难题，GenMedicalEval采用先进的结构化抽取和术语对齐技术，构建了一套创新的生成式评估指标体系，这一体系能够精确衡量生成答案的医学知识准确性。进一步地，基于自建知识库训练了与人工评价相关性较高的医疗自动评估模型，提供多维度医疗评分和评价理由。这一模型的特点是无数据泄露和自主可控，相较于GPT-4等其他模型，具有独特优势。#框架

Sora的局限性：

对sora比较深入的分析从电影和游戏行业的视角出发。指出了Sora在模拟物理现象和创意内容生成方面的局限性，也强调了其在多模态学习和生成能力上的潜力。以下是意见的总结：Sora的局限性：Sora虽然能够模拟物理现象，但其物理理解仍然脆弱，无法完全替代专业的物理引擎。在物体交互和物理规则的理解上存在不足，可能导致超现实的结果。Sora的生成内容依赖于大量数据的压缩和提炼，而非完全的物理模拟。Sora的创新与潜力：通过将视频内容压缩到隐空间，Sora有效地解决了处理高分辨率视频所需的计算资源问题。其技术可能影响实时影像资料的处理和分析，如直播和监控视频数据。Sora的应用可能为AI模型训练提供新路径，特别是在多模态数据和复杂现实世界情境的理解方面。对未来的展望：Sora技术的发展可能需要在提升算力和优化算法效率之间找到平衡。尽管Sora不会取代游戏引擎开发者或影视特效师，但它可以作为创意预览阶段的工具，帮助普通人进行民主化创作。Sora的多模态能力可能通过3D引擎模型进一步发展，为虚拟世界的构建提供自动化支持。这个见解强调AI在创意和模拟物理现象方面的潜力，同时也提醒我们AI技术仍有待发展，特别是在理解和模拟复杂物理世界方面。

WiNGPT：基于GPT的医疗垂直领域大模型，旨在将专业的医学知识、医疗信息、数据融会贯通，为医疗行业提供智能化的医疗问答、诊断

WiNGPT：基于GPT的医疗垂直领域大模型，旨在将专业的医学知识、医疗信息、数据融会贯通，为医疗行业提供智能化的医疗问答、诊断支持和医学知识等信息服务，提高诊疗效率和医疗服务质量。核心功能：医学知识问答：可以回答关于医学、健康、疾病等方面的问题，包括但不限于症状、治疗、药物、预防、检查等。自然语言理解：理解医学术语、病历等医疗文本信息，提供关键信息抽取和归类多轮对话：可扮演各种医疗专业角色如医生与用户进行对话，根据上下文提供更加准确的答案。多任务支持：支持32项医疗任务，八大医疗场景18个子场景。模型架构：基于Transformer的70亿参数规模大语言模型,采用RoPE相对位置编码、SwiGLU激活函数、RMSNorm，训练采用Qwen-7b1作为基础预训练模型。主要特点：高准确度：基于大规模医疗语料库训练，具有较高的准确率和较低的误诊可能性。场景导向：针对不同的医疗场景和真实需求进行专门优化和定制，更好的服务应用落地。迭代优化：持续搜集和学习最新的医学研究，不断提高模型性能和系统功能。下载地址：

中国称IAEA福岛核处理水报告结论存在局限性

中国称IAEA福岛核处理水报告结论存在局限性在国际原子能机构（IAEA）发布报告称福岛核处理水排海计划安全后，中国国家原子能机构称，报告未能充分反映所有专家意见，结论存在局限性和片面性，中国对IAEA仓促发布报告表示遗憾。据央视新闻星期二（7月4日）报道，中国国家原子能机构秘书长邓戈向媒体称，日本刻意限制IAEA技术工作组授权使评估仅限于排海一种方案，即使IAEA认为排海符合国际安全标准，也不能证明排海是处置核污染水的唯一或最佳方案。邓戈说，日本没有证明核污染水净化装置的长期有效性和可靠性。IAEA报告指出，日本采用的多核素处理系统（ALPS）不能去除核污染水中的所有放射性核素。从以往运转情况看，ALPS已证明无法有效去除氚、碳-14等放射性核素，而且ALPS的性能有效性和可靠性还会随设备腐蚀老化进一步下降。邓戈还提到，IAEA仅基于日本单方面提供的数据和信息开展审查评估，只对日本单方面采集的少量核污染水样本开展实验室间比对分析，在数据真实性、信息准确性有待确证，取样独立性和代表性严重不足的情况下，即使IAEA审查评估作出排海符合国际安全标准的结论，也缺乏足够的说服力。邓戈呼吁IAEA尽快主导建立独立有效、有日本邻国等第三方实验室充分参与的长期国际监测机制，要充分听取各国专家意见，充分考虑日本邻国、太平洋岛国等利益攸关国家的关切和参与度。他也呼吁日本必须全面配合IAEA主导的长期监测国际机制和后续审查评估任务，持续开展ALPS长期可靠性监测、核污染水源项和环境监测、放射性环境影响评估，及时透明向邻国等利益攸关国家公布可信数据信息并接受监督质询。在长期监测机制未建立之前，不得启动排海；一旦发现核污染水排放数据异常或控制系统失效，必须立即停止排海。

医渡科技发布国内首个面向医疗垂直领域多场景专业大语言模型

医渡科技发布国内首个面向医疗垂直领域多场景专业大语言模型21日，医渡科技自主研发的医疗垂域大模型正式发布，这是国内首个面向医疗垂直领域多场景专业大语言模型，面向C端提供专业医学级别个性化服务，面向B端助力医、教、研、管等场景提质增效。目前医渡科技大模型在分导诊、基础医学、全科医学等多个医疗明确任务场景上的评测表现超过GPT3.5，已在多家头部医院落地应用。同日，医渡科技与华为签署深化合作协议，并联合推出智慧医疗解决方案，推动医疗健康行业的智能化转型。

LLaV：一个拥有类似 GPT-4 的大语言+视觉模型

LLaV：一个拥有类似GPT-4的大语言+视觉模型“使用机器生成的指令跟踪数据对大型语言模型(LLM)进行指令调优提高了新任务的零样本能力，但这一想法在多模式领域的探索较少。所以，我们开始尝试使用纯语言GPT-4生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整，并推出了LLaVA：大型语言和视觉助手。这是一种端到端训练的大型多模态模型，连接视觉编码器和LLM以实现通用视觉和语言理解。早期实验表明，LLaVA展示了令人印象深刻的多模型聊天能力，有时在看不见的图像/指令上表现出多模态GPT-4的行为，并且与合成多模态指令跟随数据集上的GPT-4相比，相对分数达到了85.1%。当在ScienceQA上进行微调时，LLaVA和GPT-4的协同作用达到了92.53%，这个准确率颇高。因此，我们在GitHub正式开放GPT-4生成的视觉指令调整数据、模型和代码库。”

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人