研究：OpenAI模型在评估眼疾方面几乎与医生不相上下

研究：OpenAI模型在评估眼疾方面几乎与医生不相上下一项研究显示，OpenAI最新的人工智能模型在分析眼部状况方面几乎与专家医生不相上下。这项研究突显了该技术在医学领域的潜力。根据周三发表的一篇论文，GPT-4模型在评估眼部问题和建议治疗方面，超过或达到了除得分最高的专业医生之外所有人的得分。发表在《公共科学图书馆数字健康》杂志上的一篇论文的主要作者ArunThirunavukarasu说：“这项工作表明，这些大型语言模型在眼睛健康方面的知识和推理能力现在几乎与专家无法区分。”Thirunavukarasu在剑桥大学临床医学院学习期间进行了这项研究，他表示：“我们现在正在以一种更加开放的方式进行训练，并发现这些模型几乎具备了它们没有被明确训练的能力。”伦敦大学学院(UCL)人工医学智能教授皮尔斯•基恩表示，这项最新研究“令人兴奋”，其利用人工智能对专家的表现进行基准测试的想法“超级有趣”。同时也隶属于伦敦摩尔菲尔德眼科医院的基恩认为，在将这项技术应用于临床之前，还需要做更多的工作。——

在Telegram中查看

相关推荐

OpenAI的模型在评估眼疾方面几乎与医生不相上下

OpenAI的模型在评估眼疾方面几乎与医生不相上下眼科一直是将人工智能应用于临床并解决其应用障碍的工作重点，例如模型通过虚构数据产生"幻觉"的倾向。"这项工作表明，这些大型语言模型在眼健康方面的知识和推理能力现在几乎与专家无异，"发表在《PLOS数字健康》杂志上的一篇论文的主要作者ArunThirunavukarasu说。他补充说："我们看到了回答相当复杂问题的能力。研究使用了87种不同的病人情况来测试GPT-4在非专业初级医生、见习眼科医师和专家眼科医师中的表现。论文称，该模型的表现优于初级医生，并取得了与许多专家相似的结果。研究人员说，这项研究之所以引人注目，是因为它将人工智能模型的能力与执业医生的能力进行了比较，而不是与检查结果进行比较。它还运用了生成式人工智能的广泛能力，而不是之前一些人工智能医学研究中测试的狭窄能力，如通过病人扫描诊断癌症风险。该模型在需要一阶记忆的问题和需要高阶推理的问题（如插值、解释和处理信息的能力）上表现同样出色。Thirunavukarasu在剑桥大学临床医学院学习期间开展了这项研究，他目前在牛津大学工作，他认为可以通过扩大数据集（包括管理算法、去身份化的病人笔记和教科书）对模型进行训练，从而进一步完善模型。这就要求在扩大信息来源的数量和性质的同时，确保信息保持良好的质量，在两者之间取得"棘手的平衡"。潜在的临床用途可能是对病人进行分流，或在专业医护人员有限的情况下使用。有证据表明，人工智能有助于诊断，例如能发现可能被医生遗漏的早期乳腺癌，因此在临床环境中部署人工智能的兴趣大增。与此同时，考虑到错误诊断可能对患者造成的伤害，研究人员也在努力解决如何控制严重风险的问题。伦敦大学学院人工医学智能教授皮尔斯-基恩（PearseKeane）说，这项最新研究"令人兴奋"，其利用人工智能为专家的表现设定基准的想法"超级有趣"。基恩也是伦敦莫菲尔德眼科医院的成员，他也认为，在将这些技术引入临床之前，还需要做更多的工作。他列举了自己去年研究中的一个例子：向一个大型语言模型询问有关眼部黄斑变性的问题，结果该模型在回答中给出了根本是"杜撰"出来的参考资料。"我们必须在对这项技术的兴奋和潜在的巨大利益之间取得平衡.....至少要有谨慎和怀疑。"他说。...PC版：https://www.cnbeta.com.tw/articles/soft/1427767.htm手机版：https://m.cnbeta.com.tw/view/1427767.htm

百度发布文心一言4.0，宣称该模型在复杂度和通用能力方面与GPT-4不相上下

百度发布文心一言4.0，宣称该模型在复杂度和通用能力方面与GPT-4不相上下百度公司创始人李彦宏宣布，其公司的大型语言模型终于赶上了OpenAI先进的GPT-4，在中国开发可与美国匹敌的人工智能的竞赛中取得了领先地位。这位亿万富翁周二在北京登台演讲，对文心一言（Ernie）4.0进行了问答，旨在展示其即时提供答案和解决复杂谜题的能力。李彦宏在一个由钢铁厂改建而成的礼堂里对座无虚席的观众说，文心一言在复杂性和一般能力方面已经与OpenAI的开创性产品不相上下。著名的“文心一言”聊天机器人的用户数量现已突破4500万——这一里程碑仍落后于ChatGPT的约1.8亿用户数量，尽管ChatGPT早在几个月前就在美国推出了该聊天机器人。百度是中国搜索领域的领头羊，经常被称为本土的谷歌，它寄希望于人工智能来帮助自己超越阿里巴巴集团控股有限公司和腾讯控股有限公司等控制互联网其他领域的竞争对手。百度股价周二下跌约1.5%。李彦宏对听众说：“文心一言在任何方面都不逊色于GPT-4。”早在今年6月，百度就曾表示，早期版本的“文心一言”在综合能力上超过了OpenAI基于GPT-3.5开发的聊天机器人。百度还援引一家地方报纸的测试结果称，它在几项中文能力上超过了GPT-4。百度现在希望“文心一言机器人”能成为在线营销的核心业务，帮助百度挽回被抖音所有者字节跳动和腾讯运营的多功能应用夺走的用户。——

研究显示AI大语言模型在处理医疗编码方面有着明显局限性

研究显示AI大语言模型在处理医疗编码方面有着明显局限性这项研究从西奈山医疗系统12个月的常规护理中提取了27000多个独特的诊断和手术代码，同时排除了可识别的患者数据。通过对每个代码的描述，研究人员促使OpenAI、Google和Meta的模型输出最准确的医疗代码。研究人员将生成的代码与原始代码进行了比较，并分析了错误的模式。研究人员报告说，所研究的所有大型语言模型，包括GPT-4、GPT-3.5、Gemini-pro和Llama-2-70b在再现原始医疗代码方面都显示出有限的准确性（低于50%），这突出表明这些模型在医疗编码的实用性方面存在很大差距。GPT-4的性能最好，ICD-9-CM（45.9%）、ICD-10-CM（33.9%）和CPT代码（49.8%）的精确匹配率最高。GPT-4还生成了最高比例的错误代码，但仍然表达了正确的含义。例如，当给出ICD-9-CM中"结节性前列腺，无尿路梗阻"的描述时，GPT-4生成了"结节性前列腺"的代码，展示了其对医学术语相对细微的理解。然而，即使考虑到这些技术上正确的代码，仍然存在大量令人无法接受的错误。其次是GPT-3.5模型，该模型的模糊倾向最大。与准确的代码相比，它错误生成的代码中准确但较为笼统的代码比例最高。在这种情况下，当提供ICD-9-CM描述"未指定的麻醉不良反应"时，GPT-3.5生成的代码为"其他未在别处分类的特定不良反应"。研究报告的通讯作者、伊坎山西奈医院数据驱动与数字医学（D3M）和医学（消化内科）助理教授、医学博士、理学硕士阿里-索罗什（AliSoroush）说："我们的研究结果突出表明，在医疗编码等敏感业务领域部署人工智能技术之前，亟需进行严格的评估和改进。虽然人工智能拥有巨大的潜力，但必须谨慎对待并不断开发，以确保其在医疗保健领域的可靠性和有效性。"研究人员说，这些模型在医疗保健行业的一个潜在应用是根据临床文本自动分配医疗代码，用于报销和研究目的。"以前的研究表明，较新的大型语言模型在处理数字任务时非常吃力。然而，这些模型从临床文本中分配医疗代码的准确程度尚未在不同的模型中得到深入研究，"共同第一作者、D3M的生成式人工智能研究项目主任、医学博士EyalKlang说。"因此，我们的目的是评估这些模型能否有效地完成将医疗代码与其相应的官方文本描述相匹配的基本任务。"研究报告的作者提出，将LLM与专家知识相结合可以实现医疗代码提取的自动化，从而有可能提高账单的准确性并降低医疗保健的管理成本。"这项研究揭示了人工智能在医疗保健领域的现有能力和挑战，强调了在广泛采用之前进行仔细考虑和进一步完善的必要性，"共同第一作者、西奈山伊坎大学医学教授、查尔斯-布朗夫曼个性化医学研究所所长兼D3M系统主管艾琳-费什伯格博士（IreneandDr.ArthurM.Fishberg）医学博士、医学博士吉里什-纳德卡尔尼（GirishNadkarni）说。研究人员提醒说，这项研究的人工任务可能并不能完全代表真实世界的情况，在这种情况下，LLM的表现可能会更糟。下一步，研究团队计划开发量身定制的LLM工具，用于准确提取医疗数据和分配账单代码，以提高医疗运营的质量和效率。编译来源：ScitechDaily...PC版：https://www.cnbeta.com.tw/articles/soft/1428862.htm手机版：https://m.cnbeta.com.tw/view/1428862.htm

谷歌医疗大模型登上Nature杂志水平媲美临床医生 AI+医疗有望加速融合

谷歌医疗大模型登上Nature杂志水平媲美临床医生AI+医疗有望加速融合研究人员表示，当回答医学问题时，微调后的医疗大模型Med-PaLM表现良好，一组临床医生对其回答的评分为92.6%，与现实中临床医生的水平（92.9%）相当。临床医生对答案的评估除了专家评估，研究团队还请一组非领域专家（印度的非医学背景普通人）评估答案。Med-PaLM在80.3%的情况下被认为是有帮助的。另外，Med-PaLM的答案在94.4%的情况下被认为直接回答了用户问题，临床医生的答案在95.9%。非医学背景的人对答案的评估而MultiMedQA涵盖七个医学问答数据集，包括医学考试、医学研究、消费者查询等相关问题和回答，以评测大模型在临床方面的能力。▌技术尚不成熟但科技大佬强烈看好在AI+医疗领域，Google走在前列。其最新的医疗大模型Med-PaLM2为首个在美国医疗执照考试中达到专家水平的大模型。据华尔街日报报道，自4月份以来，该模型一直在美国梅奥诊所等顶尖私立医院进行测试。据Google在5月份发布的论文，和其他大模型类似，GoogleMed-PaLM2也存在“幻觉”问题，容易“胡言乱语”，但总体来看，Google研究人员认为其表现与实际医生不相上下。曾参与训练Med-PaLM2Google高级研究主管GregCorrado表示：“我并不觉得这种技术现在已经达到了我愿意让家人使用的程度，但在医疗领域AI可以带来好处的环节，它能创造10倍的价值。”这与AMDCEO苏姿丰不谋而合，几天前落幕的世界人工智能大会上，苏姿丰表示，基本上每个层面的科研都受到你所拥有的计算能力的影响，无论是气候研究还是能源研究，所有这些领域的研究都可以在人工智能下得到显著加速，个人对医疗卫生的前景非常期待，认为医疗保健是能找出的一个AI能真正影响人类结果的领域，会帮助医生作出更好的诊断，加速疾病预防研究。▌大模型为AI医疗插上翅膀应用场景有望加速落地Google之外，微软、IBM等科技大厂一直在持续关注AI医疗方面的应用落地。在这轮大模型浪潮之前，AI检测心电图、X光片已在一些医院中投入应用。大模型则有望为AI医疗插上翅膀。华泰证券便表示，随着基于大模型的生成式AI的出现，AI+医疗有望迎来一波新的发展机遇。浙商证券分析师刘雯蜀称，AI大模型将在医疗信息化、互联网医疗、医卫和医保信息化等领域产生生产力变革性推动。综合来看，在大模型的加持下，智能问诊、新药开发、医疗影像这三大AI应用场景有望加速落地。国内，AI与医疗的融合进程也在加快。5月，在上海市经济信息化委的指导下，国内首个基于算力网络的医疗算法模型Uni-talk发布。产业端，科大讯飞、百度、云从科技、卫宁健康等公司都正积极布局医疗领域的垂直大模型；CRO企业药明康德、美迪西、药石科技、成都先导、皓元医药、泓博医药等公司均对AI制药相关业务有所布局。华西证券表示，Med-PaLM2进入实测，医疗大模型应用加速，具备行业Know-How和客户基础，在AI领域早有布局，且积极拥抱大模型技术变革的公司具有先发优势，受益标的包括润达医疗、创业慧康、嘉和美康、安必平、健麾信息、数字人等。...PC版：https://www.cnbeta.com.tw/articles/soft/1370653.htm手机版：https://m.cnbeta.com.tw/view/1370653.htm

谷歌医学大模型 Med-Gemini 在基准测试中超越人类医生

谷歌医学大模型Med-Gemini在基准测试中超越人类医生谷歌研究院和DeepMind周一发表了一篇论文详细介绍了医学专用大模型Med-Gemini的惊人能力。该模型打破了多项基准测试的记录，并在多个任务中超越人类医学专家。Med-Gemini以Gemini大模型为基础进行了针对医学知识的微调。谷歌还为该模型提供了网络搜索能力，模型除了在不确定答案时可以引用搜索结果作为参考外，还可以使用网络搜索进行自我学习，对模型进行持续微调，以学习最新的医学知识。而结合Gemini超长上下文的能力和推理链的设计，该模型可以处理数十万词构成的复杂病例医学记录。其多模态能力则可以使其处理病理学图片和影像学图像在内的多种医疗数据。谷歌认为该研究结果为Med-Gemini的潜力提供了令人信服的证据，但在医疗这个安全关键领域进行实际部署之前，进一步严格的评估至关重要。——，

微软囤积中国的游戏内容以期与索尼一较高下，分析师认为中国现在与西方不相上下

微软囤积中国的游戏内容以期与索尼一较高下，分析师认为中国游戏现在与西方不相上下香港，10月25日（路透社），消息人士称，微软公司正在囤积中国视频游戏内容，以效仿索尼集团在"原神"上的成功，这巩固了中国从一个只有玩家的国度向开发中心的转变。消息人士称，美国软件巨头和日本的技术先锋多年来一直向小型开发商提供大笔资金，以培育项目和授权产品，但"原神"的影响增加了一种紧迫感。新兴的上海工作室miHoYo的动作角色扮演游戏自两年前发布以来已经产生了数十亿美元的收入，并提高了多人、跨平台游戏的标准。消息人士称，微软和索尼在中国为其GamePass和PlayStationPlus订阅服务寻求这类游戏。分析师说，西方对中国游戏的兴趣越来越大，反映了中国游戏开发行业的成熟。研究机构NikoPartners的高级分析师DanielAhmad说，中国游戏现在与西方大预算游戏不相上下。——

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人