PISA调查：我国学生创意思维能力全球第一

PISA调查：我国学生创意思维能力全球第一新加坡中学生在国际学生评估项目中的后，也在最新公布的创意思维项目取得佳绩，在全球64个参与评估的教育体系排名第一。不过，有较多本地学生觉得自己不够有创意，对自身创意能力有信心的学生比率低于平均值。经济合作与发展组织（OECD）星期二（6月18日）公布2022年国际学生评估项目（ProgrammeforInternationalStudentAssessment，简称PISA）的创意思维调查结果。新加坡参与调查的6606名15岁学生来自149所中学和15所私立学府，是同一批于2022年接受阅读、数学和科学测试的学生。经合组织在每三年一轮的评估中会增添“创新”类评估项目，其中有64个教育体系选择参与这一轮的创意思维调查。学生须回答不同题型，根据情况提出点子，分别测试他们提供多样化点子、创新点子、评估，以及改进点子的能力。新加坡学生在创意思维项目取得41的平均分，高居第一，经合组织国平均分为33分，最高分为60分。韩国和加拿大分别排名第二和第三。教育部在文告中指出，近六成（58％）本地学生有“顶尖”表现，即达到5和6这两个最高等级，比率高于经合组织平均的27％。与此同时，表现弱（等级2或以下）的本地学生占6％，低于经合组织国平均的22％，也是各体系中最低的。相较于其他地区学生，我国经济阶层属最低25％的学生也交出好成绩，取得36平均分。这比经合组织国经济阶层最低25％学生取得的平均分28高，也比经合组织整体平均的33分高。我国经济阶层属最高25％的学生则取得45分（经合组织国平均为38分），这意味经济阶层最高与最低的本地学生表现有平均九分的差距，与经合组织国的10分差距相近。...2024年6月18日4:00PM

在Telegram中查看

相关推荐

学生能力国际评估创意思维　香港平均32分国际平均33分

学生能力国际评估创意思维香港学生平均32分国际平均33分学生能力国际评估计划PISA2022创意思维评估结果公布。教育局表示，香港学生的平均分为32分，与国际平均水平33分相若。香港学生在评估和改进意念方面有较佳表现，并在处理社会问题解难中展现相对较强的能力。至于在产生多元和具创意想法及视觉表达上，则有提升的空间。发言人说，今次研究结果再次显示，香港在教育平等方面表现出色，于高学术成就的国家或经济体系中排名第一，反映家庭社经背景对香港学生在创意思维方面的表现影响极少，突显香港教育制度为所有学生提供优质和平等的教育机会。教育局表示，将参考研究结果以及香港学生在其他评估中的表现，继续与各持份者合作，提升香港学生的国际竞争力。PISA由经济合作与发展组织策划，每3年进行一次，旨在评估15岁学生的数学、科学和以母语阅读的能力，最近一次的研究结果已于去年公布，今日公布的是同一研究中创新领域的评估结果。2024-06-1817:23:14(1)

沃顿商学院：ChatGPT的创意能力比MBA学生更好

沃顿商学院：ChatGPT的创意能力比MBA学生更好ChatGPT在15分钟内自动生成了200个产品创意；MBA学生15分钟只想出了5个创意。结果显示，ChatGPT的产品平均购买率为46.8%，而学生的购买率只有40.4%落后于AI机器人。沃顿商学院教授兼创新研究管理所联席主席-ChristianTerwiesc表示，我一直以为创意是人类最擅长领域之一，但测试结果让人大吃一惊。显而易见，每个人都应该尝试通过ChatGPT产生更好的创意想法。主要研究发现ChatGPT等生成式AI，可以帮助人类突破创意瓶颈，吸取多元化灵感实现宽泛的创意思维。相比人工，ChatGPT可以提供更便宜、高效的工作执行力。ChatGPT在本次测试中，生成创意想法的质量、效率，全面领先那些高智商、训练有素的MBA学生。也就是说，生成式AI不仅能应用在“死记硬背”的业务上，同样可以胜任创意方面工作。可以尝试ChatGPT等生成式AI，作为创意助手应用在各种业务场景中，以提升工作和创意效率。测试研究简单介绍沃顿商学院有超过20年的产品设计和创新课程教学经验，已举办了10多次类似的产品创意挑战赛。本次测试，是从2021年课堂上选取的200个题目。这些题目包括一个标题和一段描述性文字，整体创建一个针对大学生市场，涵盖多种日常物品例如，鞋子、本、笔、衣服等，零售价是50美元或低于这个价格（设置价格上限是为了增加测试题目的复杂性）。一名测试人员将200个测试题目输入到ChatGPT中，15分钟就生成了200个创意想法（100个自然生成，100个有示例提示）。而一名MBA学生15分钟只想出了5个想法，如果是团队执行效率可能会更差。因为，会产生意见分歧，可能会出现激烈讨论的场景消耗更多时间。虽然ChatGPT的创意效率很高，但也可能掺杂了很多较差的想法。所以，经济价值是衡量创意的最佳选择。研究人员找到了一些学生组成了评估小组，对ChatGPT和MBA学生想出的400个创意想法进行了综合评估。每位受访者平均评估了40个想法，平均每个想法被评估了20次，来体现他们对商品的购买意愿。测试结果评估者被要求使用标准的“五框”选项，来表达购买意愿：肯定不会购买，可能不会购买，可能会也可能不会购买，可能会购买，肯定会购买。这五种回应的加权，分别为0,0.25,0.50,0.75,和1.00，以此来开发一个购买概率的衡量标准。这种加权方法由Jameson和Bass教授在1989年提出，是一套成熟的评估体系。测试结果显示，以购买意愿为度量标准，ChatGPT生成的想法的平均质量，高于人类生成的想法的平均质量。人类生成的想法的平均购买概率是40.4%，原始ChatGPT的平均购买概率是46.8%，而提供有示例提示的ChatGPT的平均购买概率是49.3%。此外，ChatGPT在测试样本中生成了评价最高的创意想法，其购买概率比最好的人类想法高出11%。总体来说，由ChatGPT和人类生成的400个想法中。前40个想法（前10%）中，有35个（占87.5%）是由ChatGPT生成的。换句话说，在一对一的比赛中，大部分的优胜者全部来自ChatGPT。关于沃顿商学院沃顿商学院（TheWhartonSchool）创建于1881年，隶属于宾夕法尼亚大学是世界上最古老、最大的商学院之一，也是美国最有影响力的商学院之一。沃顿商学院以其在金融、经济学、实业管理、创新和全球商业战略等领域的卓越教育和研究而闻名。沃顿商学院的校友遍布全球各行各业，其中包括多位诺贝尔奖得主、成功的商业领袖等。...PC版：https://www.cnbeta.com.tw/articles/soft/1384111.htm手机版：https://m.cnbeta.com.tw/view/1384111.htm

澳旅院学生为本地企业提供创意点子

澳旅院学生为本地企业提供创意点子#澳门旅游学院澳门旅游学院旅游企业管理学士课程大四学生于创业学科中，协助本地初创企业家孙嘉鸣及其所属宝丰策划有限公司提供创意点子，围绕其正在澳门百老汇打造“心在澳＂土生文化展馆，以吸引旅客及提高本地市民的认知，并将该公司拥有智识产权(IP)的“Chico仔＂、“葡挞怪＂、“糕糕＂等吉祥物的形象作更有效宣传推广。“心在澳＂土生文化推广项目获文化发展基金支持，致力于非物质文化遗产的传承...https://www.gcs.gov.mo/detail/zh-hant/N22LUtizGa

本港小四学生阅读能力全球排名第二　仅次新加坡

本港小四学生阅读能力全球排名第二仅次新加坡港大教育学院公布，本港小学四年级学生在2021年第五届「全球学生阅读能力进展研究」中，得分573分，全球排名第二，连续四届取得国际首3名之列。排名第一是新加坡，得分587分；俄罗斯排名第三，得分567分。国际平均分为500分。研究发现，香港小四女生阅读表现较男生好，「资讯类」阅读表现较「文艺类」佳。研究亦发现，学生的阅读自信越高，阅读表现愈好。港大指，研究结果反映，尤其疫情下，本港小四学生仍有足够阅读韧力，并无因疫情影响而退步。港大建议，社会各持份者应协助提供友善学前认字环境，以进一步提升香港阅读水平；又认为亲子阅读培训会是未来社会阅读教育的重点，家长亦应以身作则，做好言教、身教。有关研究是由国际教育成就评价协会主办，每5年一届，以评估、比较并追踪全球小四学生的阅读表现等。2023-05-1710:39:06(1)

文心一言的理性思维能力距离GPT-4差多少？我们第一时间测试了一下

文心一言的理性思维能力距离GPT-4差多少？我们第一时间测试了一下在GPT-4发布之后，我们第一时间测查了它在理性思维能力测验上的表现，并将其与GPT-3.5的结果、253位受过高等教育的进行对比。结果发现，GPT-4实现了大跃迁，达到了一个超越人类的水准。测试流程在百度文心一言发布之后，我们第一时间获得邀请码，选择了在前文中测试GPT-3.5与GPT-4一致的题目、流程。详细说明请参考前文。这里不再啰嗦。简而言之，我们挑选了认知科学家用来评定人类理性思维的四类经典测试任务：语义错觉类任务；认知反射类任务；证伪选择类任务；心智程序类任务。四类任务总计26道题目。在测试之前，我们已经预估文心一言的表现会不如GPT-4，但最终实际测试结果还是令人大跌眼镜，可能与百度开发团队的认知有关系。在下文中，我会略作分析。需要提醒的是，本报告仅仅是一个早期工作，并不完善。测试流程有无数可以改善之处。结论未来随时可能被修正、被推翻。各位读者请理解。现在，让我们来详细看看测试结果。分项测试结果语义错觉类任务在语义错觉类任务这里，我们挑选了4个任务。测试结果如下图所示：文心一言全部答错。其中，第四题未指出错误，只说蒙娜丽莎是达·芬奇的，在卢浮宫。应该是通过百度百科获得了该事实性数据。如下图所示：认知反射类任务在认知反射类任务这里，我们挑选了三类任务。直觉减法操作，测试结果如下图所示：文心一言答对第一题，其他都答错。尤其是第三题，没读懂题目，在做加法。如下图所示：直觉序列操作，测试结果如下图所示：文心一言全部答错。尤其是第一题，没读懂题目，解的是3名研究人员发表1篇论文要多久。如下图所示：直觉除法操作，测试结果如下图所示：文心一言全部答错。如下图所示：证伪选择类任务在这里，我选择了经典的沃森四卡片测验。这是一个对于人类来说，超级困难的题目。能够很好地完成这项任务，意味着这个人的理性思维能力很不错。同样，对于AI来说，也是同等困难。GPT-3.5与GPT-4均无法很好完成，同样，文心一言也无法很好完成。测试结果如下图所示：心智程序类任务这部分，我挑选了九道题目。这九道题目，是一个更庞大的人类理性思维测验中的一部分。这九道题目，相对来说较有代表性，代表了人类理性思维知识的方方面面，能够较好地区分理性思维低下与理性思维较高的人。三个模型测试结果，如下图所示：文心一言唯一答对的是第二题，但答得也不够好。如下图所示：而有三道题，要么是答案正确，但是解释错误；要么是同样的提示语，但有时答案正确，有时答案不正确，并且解释不够对。这类测试结果，我们都统一判为错。而人类被试测试结果如下：这些统计数据来自253位人类。他们普遍受过高等教育，不少拥有硕博学历，属于较为典型的高学历高收入高认知群体。大语言模型有多么像人？整体测试结果，如下图所示：26道题目，GPT-3.5答对15道；GPT-4答对23道；文心一言答对2道。需要提醒的是，这仅仅是一项早期，测试流程、测试方法都有很多可以完善之处，未来结论随时会被推翻。由于时间缘故，我们并没有前三类任务人类的测试结果数据，但按照过往的经验数据，大约在40%-60%左右的正确率，如果我们略微高估，前三类任务17道题总计估算为答对10道题，加上第四类任务，人类大约答对6道。最终将人类的正确率估算为26道题目，答对16道。正确率大约为62%。62%，这也许就是什么时候，你觉得一个大语言模型像是一个真正的人一样的临界值。GPT-3.5接近这个数值，所以人们被它大大地震惊住了。而GPT-4远远超越了这个值。而百度的文心一言，只有8%。路漫漫其修远矣。给百度研发团队的一点小建议不懂NLP的吃瓜群众，其实对百度NLP团队做出的努力，一无所知。我说个事实，大家就明白了。在中文自然语言处理领域，百度提供的NLP开源项目是数量最多的、维护最勤奋的、质量最好的。包括我带队研发的写匠项目，调用的也是百度NLP团队开发的分词开源包。但是，文心一言表现这样，我觉得还是无法简简单单地用研发时间不足来解释、产品是第一版上线来敷衍。这类话可能是拿来敷衍李老板可以，但是敷衍全球同行是非常危险的。我深深怀疑，百度该项目的研发团队，极可能走错路线了。作为一名既懂认知科学又懂NLP的从业者，我觉得，以百度的技术实力，表现不至于这样。极可能是团队领导者定错目标了：拿到尽可能多的知识单元。所以，新品发布会上，从CEO到CTO，两位专家，还在拿百度拥有全球最大的中文知识单元说事。但是，这压根不是GPT-4令人震惊的原因啊！！！GPT-4这类产品真正令人震惊的是，从GPT-3.5开始，它真的像一个人类了。这才是形成全球性碾压式传播的根本。这是完全不同的另一种开发目标。也就是，如何让GPT-3.5更像是一个人类，能够更快地自我学习、自我纠错。中文知识单元的数量，在这个事情上毫无意义啊。好比，我们要教会一个三岁的小朋友尽快学会说话，这个时候，有两个重要任务：1）生命：让她尽快明白语义、语音之间的各类规则以及如何用语义、语音表达一个物理世界。2）生态：我们是想方设法给她在家里创造一个有助于孩子学说话的生态。比如，我雇佣阿姨带小美妞的时候，第一考虑就是这阿姨爱不爱说话，外不外向。显然，一个喜欢说话、外向的阿姨，更容易带动小美妞说话。结果，百度该项目团队的做法好比是，直接给一个三岁的小朋友扔了一千万吨词典，你背着词典走路吧。生命何在？生态何在？如果始终沿着这条技术路线走下去，我怀疑在OpenAI团队开源之前，不可能产生一个近似于数字生命的产品。而OpenAI团队是将大语言模型当作真正的生命来对待，从构建一个数字生命的基本机制开始设计，一切工作都是围绕两个基本出发点：1）生命：尽量促进“智能”的自发涌现；2）生态：尽量设计一个促进有助“智能”诞生并发育的生态。在早期，这个数字生命很幼稚，但过了千亿参数级别之后，很多早期打好的良好基础，就会带来极其多的“智能”涌现。好比小朋友从三岁学说话，长大之后，流利使用语言完成诸多大事。我们不能在还没有涌现“智能”之前，就急匆匆地去卖应用、搞数据对接。那压根与GPT-4不是一类产品啊。我们究竟要的是一个数字生命，以及这个新兴的数字生命与生态带来的新世界；还是又多了一个更方便地查询知识单元的工具。我相信答案不言而喻。正如我七年前在文章：认知科学看人工智能文末所写的一样：其实，不可思议之事才是硅谷与中关村的区别。创业者生来当作不可思议之事，而非可以看见未来的事。这份小小报告及建议，希望对如今蜂拥而入大语言模型研发领域的团队，略有启发。也期待中国诞生足够多、足够好的数字生命，带着国人一起步入新世界。...PC版：https://www.cnbeta.com.tw/articles/soft/1350053.htm手机版：https://m.cnbeta.com.tw/view/1350053.htm

王受文：APEC 经济体应摒弃零和思维，不搞 “脱钩断链”

王受文：APEC经济体应摒弃零和思维，不搞“脱钩断链”2024年5月17-18日，亚太经合组织（APEC）第三十届贸易部长会在秘鲁阿雷基帕举行，期间还举行了贸易和妇女部长联席会。商务部国际贸易谈判代表兼副部长王受文率团与会，并围绕多边贸易体制、亚太自贸区建设、贸易便利化和贸易包容性等议题阐述中方立场。王受文强调，近年来，个别经济体频频采取单边主义、保护主义措施，滥用国家安全例外，通过行政和立法手段打压别国企业，严重背离市场规律，既不符合世贸组织规则，也与亚太自贸区的精神背道而驰。APEC经济体应摒弃零和思维，不搞“脱钩断链”，不建封闭排他的“小圈子”，不采取扭曲市场措施。（商务部）

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人