(资料图)
科技日报北京5月17日电 (记者刘霞)加拿大科学家在16日出版的《放射学》杂志上刊登新论文称,最新版本的ChatGPT通过了美国放射学委员会的考试,突出了大型语言模型的潜力,但它也给出了一些错误答案,表明人们仍需对其提供的答案进行核查。
为评估ChatGPT在美国放射学委员会考试问题上的表现并探索其优势和局限性,多伦多大学研究人员首先测试了基于GPT-3.5的ChatGPT的表现。研究团队使用了150道选择题,这些选择题与加拿大皇家学院和美国放射学委员会考试的风格、内容和难度相当。这些问题不包括图像,分为低阶(知识回忆、基本理解)和高阶(应用、分析、综合)思维问题。高阶思维问题可进一步细分为影像学表现描述、临床管理、计算和分类、疾病关联。
研究人员发现,基于GPT-3.5的ChatGPT的正确率为69%,接近70%的及格线。该模型在低阶思维问题上表现相对较好,正确率为84%,但回答高级思维问题时表现不佳,正确率仅为60%。而性能更优异的GPT-4的正确率为81%,且在高阶思维问题上的正确率为81%,远好于GPT-3.5。但GPT-4在低阶思维问题上的正确率仅为80%,答错了12道题,而GPT-3.5全部答对了这些题目,这引发了研究团队对GPT-4收集信息的可靠性的担忧。
这两项研究都表明,ChatGPT会有提供不正确答案的倾向,如果仅仅依靠它获取信息,非常危险,因为人们可能意识不到其给出的答案是不准确的,这是它目前面临的最大的问题。(来源:科技日报)
科技日报北京5月17日电(记者刘霞)加拿大科学家在16日出版的《放射...
5月17日北向资金减持22 46万股木林森。近5个交易日中,获北向资金...
今天来聊聊关于侯府继室苏瑾,侯府继室的文章,现在就为大家来简单...
1、《范海辛的奇妙冒险3》已经上市了!刚接触这款游戏的玩家是不是对...
利和兴(301013 SZ)公告,公司董事会认为公司2023年限制性股票激励...
晕的多音字组词晕眩,晕的多音字组词这个很多人还不知道,现在让我们...
如果带着脑子看《速激10》,不但要面对混乱的剧情,还要忍受没头没...
今日国防军工行业获得主力大手笔抢筹。证券时报·数据宝统计,今日...
格隆汇5月17日丨海目星(688559 SH)公布,公司拟通过集中竞价交易方...
5月17日电,力星股份公告,公司2022年度利润分配方案为:以公司现有...
防范养老诈骗湖南农行在行动
美国国会日前提出一项决议案,反对中国在世贸组织中的发展中国家地...
在人工智能和数字化趋势的影响下,各个领域、企业以及消费者都迎来...
5月17日,香港立法会通过《2023年印花税(修订)条例草案》,落实2023...
关于婚后共同还贷的情况,在离婚时,分割贷款债务和房产归属的具体...
格隆汇5月17日丨国泰君安(601211)证券发研报表示,首次覆盖给予绿城...
该电影基于《Ultimatum》漫画改编,由于万磁王在《TheUltimates3》...
想必现在有很多小伙伴对于面对一些重要选择时,应该怎么去抉择方面...
1、军婚法厉害是因为我国现行《婚姻法》第33条明确规定:“现役军人...
国家发改委新闻发言人孟玮表示,下一步,随着扩大内需政策效果持续...
1、保健食品标志是由国家相关主管部门审批认证的保健食品标志。2、1...
据国家发展改革委5月17日消息,近日,标普评级公司与国家发展改革委...
你们好,最近小信发现有诸多的小伙伴们对于生锈的锅怎么去掉,生锈...
1、跳稍微高一点的箱子跳的时候要连接好,站着跳一定要连接好,有点...
考虑到普通门诊和门诊慢特病报销水平不同,为了避免影响参保人待遇...
河南经济报记者杨磊通讯员刘宸宇为积极履行国有大行责任担当,助力...
05月16日,汇绿生态被深股通减持18 1万股,最新持股量为253 01万...
继昨天Capcom发布了介绍《街头霸王6》公开测试的角色和两种操作模式...
据证券日报,近年来,国内指数市场发展基础逐步夯实,产品体系不断...
她拿出装有蓝色液体和红色液体的瓶子,并递给我一瓶,解释说,“我...