分享好友 最新动态首页 最新动态分类 切换频道
AAAI2024智慧教育研讨会召开 全球大模型数学解题竞赛落下帷幕
2024-12-26 08:55

  2024年2月26日~27日,由智慧教育国家新一代人工智能开放创新平台、好未来(学而思)、谷歌、普林斯顿大学、暨南大学等全球领先科技公司、科研机构发起的2024AAAI大会智慧教育研讨会在加拿大温哥华召开。本次研讨会为期两天,以搭建创新与责任桥梁为主题,旨在探讨人工智能尤其是生成式人工智能在教育应用中的创新与责任伦理。

  会议期间,AAAI2024 全球大模型数学解题竞赛正式发布比赛结果。这是全球首个围绕大模型数学能力的比赛,吸引了来自全球多个国家、地区的120多支队伍参加。历经4个多月的激烈竞争,CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、数学解题推理等8支队伍最终胜出,赢得比赛。

  聚焦生成式人工智能,深度探讨创新与责任

  过去一年中,最热门的话题莫过于以大语言模型为代表的生成式人工智能。随着全球大模型热的流行,有关其创新应用与责任伦理等问题成为了关注的重点。为此,来自智慧教育国家新一代人工智能开放创新平台、好未来、谷歌、普林斯顿大学、暨南大学等全球领先科技公司和科研机构的专家学者、技术研究人员在AAAI2024期间发起“人工智能为教育”研讨会。

  在为期两天的会议中,与会者带着各自的思考,通过论文、现场演讲、海报、全球数学推理竞赛等形式展示并听取来自不同群体的专家学者、技术研究人员的见解,深度探讨生成式人工智能的对教育的影响,未来与挑战。

  针对大模型技术在教育领域的影响,有专家表示,教育者应该积极拥抱大模型而非抵制他们,禁止学生在完成作业时使用大模型就像20年前禁止互联网的应用一样徒劳。教育者应该重新设计作业,而非把精力花在发现作弊人员身上。更有专家表示,大模型的出现让人们看到了教育的未来——每个学生都有一个与之相匹配的家教,他们更懂得孩子的需求,也知道如何让孩子更为投入。针对大模型在教育中的幻觉、评估等难题,有专家表示,他们提出了一种自动的、基于迭代精化的测试用例生成方法,即使用LLM和symphony中的代码编译器,并在Code Workout数据集上对此方法进行测试,结果显示该方法可以生成准确度量学生知识水平的测试用例。

  与之同时,与会人员还深度分享并讨论了教育场景中,负责任的人工智能应该具备哪些标准,应该设置哪些伦理要求。包括,在重要的教育决策场景如招生、预警系统、评分中,负责任的人工智能需要尽可能保证公平性、问责性、可解释性和透明性;负责任的人工智能在教育中的方法论贡献和影响,包括但不限于生成模型、预测模型、因果推断、强化学习和数据收集等。此外,有参会人员提出,随着AI尤其是生成式AI在教育中的影响越来越大,需要通过法规、流程等确保教育公平。

   全球大模型数学解题竞赛落下帷幕,120支队伍同场竞技

  为了提高大语言模型的数学和科学推理能力,中国领军科技公司好未来(学而思)、联合谷歌、暨南大学等多家知名科技企业及高校的专家学者,依托智慧教育国家新一代人工智能开放创新平台,于2023年10月启动AAAI2024 全球大模型数学解题竞赛。

  会议期间,主办方还正式对外发布AAAI2024 全球大模型数学解题竞赛正式发布比赛结果。这是全球首个围绕大模型数学能力的比赛,要求参赛者用大模型对给定的数学题目,生成推理步骤与答案,吸引了来自全球多个国家、地区的120多支队伍参加。历经4个多月的激烈竞争,CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、数学解题推理等8支队伍最终胜出,赢得比赛。

  比赛分为两个阶段,第一阶段为公榜阶段,主办方事先随机在给定的数据集中选出30%的数据,供参赛者进行大模型调试。第二阶段则为私榜阶段,参赛者需使用第一阶段调优过的大模型来解答数据集中剩余的70%题目。主办方通过对比参赛者的模型输出答案与正确答案之间的准确率,来为参赛者进行排名。第二阶段的成绩将会作为比赛的最终成绩。

  为了更好地探究各类大模型在不同语言上的数学能力,主办方将比赛设置中英文两个赛道。由好未来(学而思)提供比赛所用的中英文数据集——TAL-SAQ7K-CN、TAL-SAQ6K-EN,囊括了国内外多个中小学数学竞赛真题。考虑到可能会使用第三方大模型进行推理,会在一定程度上对比赛成绩产生影响。为了确保公平,主办方将不同赛道的结果按照是否调用第三方大模型进行分类,并根据最终的分数评选出各个不同类别的前三名。最终,在120多支参赛队伍中,CPDP-ICST 、cogbase 、MathEducators 、CTYUN-AI 、zuiii 、shengkai 、loveisp 、数学解题推理8支队伍最终胜出。其中CPDP-ICST、cogbase、MathEducators三支队伍同时是中文、英文赛道前三。

  一直以来,数学都被视为人工智能的试金石。目前,大语言模型在应对数学推理方面问题时仍然有很多挑战。智慧教育国家新一代人工智能开放创新平台相关负责人表示,教育作为大模型最先落地应用场景之一,当大模型数学能力得到突破时,将能够带来长久性甚至革命性的变革,能够让更多的人享有更多优质教育资源,真正实现大规模个性化教育。此次支持发起全球大模型数学解题能力竞赛,希望能够借助平台的力量,积极推动科技创新,让更多的人可以享受到科技进步的红利。

最新文章
曲靖网站排名优化费用是如何计算的?
曲靖seo网站优化多久才能看到结果?项目启动后,曲靖网站优化公司会根据网站现状和关键字分析提出预期的时间。新的网站从收录到首页排名可能需要3个月,而建立有段时间的老网站根据质量大概需要1-3个月不等。曲靖SEO外包的费用是固定的吗?
苹果手机怎么回车
在使用苹果手机进行文字输入时,回车操作是一个常见且基础的功能。无论是编写短信、聊天、撰写邮件还是编辑文档,回车都扮演着重要的角色。下面,我们就来详细探讨一下在苹果手机上如何进行回车操作。一、基础回车操作在大多数应用程序中,
李彦宏发站内信 称搜索业务已摆脱负面影响
  北京时间2017年7月28日消息,百度公司近日发布了2017年第二季度未经审计的财务报告,随后李彦宏发布了内部的站内信。站内信中李彦宏也提到,百度第二季度在多个领域收获了20000名在线活跃客户。在他看来,百度的搜索业务已经逐渐摆脱了
百度优选陶瓷紫砂类目怎么开通呢?分享
百度优选陶瓷紫砂类目怎么开通呢?目前电商已经进入了全域电商阶段,当经营好一个平台后,想要突破瓶颈呢,目前是应该是比较难的,所以很多商家朋友呢,都会选择复制成熟的模式,到其他电商平台呢去实现多平台经营,那今年百度电商平台呢,
【iPhone 5(8GB/低配版)高德地图下载】苹果IPHONE5C高德地图0.6.2免费下载
高德地图--不止路熟,吃喝玩乐行都熟!2021年,高德地图宣布向“出门好生活开放服务平台”升级,推出全新品牌Slogan:高德地图,哪儿都熟!高德地图不止路熟,你想要的路线也熟高德地图不止路熟,酒店也熟高德地图不止路熟,景区也熟高德地
高清美女写真一键生成!如何用AI轻松创造你的数字女友?
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=030001_yljdaimn 在这个数字化快速发展的时代,AI技术已经深入到我们的日常生活中,尤其是在照片生成和图像处
【大黄蜂V5应用宝下载】天语大黄蜂V5应用宝8.8.6免费下载
(Android)是腾讯应用中心倾力打造的手机应用商店,致力于为用户丰富、优质、个性化的安卓软件资源和一站式的下载管理体验,全方位覆盖用户的下载、管理、收藏、分享、等多样化需求应用宝2024更新内容1、修复了一些已知的bug应用宝6.7更新
回溯算法在信息技术领域的应用与解析
1.回溯函数模板返回值以及参数 回溯函数名:backtracking 返回值:一般为 void 1.参数:(1)要遍历哪个数组或者字符串(2)在下一层 for 循环中遍历的起始位置在哪 2.回溯函数终止条件 3.回溯
有哪些免费的行情软件站可以让安卓用户轻松获取股市行情数据
在如今的股市投资环境中,实时行情数据对于投资者来说至关重要。无论是股民还是期货、外汇投资者,了解精准的市场动态才能做出及时且有效的投资决策。随着智能手机的普及,越来越多的人开始选择通过手机软件来获取实时行情数据,尤其是安卓
苹果设置锁屏不显示详细内容 , 苹果手机锁屏微信消息不显示内容怎么设置
苹果设置锁屏不显示内容,可以在“设置”中的“通知”里进行调整。首先,苹果用户需要了解,iOS系统为了保护用户的隐私,允许在锁屏状态下隐藏通知内容。这样一来,即使用户的手机处于锁屏状态,通知信息也不会直接显示在屏幕上,从而在一
相关文章
推荐文章
发表评论
0评