0602 公告 - 答辩入选通知:
经过命题方国泰君安对复核内容和线上成绩的审查,国泰君安最后确定进入答辩的10支队伍如下:
1 Echoch
2 挖矿的小孩
3 Z Lab
4 Colt
5 chatgpt is all your need
6 Lukan
7 WeLearnNLP
8 Out of Memory
9 初淅沥以萧飒
10 CZUR_play
特此公告,也感谢其他选手对此次比赛的贡献!
我们稍后将会给入选答辩的队伍发送邮件通知,告知下一步的准备。
各位选手:
经过我们的相关复核、排查,公布如下获得复核资格的名单,并对名单做相应说明:
(我们将预期在今天13点左右邮件通知各获得资格、待进一步复查团队提交资料)
编号
排位
分数
性质
名称
1
1
0.974 (1)
团队
Echoch
2
2
0.973 (2)
团队
挖矿的小孩
3
4
0.970 (4)
团队
Z Lab
4
6
0.970 (6)
团队
Colt
5
7
0.968 (7)
团队
chatgpt is all your need
6
8
0.968 (8)
个人
Lukan
7
9
0.968 (9)
团队
WeLearnNLP
8
10
0.968 (10)
团队
Out of Memory
9
15
0.964 (15)
团队
初淅沥以萧飒
10
17
0.962 (17)
团队
CZUR_play
11
18
0.961 (18)
个人
Leo_Lu
12
31
0.957 (31)
团队
Da Capo
13
34
0.957 (34)
个人
zhouyuanzhe
14
37
0.956 (37)
团队
zutnlp
15
43
0.953 (43)
个人
grealth
16
45
0.953 (45)
团队
金融科技
17
50
0.951 (49)
团队
Unsual Data
18
51
0.951 (50)
个人
Aloha
19
55
0.950 (54)
个人
NONE
20
57
0.949 (55)
个人
GODWITHKING
编号
排位
分数
性质
名称
附加审核理由
1
20
0.960 (20)
个人
ZYQ
仅有21号当天有2条提交记录,但未发现明确主号、小号关联,进一步审核代码
2
47
0.952 (47)
Ustinian_Aphasia
47、48、49、52四组所有成员均实名,但均来自同一机构,且分数高度雷同,有分成四组故意占榜嫌疑;作为附加审核对象纳入代码审核范畴,视代码和解决方案的提交情况和内容质量,以及最终命题方的反馈,确定下一步操作。
3
48
0.952 (48)
牛顿和莱布尼茨一起撸薛定谔的猫
4
49
0.952 (48)
zhuying
5
52
0.951 (51)
AddSpicy
No
排位
分数
性质
名称
未获资格理由
1
3
0.972 (3)
团队
工程馆四季卷
1)有成员未完成实名 2)经排查有小号hiboys、Hello2023、jerry_sjtu等刷榜
2
5
0.970 (5)
团队
燃烧吧GPU
经排查创建批量小号bilibili、zhihu等系列账号刷榜
3
29
0.958 (29)
团队
海淀彭于晏
经排查有同IP小号wudongdong、biubiu刷榜
注:未在上述名单,但相应排位在排行榜57名前的成绩,均因未实名、团队已合并、小号等原因丧失资格。此处不再一一标记说明。
注2:我们已尽可能就手头掌握的信息对相应分数和提交情况做了排查和复核,但难免因时间、技术手段等原因不能完全保证发现并确定所有可能得违规情况。如有对上述结论有所质疑或要提出申诉的,请在5月23日17点前邮件至 aiwin@aispacesh.com,过时不再处理。
国泰君安
随着经济发展,中国居民财富持续增长。资产管理需求日益增多,资产管理业务迎来新的发展机遇。市场对机构的投资管理能力提出了更高的要求。近年来,国泰君安积极建设数字化投资研究平台以助力投资管理业务。公司希望借鉴国内外投研的先进经验,通过数字化与智能化技术为投研业务赋能,实现多源异构研究数据融合、产业投资逻辑的知识沉淀和投研过程的提质增效,从而提升研究效率,增强公司在资产管理领域的核心竞争力。在投资管理业务的研究过程中,研究人员需要阅读和分析各个券商机构制作的研究分析报告。他们需要从这些报告中提取出有价值的关键信息,包括研报分析的个股、当前评级、目标价和盈利预测数据等。这部分研究工作较为繁琐,会耗费研究人员大量的时间和精力。
随着人工智能技术的发展,许多金融机构开始将自然语言处理技术引入到金融文本分析领域,如情感分析、舆情预警和实体识别等。这些工作通常是针对金融纯文本任务,实际上金融领域还有大量的富文本语料有待挖掘和分析,例如上市公司公告、研究机构研究分析报告等。这些报告大多都是PDF格式,其中包含文本、图表和表格等元素,这些元素语义丰富,具有很高的研究价值。基于上述分析,我们希望利用人工智能技术从研报PDF中自动抽取出关键信息并组织成结构化的数据进行分析。具体地,我们结合自然语言处理与计算机视觉相关技术,设计了一套研究报告(以下简称研报)关键信息要素抽取解决方案。该方案包含研报文件解析、研报类型分析和研报要素抽取等功能。
本赛题任务是利用机器学习、深度学习等方法训练一个预测模型,该模型主要针对各种各样的研报进行类型分析。赛题的难点在于不同机构、券商研报形式多样以及需要借助PDF的解析或者多模态的应用。
请注意:
1. 本赛题可以使用外部预训练模型(包括GPT类的LLM都能够)用于数据处理和建模过程。但不得使用ChatGPT等类型的应用作为产出最终分类结果的直接手段
2. 本赛题的数据训练和处理仅允许采用赛事提供的数据,不得采用额外外部数据。
本赛题将10中类型的研报数据会划分为训练集、测试集。训练集用于模型架构设计、模型训练,在测试集上验证效果。以macro precision/recall/f1三个指标为验证标准(f1分数为排名依据)。练习榜单提供研报首页的结果结果,包括header 和title。正式榜单将只提供研报原文,并期望选手能充分解析和利用研报中文本、图形等多模态的信息用于优化模型。
练习榜单提供的数据集如下:
-
研报数据首页解析结果
-
研报数据对应类型标签
正式榜单提供的数据集如下:
-
完整研报原文
-
研报数据对应类型标签
labels = ['晨会早报', '宏观研报','策略研报','行业研报','公司研报','基金研报','债券研报','金融工程','其他研报','个股研报']
label2id = {
'晨会早报': 0,
'宏观研报': 1,
'策略研报': 2,
'行业研报': 3,
'公司研报': 4,
'基金研报': 5,
'债券研报': 6,
'金融工程': 7,
'其他研报': 8,
'个股研报': 9
}
注:练习榜单中无 label=7 的情况
1、数据样例 (数据提供在npy格式)
{
'label':'',
'header':'',
'title':'',
'paragraph:'',
'footer':'',
'uid':''
}
2、数据文件
训练集:train_dataset.npy
测试集:eval_dataset.npy
3、提交文件
submission.csv
columns = ['uid', 'label']
1、数据样例
以pdf 文件方式提供
2、数据文件
train_dataset/*.pdf (各子项目录名为研报对应类型名,文件名为UID)
eval_dataset/*.pdf (各文件名为UID)
3、提交文件
submission.csv
columns = ['uid', 'label']
本赛题共分成三个大阶段:
练习榜单——正式榜单——终选答辩
本竞赛线上开展,正式榜单获得前20的有效队伍将提交PPT和代码,经命题方复核及根据解决方案综合维度选拔后,选取10强队伍获得资格进入终选答辩,决出比赛名次。
该阶段内接受个人报名、团队登记(报名登记规则请详细阅读比赛规则)。
-
练习榜单将为选手提供赛题数据集,所有数据均可下载。报名时个人选手需同意比赛规则和相应条款,并予以遵守。
-
选手可通过 AIWIN 平台「参赛提交」——「下载」 的路径,查看并下载练习榜单提供的数据集以及提交结果样例文件。
-
选手完成模型训练后,可参照提供的结果样例文件submission_sample输出预测结果,并按 B 小节的提交要求提交后,获得排名。
-
请注意本次竞赛要求所有选手完成实名认证方能核算成绩,请未做过实名认证的点击页面右上角进入个人中心,点击“完成实名认证”。实名认证采用三要素:姓名、手机号和身份证,请确保手机号为您本人名下实名认证的号码。
-
本平台要求所有提交内容统一打包为 zip 文件上传,其内容为submission.csv:ZIP包请统一命名为 用户 ID_YYMMDD.zip,用户 ID 为你注册时的用户名。
提交结果样例:
uid,label
xxxyyy,2
zzzzkkkk,3
…
-
提交规则: 设定每日最多 3 次提交。
-
排名规则:排行榜以选手历史最佳分数为依据从高到低排序。
-
正式榜单将提供以PDF文档为形式的训练集和测试集。选手同样可通过 AIWIN 平台「参赛提交」——「下载」 的路径查看并下载(由于文件过大,平台下载的压缩包中仅含有,获取数据集后,各选手线下自行输出测试结果,然后提交到AIWIN平台获取实时分数和排名。
-
正式榜单于2023年5月21日24点截止并关闭排行榜
-
排名前30的选手建议都准备PPT和代码文件。运营方将会尽快完成核验后通知符合规则有效的前20队伍提交ppt和代码文件。所有材料应在 2023年5月26日 24 点前(拟),通过aiwin@aispacesh.com发送,邮件名称请以T2-选手名/团队名 命名,附件如过大可通过网盘方式上传后,邮件发送链接。具体PPT的建议内容如下:
a) 个人简介:在职者填写当前职业和在职机构(如方便透露),在校者请填写当前年级、专业、高校团队简介:团队整体介绍,以及每个成员的介绍、成员分工
b) 赛题理解与问题建模:清楚描述对赛题任务的理解,抽象为模型建立的策略
c) 数据探索与特征工程:针对赛题提供的数据描述必要的数据特征、数据清洗、特征工程的关键思路和方法
d) 模型训练和融合:描述模型的训练、实验对比和融合过程与方法
e) 代码依赖环境:详细列出包括整体建模采用的基础框架(含版本号)以及依赖的包等
f) 代码运行说明:对如何运行代码予以充分说明
-
结果提交的内容和要求:同练习榜单
-
提交规则:每日最多 3 次提交
-
排名规则:排行榜以选手历史最佳分数为依据从高到低排序。
-
晋级规则:组委会将结合正式榜单线上分数、解决方案的原创性和创新性等综合批评定最后的 10 强进入终选答辩。
线上排名
评价指标: macro avg precision / recall / f1
终选方式
综合选手现场答辩、线上排名分数以及其他命题方设定的综合维度(如模型思路创新性都能够),确定最后的综合排名。
1. 赛事奖金与奖励
类型
奖项
名次
奖励(税前)
竞赛奖励
(依据综合排名 = B 榜排名 + 复审结果 + 终选答辩排名)
一等奖
第1名
60000 元
二等奖
第2名
20000 元
三等奖
第 3 名
10000 元
四等奖
第 4-6 名
6000 元
五等奖
第 7-10 名
3000 元
注:
- 组委会对上述奖励方案享有最终解释权和调整权
- 以上奖金金额为税前金额,奖项获得者需承担个人所得税 20%
2. 证书
所有获奖选手(含学习奖励奖项与竞赛奖励奖项)将颁发盖有“世界人工智能创新大赛组委会”的赛事证书,对应赛题的证书上将同时印刻有赛事命题方的官方 logo
3.实习生绿色直通车
对于赛事排名靠前的选手将给予实习生绿色直通车的机会,将在实习招聘过程中给予一定优惠(如免笔试等,具体待进一步确定)