Policy Information
Competition——AI:国内外人工智能比赛平台以及竞赛类型、竞赛题目、举行时间等之详细攻略(最全+ing)
tips
(1)、可以在各大比赛平台指定的讨论区,或者github网站上,找到历届选手的一些解题思路
(2)、多参与、多了解、多比较,会有更为广阔的思路。
(3)、本博主已经带领团队参加过多个比赛项目,有想参加比赛的或者想组队的,可以在评论区留下比赛链接以及个人想法。
相关内容
Competition——互联网比赛(编程相关):国内外各种互联网比赛举办时间、条件、细节等详细攻略
Competition——AI:国内外人工智能比赛平台以及竞赛类型、竞赛题目、举行时间等之详细攻略(最全+ing)
Competition——ML/DL:机器学习、深度学习各种计算机视觉、自然语言处理、科学预测等等比赛竞赛简介
目录
1、ILSVRC比赛 (Imagenet Large Scale Visual Recognition Challenge)
ILSVRC大赛最常用的就是ImageNet数据集,ILSVRC使用ImageNet的一个子集,总共有大约120万个训练图像,50,000个验证图像,以及150,000个测试图像;1000类别标记。
该项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释,以指示图片中的对象。在至少一百万个图像中,还提供了边界框。ImageNet包含2万多个类别,一个典型的类别,如“气球”或“草莓”,包含数百个图像。第三方图像URL的注释数据库可以直接从ImageNet免费获得。但是,实际的图像不属于ImageNet。
自2010年以来,ImageNet项目每年举办一次软件比赛,即ImageNet大规模视觉识别挑战赛(ILSVRC),软件程序竞相正确分类和检测物体和场景。 ImageNet挑战使用了一个“修剪”的1000个非重叠类的列表。2012年在解决ImageNet挑战方面取得了巨大的突破,被广泛认为是深度学习革命的开始。
以2012 年为界,之后基于深度学习的方法一直居于首位。实际上,2012 年的AlexNet大幅降低了错误识别率。并且,此后基于深度学习的方法不断在提升识别精度。特别是2015 年的ResNet(一个超过150 层的深度网络)将错误识别率降低到了3.5%。据说这个结果甚至超过了普通人的识别能力。这些年深度学习取得了不斐的成绩,其中VGG、GoogLeNet、ResNet已广为人知,在与深度学习有关的各种场合都会遇到这些网络。
ILSVRC大赛有多个测试项目,其中之一是“类别分类”(classification),在该项目中,会进行1000 个类别的分类,比试识别精度。来看一下最近几年的ILSVRC大赛的类别分类项目的结果。
ILSCRV优胜队伍的成绩演变:竖轴是错误识别率,横轴是年份。横轴的括号内是队伍名或者方法名
分类:
AlexNet在ILSVRC2012图像分类竞赛第一名,将top-5错误率降至16.4%,标志着深度学习革命的开始,掀起了深度卷积神经网络在各个领域的研究热潮。
相关内容:
Dataset之ImageNet:ImageNet数据集简介、安装、使用方法之详细攻略
Competition——ML/DL:机器学习、深度学习各种计算机视觉、自然语言处理、科学预测等等比赛竞赛简介
DataCastle官网:http://www.pkbigdata.com/common/cmptIndex.html
DataCastle数据chen城堡,一个专业的数据科学学习社区,它提供优质的学习资源和数据比赛,帮助用户成为顶尖的数据科学家。这个竞赛定位于大数据领域的技术与创意竞赛,赛题源于社会热点问题和企业实际需求,通过竞技的方式集结群体智慧为企业和组织提供科学优秀解决方案。
总的来说,相较于天池,DataCastle更多元、更亲民,同样的,它的奖金和含金量也会更低一些。但对于普通机器学习爱好者而言,这也是个训练自己实践能力、积累数据工作经验、参与竞争的靠谱选择。
AI Challenger官网:https://challenger.ai/
AI Challenger 全球AI挑战赛”是面向全球人工智能人才的开源数据集和编程竞赛平台,致力于满足AI人才成长对高质量丰富数据集的需求,推动AI在科研与商业领域结合来解决真实世界的问题。AI Challenger以服务、培养AI人才为使命,打造良性可持续的AI科研与应用新生态。 在2017年的首届大赛中,AI Challenger发布了从百万到千万量级的4个数据集、6个兼具学术前沿性和产业应用价值的竞赛、以及超过200万人民币的奖金,吸引了来自全球65个国家的8892支团队参赛,成为目前国内规模最大的科研数据集平台、以及最大的非商业化竞赛平台。
AI Challenger 2018由创新工场、搜狗、美团点评、美图联合主办,引入了更多企业、大学、政府机构,带来十余个全新的不同领域数据集,十余个兼具科研、产业应用、社会意义的竞赛,超过300万人民币的奖金,还将走进国内外几十个城市的大学举办技术论坛。世界各地的AI人才汇集在AI Challenger平台上,用AI挑战真实世界的问题
科赛/kesci:https://www.kesci.com
Kesci 科赛 是一个开放的数据科学社区。 你可以 学习探索、交流分享、能力变现、发布任务。
Kaggle官网:Kaggle is the place to do data science projects
Kaggle是当前世界上最为流行的,采用众包(Crowdsouring)策略,为科技公司、研究院所乃至高校课程提供数据分析与预测模型的竞赛平台。该平台成立于2010年4月,由现任CEC的Anthony Goldboom等人创立。公司总部设在美国加州旧金山市。
Kaggle平台设立的宗旨在于:汇聚全世界从事数据分析与预测的专家以及兴趣爱好者的集体智慧,利用公开数据竞赛的方式,为科技公司、研究院所和高校课程中的研发课题,提供有效的解决方案。这一初衷使得问题提出者与解决者获得了双赢。
Google旗下的数据科学竞赛平台。Kaggle是由联合创始人、首席执行官安东尼·高德布卢姆(Anthony Goldbloom)2010年在墨尔本创立的,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台已经吸引了80万名数据科学家的关注,这些用户资源或许正是吸引谷歌的主要因素。
Kaggle是全球知名的大数据竞赛平台,它一开始以Data Mining比赛起家,但随着机器学习热度的不断上升,CV、NLP等机器学习项目在Kaggle上所占的比重越来越大,它也因此被视为是ML爱好者的一个主要学习交流社区。
(1)、Kenerls当中有大量供大家学习的代码。
1、比赛评估指标:kaggle 各种评价指标——Error Metrics
https://www.kaggle.com/competitions
2、三个长期在Kaggle平台上挂载的实践任务,
相关文章:Competition—Kaggle:通过几个比赛案例来了解如何在Kaggle上进行比赛之详细攻略
Topcoder官网:ESIGN & BUILD HIGH-QUALITY SOFTWARE WITH CROWDSOURCING
TopCoder是一个比较经典的算法竞赛,它在世界上和ACM、Google Code Jam并称为三大赛,因为它把中国纳入自己的赛区,所以几年前许多程序员会热衷于在上面参加一些程序设计比赛。随着数据科学的流行,现在TopCoder上也出现了不少机器学习方向的竞赛项目。
这个网站可以说是一个程序设计比赛的网站,但是题型,比赛形式跟ACM/ICPC极不相同。该网站把中国纳入其赛区,大家可以上去那里跟来自全世界的程序员(事实上大多数也是大学生)进行更直接的交流,可能也是ACM/ICPC练兵的好地方吧。TopCoder是一个面向平面设计师和程序员的网站,它采用比赛、评分、支酬等方式吸引众多平面设计师和程序员业余工作。由于其主要领域在编程工作上。
网站每个月都有两到三次在线比赛,根据比赛的结果对参赛者进行新的排名。参赛者可根据自己的爱好选用Java, C++, C, VB或python进行编程。参赛者须在1小时15分钟的时间内完成三道不同难度的题目,每道题完成的时间决定该题在编程部分所得的分数。而比赛可分为三部分:Coding Phase, Challenge Phase和System Test Phase,比ACM/ICPC多了Challenge Phase,这部分是让参赛者浏览分配在同一房间的其他参赛者的源代码,然后设法找出其中错误,并提出一个测试参数使其不能通过测试。如果某参赛者的程序不能通过别人或系统的测试,则该参赛者在此题目的得分将为0。关于其比赛的具体规则,详看该网站上的公告。以上信息主要针对TopCoder公司举办的算法竞赛部分,而实际上远不只于此。
以2016年哈佛大学人群创新实验室的“防止大规模暴行”项目为例。该竞赛题的奖金为15000美元,要求参赛者在数据基础上建立模型,预测人群中的可疑暴乱分子,帮助相关人员在正确的时间和地点拯救生命、给予人道主义援助。早在2013年,哈佛曾在TopCoder上发布过一次同样主题的算法竞赛,效果喜人,而这一届的冠军算法在预测准确率上较上次提高了62%。
值得注意的是,因为TopCoder是一个众包平台,成绩优秀的团队可能会得到企业的众包工作,而拥有这样的经历将有助于个人、学生的未来就业。
Challenge Data官网:https://challengedata.ens.fr/en/home
Challenge Data是由巴黎高师(ENS)主持的数据科学竞赛,它主要面向欧洲地区,支持英语和法语。由于巴黎高师在数学领域的一贯坚持,目前它的竞赛方向偏重监督、分类和回归问题。同时也因为各类数据来自创业公司、创新公司、医疗中心、科学实验室,Challenge Data的竞赛题更注重实际应用。考虑到欧洲,尤其是法国正成为人工智能研究的又一个学术中心,所以Challenge Data可以作为有志于去欧洲发展的同学的另一个选择。新一期的Challenge Data竞赛时限是2017年11月16日至2018年12月27日,从官网爬取了一些题目,列在下方以供感兴趣读者挑选:
crowdAI官网:https://www.crowdai.org/
crowdAI是一个面向数据科学专家和爱好者的竞赛平台,它上面的竞赛项目集中于几个特定问题,属于接近现实应用的学术研究,且都是当前热点。值得一提的是,一些机器学习顶级会议会在crowdAI上发布官方赛题,如去年斯坦福大学那篇长得惊人的Learning to Run论文就出自该平台。
当时该项目对顶级参赛者的奖励是受邀在NIPS 2017上发表论文、报销参会费用及参加瑞士EPFL机器学习日(Applied Machine Learning Days)的费用,因此这个平台也非常适合想参与顶会或发表有学术价值的论文的在校学生入驻。
目前crowdAI上有两个项目,一个是用AI生成音乐,距离截止时间还有300天;另一个则是用机器学习修复缺失地图。这不经让人联想到去年计算机视觉领域一个广受关注的研究——图像修复,论智早前曾介绍过日本早稻田大学的相关研究:日本研究人员利用神经网络完美重现缺失的图像。相信这次的地图补全能吸引大量参赛者共同竞争。
SQuAD官网:https://rajpurkar.github.io/SQuAD-explorer/
SQuAD介绍了几个国外的面向学生的竞赛平台,我们来看看专业性较强的比赛。
SQuAD全称Stanford Question Answering Dataset,这是斯坦福大学发起的机器阅读理解(reading comprehension)领域的顶级赛事,被誉为机器阅读理解界的ImageNet,吸引了包括谷歌、卡内基·梅隆大学、斯坦福大学、微软亚洲研究院、艾伦研究院、IBM、Facebook等知名企业研究机构和高校深度参与。
它同时也是一个大型阅读理解数据集,收录了来自维基百科的500多篇文章,以及答案为文章内容(字词、段落)的10万个问题。在SQuAD中,各机构的NLP模型需要阅读文章并给出相关问题的标准答案,得出的答案以精确匹配(Exact Match)和模糊匹配(F1-score)两个标准进行评分,之后再和人类水平对比。
自今年1月初阿里巴巴和微软团队先后在EM评分上打破人类记录后,2个月过去了,整个榜单又经历了一轮洗牌。不过令人鼓舞的是,国内的研究团队在机器阅读理解领域硕果累累,整体水平也在排名上处于领先位置。以下是论智整理的榜单上的部分国内机构:
SQuAD排名 | Modle(国内) | 机构 |
---|---|---|
1 | Hybrid AoA Reader (ensemble) | 哈工大讯飞联合实验室 |
1 | Reinforced Mnemonic Reader + A2D (ensemble model) | 微软亚洲研究院 & 国防科技大学 |
2 | Reinforced Mnemonic Reader (ensemble model) | 国防科技大学 & 复旦大学 |
2 | SLQA+ (ensemble) | 阿里巴巴iDST-NLP |
3 | AttentionReader+ (ensemble) | 腾讯文智自然语言处理 |
4 | Reinforced Mnemonic Reader + A2D (single model) | 微软亚洲研究院 & 国防科技大学 |
5 | MARS (single model) | 猿辅导NLP研究团队 |
Numer.ai官网:https://numer.ai/
一个不会同态加密、模型融合、区块链技术的机器学习竞赛网站不是一个好的对冲基金。
如果你没有听说过Numer.ai,没关系,但是如果你是冲着比赛奖金去的,那你必须知道它是现在最有“钱途”的机器学习竞赛平台——Numer.ai有个别称:金融市场的Kaggle。
我们都知道,Kaggle的可贵之处在于它是开源的,在上面学生可以使用大学课堂里从未接触过的大型数据集。数据集越大,模型准确率越高,性能也越可靠。但就在其他领域都在积极倡导建立超大型数据集时,对数据分析有极大需求的金融领域却没有任何声响——每天全球只有极少数数据科学家能访问数量可观的金融数据。为什么?因为市场的利益交换来自信息不对称,因此获取数据也成了横在普通数据科学家面前的最高门槛。
Numer.ai是一个可以向参赛者开放大量加密数据的竞赛,当然,这个开放要加引号,因为这些数据事实上都是经过同台加密处理的,也就是数据科学家根本不知道它们究竟是什么。大家要做的就是在一堆不明含义的数值型数据或分类型数据上构建模型,参与排名,并瓜分奖金。
为了激励数据科学家参与竞赛,Numer.ai在除了发放现金鼓励外,还推出了一种名为Numeraire的虚拟货币。模型越好,参与者获得的Numeraire就越多;相反地,如果“后浪”把“前浪”拍死在了沙滩上,参与者已有的Numeraire会被销毁。这种虚拟货币与对冲基金挂钩,基金赚的多,Numeraire分红也越高。因为基金模型是所有模型结合在一起的产物,因此这从本质上来说就是数据科学家之间的做大饼、分蛋糕。
天池大数据竞赛官网:https://tianchi.aliyun.com/competition/gameList.htm
阿里旗下天池大数据竞赛。DataCastle(以下简称DC)是中国最大的数据科学竞赛平台,致力于通过最优秀的数据科学家的力量解决复杂的大数据问题。通过来自不同行业、各种规模的公司/组织在平台上发布数据及问题,以众包的方式,获得科学的最优的数据结果和解决方案。DC拥有来自全国各地的高校学子、大数据领域研究学者、企业技术精英, 为不同的行业、各种规模的公司与组织提供科学的最优的数据结果及解决方案。
天池大数据竞赛是由阿里巴巴集团主办,面向全球科研工作者的高端算法竞赛。它背靠阿里云,数据量庞大且质量过硬,再加上提供分布式计算平台,对参赛者非常友好,高校学生是其主要吸引群体。竞赛的场景围绕电商、互联网金融、大数据营销等真实业务展开,应用性能强,但考虑到用的是官方平台,参赛者的自由发挥空间会受限制。
现在官网上奖金最高的是阿里巴巴“图像和美”团队联合香港理工大学纺织与制衣系共同举办“2018 FashionAI全球挑战赛”,分服饰关键点定位和服饰属性标签识别两场,每场奖金池内有134万RMB。另外正在进行中的“阿里妈妈搜索广告转化预测”和“印象盐城·数创未来大数据竞赛 - 乘用车零售量预测”也吸引了大量参赛者。天池竞赛的火爆程度可见一斑,但反过来看,参赛者的竞争压力也会非常惊人。
2、
3、
4、
评论