AI芯片
1. 节能1000倍!仿人脑神经芯片跑AI模型竟然这么省电
片上运行,学会如何代偿芯片中的器件失配。此论文是AI迈向神经拟态运算的显著一步。模拟神经网络与现有AI运行设备不同,神经拟态计算并不将数据在长间隔距离的CPU与存储卡之间搬运。神经拟态芯片设计模仿果冻般人脑的基础架构,将计算单元(神经元)置于存储单元(连接神经元的突触)旁边。为了让设计更像人脑,研究者将神经拟态芯片结合模拟计算,如此能像真实神经元一样处理持续不断的信号。
这样产出的芯片,与现下依赖处理0与1的二元基础信号的数码计算模式和架构,有显著不同。以人脑作为设计指南,神经拟态芯片承诺有朝一日终结AI等大数据量运算工作的高耗能。不幸的是,AI算法在神经拟态芯片的模拟版本上运行效果不佳。这是因为器件失配的缺陷:在生产过程中,芯片里模拟神经元的微型组件大小出现不匹配。由于单个芯片不足以运行最新的AI训练过程,算法必须在传统计算机上进行预训练。但之后将算法转输到芯片上时,一旦遇上模拟硬件不匹配的问题,算法就两眼一抹黑了。
基于人脑设计的计算模式是模拟计算而非数码计算,这点差别微妙而关键。数码计算只能有效呈现人脑脉冲信号的二元性方面:脉冲信号作为一道冲过神经元的电信号,状态具有二元性,要么输出了,要么没输出,这就是0与1的区别。
不过事实上因为人脑细胞中有电压变化,当细胞内电压超过比细胞外电压高到一定程度的特定阈值,就会输出脉冲。如此一来,脉冲是在一定时段内持续不绝地输出的,而且神经元决定输出脉冲的状态也是持续不绝的,这其实是一种模拟信号的状态。瑞士苏黎世联邦理工学院的神经拟态工程研究者夏洛特·弗伦克尔说:「模拟态体现了人脑运算模式的核心之美。成功效仿人脑的这一关键方面,将是神经拟态运算的主驱动因素之一。」2011年,海德堡大学的一组研究人员开始开发一种既有模拟态又有数码态的神经拟态芯片,为神经科学实验模拟大脑。
此后,团队又发布了新一版的芯片「BrainScaleS-2」,其中每个模拟神经元都模拟了脑细胞的输入-输出电流和电压变化。不过,由于材质的导电质性不同于真人脑,芯片在速度上要比人脑快1000倍。
2. OPPO Find X5系列发布,搭载自研马里亚纳芯片
原文链接:
https://baijiahao.baidu.com/s?id=1725707675999293995&wfr=spider&for=pc
2月24日晚,OPPO正式举办春季新品发布会,并带来多款包括OPPO最新旗舰Find X5系列、OPPO首款平板OPPO Pad、OPPO Enco X2真无线降噪耳机、OPPO Watch 2冰川湖蓝等四款新品。
OPPO首席产品官刘作虎表示:“想要真正做出有价值的创新,唯一的路径就是自研,而且是深入到通信、芯片、材料底层的深度自研,用关键技术解决关键问题。”
此次发布的OPPO Find X5包括Find X5 Pro、Find X5 Pro天玑版以及Find X5三个系列,分别使用了骁龙8Gen1、天玑9000、骁龙888移动平台。其中Find X5 Pro是首次搭载OPPO自研NPU芯片马里亚纳的旗舰手机,该芯片首次为用户带来芯片级4K夜景视频、HDR视频、App相机增强等前所未有的计算影像体验。OPPO自研的马里亚纳NPU芯片结合全球首个悬浮防抖、行业首个13通道光谱传感器、定制高透玻璃镜片、5000万像素双主摄旗舰传感器等顶级影像配置,以及Find系列首次应用的“OPPO|哈苏”手机影像系统,通过纯净光学、适度计算,哈苏色彩三大突破,为用户实现全新一代色彩影像体验。
3. 瑞芯微发布新一代机器视觉方案RV1106及RV1103
原文链接:
https://mp.weixin.qq.com/s/qN3mOZn_n8Rl1wO0ouDXOg
瑞芯微电子股份有限公司(以下简称“瑞芯微”)正式发布新一代机器视觉方案RV1106及RV1103,两颗芯片在NPU、ISP、视频编码、音频处理等性能均有显著升级,具有高集成度、高性价比、低待机功耗的特点。RV1106及RV1103为普惠型方案,旨在助力更多行业伙伴高效实现机器视觉产品的研发及落地。
RV1106及RV1103具有以下六大核心技术优势:
1、内置自研第4代NPU,最高达0.5TOPs算力
2、内置自研第3代ISP3.2,支持多种图像处理技术
3、编码能力强,高帧率、低码率、占用空间小
4、智能音频,声音录制更清晰
5、快速启动瞬时响应,高性能低功耗
6、高集成度
AI热点
4. 扎克伯格曝光Meta的小目标:AI自动生成元宇宙,实时翻译所有语言
原文链接:
https://mp.weixin.qq.com/s/CxaoBQDvndVl8GgRycKphA
Meta 正在致力于通过语音生成元宇宙世界的人工智能研究,还有很多神奇的技术。首席执行官马克 · 扎克伯格本周三表示,该公司正在研究改善人们与语音助手交流顺畅程度,以及在不同语言之间进行翻译的方式。
最近一段时间,扎克伯格正带领脸书 all in 元宇宙,并预测在未来人们可以在虚拟世界中工作、社交和娱乐,这一环境将最终代替互联网。
至于元宇宙、虚拟现实是如何能够让人沉浸其中的,「解锁这些进步的关键是人工智能,」扎克伯格说道。
Meta 正在研究一类新的生成 AI 模型,该模型将允许人们描述一个世界,人工智能自动生成它的各个方面。在昨天的演示中,扎克伯格展示了一个名为 Builder Bot 的 AI 概念,人们在元宇宙的岛屿上以 3D 化身的形式出现,并发出语音命令创建海滩,系统可以遵从人们的命令随时更改天气,添加树木甚至野餐毯。
随着我们进一步推动这项技术,你将可以创造出梦想中的世界,用你的声音与他人探索和分享经验。」不过扎克伯格没有为这些计划设定时间表,也没有提供有关 Builder Bot 工作原理的更多细节。
另一部分是语音识别技术,Meta 表示正在研究人工智能,让人们能够与语音助手进行更自然的对话,这是让人们在元宇宙中与人工智能顺畅交流迈出的一步。扎克伯格表示,该公司的 CAIRaoke 项目是「用于构建设备助手的完全端到端的神经模型」。
在扎克伯格的展示中,CAIRaoke 在一个「非常实用」的家庭场景中起到了作用:人在煮炖菜时,语音助手会发出提示,警告说盐已经加到锅里了。AI 助理还注意到盐放少了,于是提示要放更多。
5. Yann LeCun最新发声:自监督+世界模型,让 AI 像人类与一样学习与推理
原文链接:
https://mp.weixin.qq.com/s/TqzqRxE-Figs0hn7s1t9cw
如何突破当代人工智能(AI)的瓶颈?不同学者存在不同观点。
总体来看可以概括为两类,其一监督学习者,提倡通过改善数据标签质量,从而完善监督学习。代表人物有发起“以数据为中心AI”革命的吴恩达,提倡设计“合成数据自带所有标签”的Rev Lebaredian。
其二,无监督学者,例如Yann LeCun,提倡下一代AI系统将不再依赖于精心标注的数据集。
近日,Yann LeCun在meta AI(原Facebook)官方博客上以及IEEE采访中,深度阐述了他的自监督学习思路,他认为AI想要突破现在的瓶颈,必须让机器学习世界模型,从而能够填补缺失的信息,预测将要发生的事情,并预测行动的影响。
这虽然不是革命性的想法,但却是革命性的行动。正如LeCun在在多次演讲中提到:这场革命将是无监督的(THE REVOLUTION WILL NOT BE SUPERVISED)。具体而言这种革命性体现在对两个问题的思考:
第一,我们应该使用什么样的学习范式来训练世界模型?
第二,世界模型应该使用什么样的架构?
同时,他也提到:监督学习的局限性有时会被误以为是深度学习的局限性,这些限制可以通过自监督学习来克服。
以下是LeCun对自监督的思考与世界模型设计,内容来源于meta AI与IEEE,AI科技评论做了不改变原意的编译。
AI前沿
6. 华为诺亚开源首个亿级中文多模态数据集-悟空,填补中文NLP社区一大空白
原文链接:
https://mp.weixin.qq.com/s/qXwnKCVi01LRjDYpYl9jLw
在大数据上预训练大规模模型,对下游任务进行微调,已经成为人工智能系统的新兴范式。BERT 和 GPT 等模型在 NLP 社区中越来越受欢迎,因为它们对广泛的下游任务甚至零样本学习任务具有很高的可迁移性,从而产生了 SOTA 性能。最近的工作,如 CLIP、ALIGN 和 FILIP 进一步将这一范式扩展到视觉语言联合预训练 (VLP) 领域,并在各种下游任务上显示出优于 SOTA 方法的结果。这一有希望的方向引起了行业和研究人员的极大关注,将其视为通向下一代 AI 模型的途径。
促成 VLP 模型成功的原因有两个。一方面,更高级的模型架构(如 ViT/BERT)和训练目标(如对比学习)通常能够提升模型泛化能力和学得表示的稳健性。另一方面,由于硬件和分布式训练框架的进步,越来越多的数据可以输入到大规模模型中,来提高模型的泛化性、可迁移性和零样本能力。在视觉或者语言任务中,先在大规模数据(例如图像分类中的 JFT-300M、T5 中的 C4 数据集)上预训练,之后再通过迁移学习或者 prompt 学习已被证明对提高下游任务性能非常有用。此外,最近的工作也已经显示了 VLP 模型在超过 1 亿个来自网络的有噪声图像 - 文本对上训练的潜力。
因此,在大规模数据上预训练的 VLP 模型的成功促使人们不断地爬取和收集更大的图文数据集。下表 1 显示了 VLP 领域中许多流行的数据集的概述。诸如 Flickr30k、SBU Captions 和 CC12M 等公开可用的视觉语言(英语)数据集的样本规模相对较小(大约 1000 万),而规模更大的是像 LAION-400M 的数据集。但是,直接使用英文数据集来训练模型会导致中文翻译任务的性能大幅下降。比如,大量特定的中文成语和俚语是英文翻译无法覆盖的,而机器翻译往往在这些方面会带来错误,进而影响任务执行。
论文地址:
https://arxiv.org/pdf/2202.06767.pdf
数据集地址:
https://wukong-dataset.github.io/wukong-dataset/benchmark.html
7. “几何构象增强AI算法”,百度生物计算最新研究成果登上《Nature》子刊
原文链接:
https://mp.weixin.qq.com/s/fg3uylNSfCW6U3-y7RrQSw
近日,百度在国际顶级期刊《Nature》旗下子刊 《Nature Machine Intelligence》(Impact score 16.65)上发表了 AI + 生物计算的最新研究成果《Geometry Enhanced Molecular Representation Learning for Property Prediction》,提出 “基于空间结构的化合物表征学习方法”,即 “几何构象增强 AI 算法”(Geometry Enhanced Molecular Representation Learning,GEM 模型),揭示了一种基于三维空间结构信息的化合物建模方法,以及在药物研发中的应用。
论文链接:
https://www.nature.com/articles/s42256-021-00438-4
公开资料显示,《Machine Intelligence》是《Nature》旗下专注于机器学习领域的顶级期刊,过去两年该期刊的影响因子已超过 16。在该项研究中,百度螺旋桨 PaddleHelix 团队首次将化合物的几何结构信息引入自监督学习和分子表示模型,并在下游十多项的属性预测任务中取得 SOTA,成为百度在 AI 赋能药物研发领域对外公开的又一项重磅成果。
8. 在注意力中重新思考Softmax:分解非线性,这个线性transformer变体实现多项SOTA
原文链接:
https://mp.weixin.qq.com/s/jUx-EL4AOJu9ttWvAWYRgQ
Transformer 在自然语言处理、计算机视觉和音频处理方面取得了巨大的成功。作为其核心组件之一,softmax 注意力有助于捕获长程依赖关系,但由于序列长度的二次空间和时间复杂度而禁止其扩展。研究者通常采用核(Kernel)方法通过逼近 softmax 算子来降低复杂度。然而,由于近似误差,它们的性能在不同的任务 / 语料库中有所不同,与普通的 softmax 注意力相比,其性能会下降。
研究者认为 softmax 算子是主要障碍,而对 softmax 高效而准确的逼近很难实现,因此很自然地提出一个问题:我们能否用线性函数代替 softmax 算子,同时保持其关键属性?
通过对 softmax 注意力的深入研究,研究发现了影响其经验性能的两个关键性质:
(i) 注意力矩阵的非负性;
(ii) 一种非线性重重加权方案,可以聚集注意力矩阵分布。
这些发现揭示了当前方法的一些新见解。例如,线性 transformer 使用指数线性单元激活函数来实现属性 (i)。然而,由于缺乏重重加权(re-weighting )方案,表现不佳。
论文地址:
https://arxiv.org/pdf/2202.08791.pdf
本文中,来自商汤、上海人工智能实验室等机构的研究者提出了一种称为 COSFORMER 的线性 transformer,它能同时满足上述两个特性。具体来说,在计算相似度分数之前,该研究将特征传递给 ReLU 激活函数来强制执行非负属性。通过这种方式使得模型避免聚合负相关的上下文信息。此外,该研究还基于余弦距离重加权机制来稳定注意力权值。这有助于模型放大局部相关性,而局部相关性通常包含更多自然语言任务的相关信息。
在语言建模和文本理解任务的大量实验证明 COSFORMER 方法的有效性,并且在长序列 Long-Range Arena 基准上实现了 SOTA 性能,这一结果很好地证明了 COSFORMER 在建模长序列输入方面的强大能力。
AI干货
9. 深度学习模型的多Loss调参技巧
原文链接:
https://mp.weixin.qq.com/s/26yk014Jb6zCYbS9rSj62g
在多目标多任务训练的网络中,如果最终的loss为有时为多个loss的加权和,例如 loss = a*loss_x+b*loss_y+c*loss_y+… ,这个问题在微信视频号推荐比赛里也存在。任务需要对视频号的某个视频的收藏、点击头像、转发、点赞、评论、查看评论等进行多任务建模,也就产生了多个loss。这里介绍在这次实践过程中测试过的几个方法。
1.GradNorm
GradNorm:ω(t+1)=ω(t)+λβ(t),该方法主要在对各损失函数权重的梯度进行处理,利用梯度更新公式动态更新权重ω。
2.Multi-Task Learning as Multi-Objective Optimization
在处理多个loss时,引入Pareto用一次训练的方式将问题转化为求取Pareto最优解。有兴趣的可以看看原文:https://arxiv.org/pdf/1810.04650.pdf
3.Multi-task likelihoods
最简单的多任务Loss的线性加权:
对于分类任务,经常通过softmax函数产生概率向量中抽取样本来构造多任务的最大似然函数。
4.玄学调参
上面说了太多方法调参,来点手动的经验吧。最简单的方法如下:
- 例如 loss = a*loss_x+b*loss_y+c*loss_y ,可以在a+b+c=1前提下,固定a,b,调整c,分别在2x、4x、6x等倍数去做尝试,最后相加为1;
- 权重缩放,固定其中一个为1,利用power(m,n)去调整尝试;
- Weight Uncertainty 利用 Gaussian approximation 方式直接修改loss ,并同时以梯度传播的方式来更新里面的两个参数。
10.YoloV5一系列实践详情,Github代码已开源
2021年9月18日,在github上发布了一套使用ONNXRuntime部署anhor-free系列的YOLOR,依然是包含C++和Python两种版本的程序。起初我是想使用OpenCV部署的,但是opencv读取onnx文件总是出错,于是我换用ONNXRuntime部署。
YOLOR是一个anchor-free系列的YOLO目标检测,不需要anchor作为先验。本套程序参考了YOLOR的官方程序(https://github.com/WongKinYiu/yolor), 官方代码里是使用pytorch作为深度学习框架的。根据官方提供的.pth文件,生成onnx文件后,我本想使用OpenCV作为部署的推理引擎的,但是在加载onnx 文件这一步始终出错,于是我决定使用ONNXRuntime作为推理引擎。在编写完Python版本的程序后, 在本机win10-cpu环境里,在visual stdio里新建一个c++空项目,按照csdn博客里的文章讲解来配置onnxruntime, 配置的步骤跟配置Opencv的步骤几乎一样。在编写完c++程序后,编译运行,感觉onnxruntime的推理速度要比 opencv的推理速度快,看来以后要多多使用onnxruntime作为推理引擎了,毕竟onnxruntime是微软推出的专门针对 onnx模型做推理的框架,对onnx文件有着最原生的支持。