硅基周报｜谷歌连续狙击OpenAI；豆包发布全新视觉理解模型；国行苹果AI花落谁家

硅基周报｜谷歌连续狙击OpenAI；豆包发布全新视觉理解模型；国行苹果AI花落谁家

2024-12-25 10:51

豆包发布全新视觉理解模型，顺便把价格打下

2024年12月18日，在火山引擎FORCE原动力大会上，火山引擎发布了全新的豆包视觉理解大模型。该模型通过同时处理文本和图像相关信息，能够提供更为精准的答案。

豆包视觉理解大模型能够识别图像中的物体类别、形状、纹理等基本要素，以及理解物体之间的关系、空间布局和场景的整体含义。并且新模型还能进行复杂的逻辑计算，如解微积分题、分析论文图表、诊断真实代码问题等。同时豆包还把视觉模型的价格打骨折，仅为0.003元/千tokens，相当于一块钱可以处理284张720P的图片。与之对应的OpenAI的GPT-4o 128k 的价格是 0.017元/千tokens。

在本次大会中火山引擎还升级了多个其他模型。其中豆包通用模型pro完成新版本迭代，综合任务处理能力较5月份提升32%，在推理上提升13%，在指令遵循上提升9%，在代码上提升58%，在数学上提升43%，在专业知识领域能力提升54%。

国内大事件

字节、腾讯，国行苹果AI到底用谁的模型

据路透社报道，苹果公司正在与腾讯、字节跳动谈判，希望将这两家公司的AI模型整合到在中国市场销售的iPhone中，但目前这一讨论尚处于非常早期的阶段。苹果已经在其全球设备中接入了OpenAI的ChatGPT，允许Siri调用ChatGPT的AI功能，在国内由于ChatGPT尚未正式推出，苹果需要寻找其他合作伙伴来填补这一空白。

iPhone想借助AI功能重获消费者青睐，但实际情况可能并不乐观。一项由科技产品回收平台 SellCell进行的调查显示，实际使用过苹果AI功能的用户中，73%认为这些功能对使用体验的提升微乎其微。

万物皆可做“增程”，闪极发布AI眼镜

2024年12月19日，闪极正式发布新款AI眼镜——闪极AI“拍拍镜”，零售价1499元，共创版售价999元（限量 5 万台）

闪极AI眼镜支持头部相机、耳边音箱、智能助手、录音笔等功能，支持1600万像素三重拍摄交互、123°沉浸视角，还搭载Hi-Fi级的软硬件一体音响系统。硬件上，闪极AI眼镜搭载紫光展锐旗舰级AI处理器W517，集成CPU、GPU、蓝牙、Wi-Fi等多模块，采用2GB RAM+32GB ROM内存方案。拍摄方面，其搭载了索尼1600万像素摄像头，内置450mAh电池，理论待机时间为50小时，支持15小时不间断拍摄。

为了打破眼镜的体积限制，闪极设计了一个“增程环”，外形类似挂脖耳机，可以为AI眼镜提供更长的续航、存储空间和算力。

猿辅导发布彩色墨水屏学习机，瞄准3-6岁的孩子

2024年12月18日，猿辅导正式发布了其最新研发的小猿学练机——小猿学练机彩墨版，售价4899元，持续加码AI与教育服务领域。该款产品聚焦低龄儿童用户，搭载科学全面的分龄启蒙体系，内置丰富的启蒙资源，秉持“保持专注力、保持好奇心”的产品理念，期望给3-6岁的孩子带来全新启蒙体验。

该学习机采用10.3英寸Kaleido 3 KH3彩色墨水屏，这块屏幕也是教育行业唯一通过TÜV莱茵“类纸显示认证”的屏幕。小猿学练机彩墨版注重低龄儿童的 “看”“听” 及互动需求，引进牛津树、红火箭、迪士尼、汪汪队等3000+经典IP绘本和丰富的熏听资源。

“双减”后的焦虑和技术快速迭代，使得教育硬件需求不断扩张，AI学习机市场火热，2024年上半年，其销售额增长达136.6%。

百度回应进军短剧领域：重点发展方向

根据国家知识产权局商标局官方网站显示，百度在线网络技术（北京）有限公司申请“百度短剧”商标。百度相关负责人表示，短剧是当前内容生态的一个重点发展方向，目前百度短剧平台已汇聚 2.4万+部短剧。2025年，将从分发、分账、奖励、独播以及招商五大方面进行全新升级。

2024年，短剧市场迎来了前所未有的爆发式增长，《中国微短剧行业发展白皮书（2024）》显示市场规模达到504.4亿元，同比增长34.90%。以红果免费短剧APP为例，其月活跃用户数已突破1亿，同比增长率高达1045.86%。

早在2021年10月，百度就进军短剧领域，并启动了名为“破壳计划”的微短剧孵化计划，拿出1000万创投基金。今年7月，百度投资了CreativeFitting（井英科技），一家专注于AIGC视频生成模型的公司，推出了全球首款AI短剧APP——Reel.AI。

收入增长超过100%，智谱完成30亿新融资

2024年12月17日，智谱宣布完成新一轮30亿元融资。新投资方包括多家战投及国资，君联资本等老股东跟投。智谱称，本轮融资将用于智谱GLM大模型系列的进一步研发，从回答问题到解决复杂推理、多模态任务，更好地支撑行业生态发展。此次是智谱今年第二次融资，今年9月，中关村科学城公司宣布领投智谱。智谱方面表示，其业务在2024年保持了高速增长，商业化收入增长超过100% 。其中C端产品智谱清言App用户数超过2500万。

今年1月，智谱发布新一代基座大模型GLM-4，性能逼近GPT4，6月份开源了基于GLM的视觉模型 GLM-4V-9B，其多模态能力与GPT-4V相当。7月上线视频生成模型智谱清影，在视频长度和质量上对标sora，并且在10上线给视频内容配音效功能11月还发布了AutoGLM，可以根据用户指令自动在手机和电脑上完成任务。

接单多了强制下线，美团饿了么试点骑手保护措施

近日，有消息称美团骑手若过度跑单，将被平台强制下线。对此，美团相关负责人证实确有此项举措，目前该方案正在试点阶段，相关规则将于完善后正式公布。饿了么方面表示，其已于今年8月在全国范围内上线骑手休息措施。当骑手连续跑单时长较长时，会触发建议休息的弹窗提醒；若连续跑单时长过长，则会有小休要求。

具体措施为，一旦骑手跑单累计时长过长，便会触发休息的弹窗提示。若累计跑单时长超过特定时限，骑手将被强制下线，且需等到次日方可继续跑单。

海外动向

谷歌持续狙击OpenAI

12月19日，谷歌发布“Gemini 2.0 Flash Thinking”模型直接对标OpenAIo1。与OpenAI o1类似，Gemini 2.0 Flash Thinking擅长“思考”，可以一步一步推理用户的问题。不同的是Gemini 2.0 Flash Thinking允许用户通过下拉菜单查看其逐步推理过程，提高了模型的透明度。在Chatbot Arena排行榜中，Gemini 2.0 Flash Thinking在编程、数学、创意写作等各项评测任务上都是（并列）第一。目前，用户可以在在Google AI Studio 和 Vertex AI 中试用Gemini 2.0 Flash Thinking模型。

新的推理模型仅仅是谷歌对抗OpenAI的举措之一。三天前（12月17日），谷歌一口气推出了两款生成式模型——视频生成模型Veo 2和图像生成模型Imagen 3，以及一款创意工具Whisk。Veo 2能通过文本或图像提示（prompt）生成具有高逼真度和高品质的视频。从早期用户的反馈来看，Veo 2的生成品质已明显超过当前业内表现最佳的Sora。

根据谷歌介绍，Veo 2可生成长度超过两分钟、分辨率高达 4K 的视频，并能理解提示词中关于摄像机控制的指令，还能够重建符合现实世界物理互动和人脸表情的场景。然而，在测试服中，Veo 2只能生成最高720p分辨率、时长8s的视频，不及Sora所提供的1080p和20秒时长的输出。

Veo 2生成的视频

OpenAI马拉松发布会下半场：ChatGPT热线、满血o1 API、全新MacOS应用程序

OpenAI长达12天的发布会也进入下半场，12月17日，OpenAI宣布，其基于GPT-4o模型构建的ChatGPT搜索功能将自即日起向所有用户开放。该功能于今年10月底首次亮相，允许用户像使用常规网络搜索一样，通过聊天机器人获取即时信息。此次开放，用户还可以将ChatGPT搜索设为浏览器的默认搜索引擎，提升使用便利性。

12月18日，OpenAI通过API向第三方开发者开放其尖端的大模型o1系列。这一系列模型引入了“推理”功能。在生成答案的过程中，模型能够进行自我校验，确保答案的准确性，有效避免“幻觉”现象的产生。

12月19日，为了进一步扩大旗舰产品的覆盖范围，OpenAI推出了无需账号即可通过电话或WhatsApp与ChatGPT互动的服务。美国用户可以拨打1-800-CHATGPT，通过OpenAI的实时对话功能——高级语音模式，每月免费通话15分钟。其他国家的用户则可以通过WhatsApp向同一号码发送消息，与ChatGPT进行互动交流。

12月20日，OpenAI发布了适用于MacOS的桌面应用程序，并推出了与各类应用程序的互操作性功能。这一举措为“代理式人工智能”（Agentic AI）的未来发展奠定了基础，使ChatGPT更加强大，并能够无缝集成到用户的日常工作流程中。

例如“Work with Apps”功能，用户现在可以将ChatGPT接入更多编码应用程序，提升工作效率。MacOS桌面应用程序现已支持Apple Notes、Quip和Notion，方便用户在不同平台上进行写作和内容管理。除了传统的文本选择、复制粘贴操作外，MacOS桌面应用还支持高级语音模式，并能够与其他应用程序协同工作，提供更加便捷的使用体验。

微软推出最强小模型Phi4，部分能力超GPT-4o

近日，微软发布小模型Phi4，据悉，Phi4仅拥有140亿参数，但微软通过创新的训练方法和高质量的数据，展现出了与一些更大规模模型相媲美甚至超越的性能。

在13项基准测试中，Phi4在6项测试中超过了Llama 3.3 70B，在5项测试中超越了Qwen 2.5。特别是在GPQA（研究生级别的问答）和MATH（竞赛级数学题）方面，Phi-4的表现优于Llama 3.3 70B、Qwen 2.5和GPT-4o。

Phi4的预训练集的大部分数据来源于网络或现有的数据集，开发人员精选了已知的高质量数据集和优质的网页数据存储库，如书籍和研究论文。同时，他们还训练了分类器来识别高质量文本，从而有效筛选网页内容。剩余的预训练数据由GPT-4o生成或重写。具体来说，GPT-4o会将来自网页、代码、科学论文和书籍的文本片段改写成练习、讨论、问答对和结构化推理任务。

Perplexity AI完成$500M融资，估值翻了三倍

美国AI搜索公司Perplexity近日完成了今年的第四轮融资，融资额达到5亿美元（约36亿人民币），公司估值飙升至90亿美元，较今年年初增长超过1630%。

此次融资由风投公司IVP领投，英伟达、New Enterprise Associates、B Capital和T Rowe Price等机构参与。此外，软银愿景基金2期、亚马逊创始人杰夫·贝索斯、OpenAI联合创始人Andrej Karpathy以及Meta首席人工智能科学家Yann LeCun等业内知名人士此前也曾投资Perplexity。

目前，Perplexity主要通过订阅服务实现盈利。其产品每月接收数亿次查询，月活跃用户达到1500万。公司表示，年化收入已从1月的500万美元增长到8月的3500万美元，展现出显著的增长势头。

其他值得关注的

用AI检测AI，大学生两头堵

用AI对付期末作业的现象在全世界高校泛滥，学校方面采用AI文本检测学生作业是否为原创成为趋势，然而检测准确度可能很低。British University Vietnam大学生成式AI研究员Mike Perkins认为，AI检测软件存在重大局限，识别准确率仅为39.5%，通过简单的文本修改后准确率降至22.1%。

此外，AI检测工具对某些群体存在偏见。斯坦福的一项研究发现，许多AI检测器对非英语使用者有偏见，61%的作品被标记（用AI写的），而母语为英语的仅有5%。

另一边，即便学生成功“润色”AI撰写的内容，骗过检测，对自身的能力也有危害。浙江传媒学院新闻与传播学院副教授王翎子表示，由AI完成的作业最致命的问题在于，让学生逐渐失去了独立思考、批判质疑的精神。

GitHub推出Copilot的免费版本

12月19日，微软旗下代码托管平台GitHub正式推出GitHub Copilot Free免费订阅服务，旨在让全球开发者轻松体验AI编程的便捷与高效。通过GitHub Copilot Free，开发者可以在Visual Studio Code 编辑器中免费使用AI编程助手。

该服务提供了两种顶级AI模型供用户选择，分别是Claude 3.5 Sonnet和GPT-4o。每月，开发者可享受2000次代码生成和补全服务，50次聊天交互机会。该服务支持跨文件编辑，能够对多文件代码进行智能分析和调整，支持集成第三方智能体，扩展其功能。

英国测试AI摄像头抓酒驾

BBC消息，英国交通管理部门正在德文郡和康沃尔郡测试一种新型摄像头，利用人工智能技术识别可能存在酒驾或毒驾行为的驾车者。

这款名为Heads-Up的设备能够实时监测道路使用情况及可疑驾驶行为，判断驾驶者是否存在酒驾或毒驾的嫌疑。警方在接到系统通知后，会在前方设立检查点，拦截车辆并对驾驶者进行现场酒精或毒品检测。

此前，Acusensus的摄像头已协助英国警方打击驾驶时使用手机或未系安全带的违法行为。数据显示，酒驾导致致命事故的概率是普通驾驶的六倍。

全文完。

作者：董道力

编辑：张泽一

视觉设计：疏睿

责任编辑：张泽一