什么样的大模型敢啃硬骨头?
发表时间: 2024-03-20 01:05:44 发布于:行业新闻
一场AI行业的浪潮,在今年年初席卷而来。最初,大模型激发了大家对于科技变革的热切期盼,而如今行业已经逐渐进入风口的冷静期。
据赛迪顾问多个方面数据显示,截至2023年7月,中国累计已经有130个大模型问世。但据「市界」了解,其中多数,最终都只成为了投机者追逐风口的机会。
当泡沫逐渐沉淀下来,以华为、BAT等科技大厂为代表的,真正愿意长久深耕大模型的行业玩家都已意识到:世界上没有万能解药,只有针对具体问题深耕优化的“工具箱”、“脚手架”。
特别是在过去三年,千行百业被大环境冲击的同时,也带来了各种科学技术创新。国际形势的瞬息变化,又加速了数字化进程。随着AI时代到来,联接、算力、数字化慢慢的变成了了主旋律。
而华为无疑在其中担负着引领中国科学技术创新重要使命。9月20日,在2023华为全连接大会上,华为副董事长、轮值董事长、CFO孟晚舟说:华为提出的“全面智能化”战略的目标是加速千行万业的智能化转型。首先要让所有对象可联接。其次,要让所有应用可模型。第三,要让所有的决策可计算。
实际上,大模型背后包含着极高的进入门槛,其中之一便是算力的支撑。有多个方面数据显示,过去10年AI算力需求翻了30万倍,而未来10年,AI算力还将再增长500倍。
9 月 19 日,华为创始人兼CEO任正非在与ICPC(国际大学生程序设计竞赛)基金会及教练和金牌获得者的学生交流时也表示:我们即将进入第四次工业革命,基础就是大算力。第四次工业革命波澜壮阔,其规模之大不可想象。
而在此次华为全联接大会上,华为云盘古大模型也进一步迎来了重大升级,不仅宣布新推出了汽车、医学等行业大模型,同时对已有的政务、矿山、气象等行业大模型进行了进一步的迭代优化。
最近,许多人都发现,人类对于大模型的新鲜感和讨论度正在慢慢地衰减。其中一个重要的原因主要在于,经历了最初ChatGPT带来的惊艳之后,各家厂商推出的大模型产品以及前端的应用场景都太过雷同。
在经历了“乱花渐欲迷人眼”的阶段后,大模型赛道迎来了祛魅的时刻。如今,各行各业对大模型的需求,都不再满足于让它写诗作画,而是需要大模型“下凡”,走出办公室,迈入田间地头,历经磨难,变得更“皮糙肉厚”。
今年2月,华为云陆续发布了代码仓、需求管理、测试管理等23款云上软件开发工具,并将它们打包成为软件全生命周期开发生产线CodeArts。在硬件方面,华为云此前联合20多家合作伙伴发布了云原生的原理图工具等多款硬件开发工具,进一步保障了电子工业的硬件开发工具连续性。
6月,华为云又发布了分布式云数据库GaussDB,在内部替换了使用27年的Oracle(甲骨文)数据库,实现了比甲骨文更好的高可用、高性能、高弹性等多种特性,同时还开发了Ugo迁移工具帮助合作伙伴迁移数据库到高斯,目前已经在银行、保险、证券等关键基础行业得到普遍应用。
而在今年7月推出的盘古大模型3.0中,华为云进一步将主旨定位在了“重塑千行万业”中——这也是国内第一个能够上到矿山、下到煤井里的大模型。
「市界」在7月曾经报道过盘古大模型的具体架构,作为一个面向行业应用层的大模型系列,盘古大模型3.0采用了三层架构(5+N+X),分别是L0层的基础大模型、L1层的行业大模型和L2层的场景模型,客户能根据L0和L1层级,再构建出自己的专属大模型。
实际上,中国当下存在着许许多多“艰苦”的行业,需要大模型智能化的引入,以及AI的前端创新改造。
例如,中国现在约有4400处煤矿,280万煤矿工人,他们是工作环境最为严酷的工人群体之一。同时,我国的煤炭开采和筛选效率又有极大的提升空间。2022年,我国原煤产量达到了45.6亿吨,但精煤产量仅为4.9亿吨。
在其背后,洗选煤的工艺参数涉及100多种,洗选的密度控制则多依靠人工经验,无法及时进行数据分析,轻易造成分选密度指标波动,造成精煤回收损失。
而伴随着盘古的AI博士来到井下,通过井下多路视觉感知、透尘算法、异物检测等视觉大模型技术,可以将井下的各种作业场景的视觉识别准确率从72%提升到98%。这样就可以让井下的工人能在地面的办公室里进行挖煤作业。
现在,山东能源集团已经把盘古矿山大模型全面应用到采、掘、机、运、通、洗选等9大业务系统,以及21个场景中。
面向洗选场景,在视觉大模型的基础上,山东能源集团引入了盘古预测大模型,通过对不同煤层、不同季节、不同灰分的原煤煤质数据和工艺参数智能分析,可以精准预测精煤产品的灰分值,以此来实现重介选煤分选密度的精准控制与实时调整。
引入盘古大模型后,山能济宁二号煤矿每年多产出8000吨精煤。如果将这个能力推广到全国,可让每个煤矿每年平均多产出2000吨精煤,精煤产率提升千分之二,增收2000万。
今年夏季,世界各地的台风、暴雨引发的自然灾害、人身伤害、财产损失,引起了人类对于未来的强烈担忧。
但很多人不了解,暴雨预测是气象领域最难的工作之一。它与云层活动、地形地貌、城市建筑、植被覆盖、空气中水分含量等几十个因素相关,这一些因素相互关联、动态发展,难以进行精准预测。这也导致每年全球由于暴雨造成的经济损失高达数千亿元。
今年7月6日,盘古气象大模型的论文被刊载在《Nature》杂志上,现在欧洲中期天气预报中心(ECMWF)、中国国家气象局等都已开始试用盘古气象大模型。
今年2月,盘古大模型对芬兰寒潮,以及上半年多个台风路径均做出了准确预测。盘古气象大模型也是首个精度超过传统数值预测方法的AI模型,并且只需要单台服务器、10秒即可预测未来10天的全球台风路径。而采用传统的数值计算预测方法,在3000台高性能服务器上要消耗4到5小时。
今年夏天,华为云团队又夜以继日地攻关,在40年全球气象数据的基础上,增加了10年卫星降水数据,并通过独有的3D EST-3地球空间网络训练优化。目前已经可以在一定程度上完成对未来6小时、24小时的短期和中期降水预报。经过系列测试,模型的降雨量预报精度已提升了20%以上。
在能源开采、气象预测这样的重大行业命题上寻求突破,对华为来说并不陌生。从很早以前,打硬仗就是华为的安身立命之本。
特别是如今,华为又担负了解决“卡脖子”问题的科技攻坚使命,在“重塑千行万业”的过程中,华为进军大模型赛道的打法也便是,聚焦于解决该行业最有挑战性的问题,迎难而上,赚“最辛苦”的钱。
例如,在政务领域,继此前联合深圳市福田区推出政务助手“小福”之后,盘古政务大模型开始重点攻克城市治理难题。
许多人不了解的是,城市治理历来都是一项极为复杂的系统工程,所涉及到的部门、场景和法律和法规数量级极为庞大。
例如,在台风等自然灾害过后,城市各种设施可能会受到损坏,如绿化树倒塌、道路积水等几百个场景,需协同十几个部门进行分拨处置,需耗时几天甚至更长时间。因此,实现城市事件万物感知、智能分拨是一项极具挑战性的任务。
此外,人眼可以轻易看出树木倒塌,共享自行车倾倒,路面积水,不一样的种类的垃圾倾洒,但传统摄像头能发现却没办法理解这些现象。
而盘古政务大模型基于多模态大模型的能力,通过千亿级参数的NLP大模型对百万级别的政府政策、公文进行精调,并通过与CV大模型进行多模态融合训练,能做到让城市事件秒级发现,分钟级分拨,城市事件处理效率提升了50%以上。
针对当下人们普遍关注的汽车产业,在此次全联接大会上,华为也同步新推出了盘古汽车大模型,该大模型特别聚焦于解决复杂场景的难题。
研究显示,真正的无人驾驶系统想要达到量产应用条件,至少需要经过约170亿公里的道路验证。即使一个团队拥有100辆无人驾驶车辆,24小时不间断的进行道路测试,积累数据所需要的时间也是以“百年”为单位。
在汽车自动驾驶领域,现存技术已经能够应对95%以上的常见驾驶场景,但完成最后的5% Corner Case ,是一个缓慢而复杂的过程。以前,学习一个新的Corner Case需要收集1万+的样本,整个周期在2周以上。
而盘古汽车大模型通过重塑无人驾驶训练,在真实路测之外,可以生成虚拟空间和Corner Case用于模型训练,从而让Corner Case的闭环周期从两周以上缩短到两天内。
现在,新疆疆纳和内蒙古伊敏露天煤矿,已经使用了华为商专车无人驾驶云服务,可实现60吨的重卡横向误差小于0.2米、精准停靠误差小于0.1米。
由此能够准确的看出,这些大模型无不包含着华为浓厚的“奋斗者”气息。也正因华为的研究、应用历来以复杂和艰苦著称,在其背后的研究人员,无论是将军或士兵,也都要被送到一线去打仗。
今年,华为云计划将200多名博士,全都送下一线,让他们跟着跑工地、下矿井、进车间、到田头,去帮助客户用好AI和大模型,解决各行各业最难突破的问题。
以金融行业为例,当前负责盘古金融行业大模型产品的祝博士提到:最难的业务问题是通过大模型解决人力密集型场景如网点业务、坐席等。为此,祝博士还到一线跟着客户的研发和业务一起讨论,与坐席人员一起旁听客户电话。
祝博士在一线与工行领导交流时发现,许多企业并不希望员工真正被大模型集体取代,更希望大模型能提升服务质量,提升工作效率,释放员工去做更多更有价值的事情。而这也恰恰符合华为云对大模型的期待:让大模型去做大家都不愿意做的杂活、累活,释放人类的双手去做更多具有创造性的事。
在一线调研之后,盘古大模型目前已经在工行上线了客服、网点、信贷助手等,其中网点文档问答上线之后取得了业务的一致好评,满意度一致维持在85%以上,覆盖380+网点,相应的解决方案正在交行、农行、银联、上交所等进行快速复制。
在无人驾驶赛道,华为同样坚持迎难而上。据华为云EI人工智能算法专家金博士表示,自动驾驶最难的问题是,整个行业的技术链条非常长,从硬件到软件,每个模块都对应着专业的团队。
盘古大模型为了找到在无人驾驶行业的切入点,必须深入传统车企、造车新势力、无人驾驶企业等不一样客户一线,和客户内部数据、标注、算法等多个技术团队进行交流和请教,逐步梳理行业业务和技术痛点。
而华为云在无人驾驶行业的突破,也正是依赖于高质量、高场景覆盖和精细标注的数据。下到业务一线后,金博士也更充分地理解了无人驾驶的数据价值。
如上所述,在盘古大模型持续地丰富、迭代升级的过程中不难发现,华为云做大模型的理念,一定是为行业解决最为艰难的环节。
而作为支撑盘古大模型的底座, AI云服务在为各行各业构建起强大的算力基础,也是华为云要攻克的最重要的技术难关之一。
以前述盘古政务大模型为例,据统计,城市每天要产生约1500PB数据,包含视频、图像、音频、文本以及上千类传感器信号(井盖位移、燃气告警、桥梁晃动、水尺),这些不同渠道来源的感知源都要接入盘古大模型中,才能实现城市的全方位的实时感知、万物理解。
在这背后,便是对算力的巨大挑战。如果说大模型是楼宇,那么算力就是地基,楼宇蓝图设计得再精美,地基修不牢固也无济于事。
而从今年大模型赛道的持续火爆开始,结合众所周知的中美地缘摩擦,在科技行业内与大模型风口常被放在一起讨论的,便是算力短缺带来的GPU抢购潮。
据资料显示,目前全球GPU算力大多分布在在英伟达和AMD两大巨头,主流的产品有英伟达的H100及A100、AMD的MI100及MI200等型号。而在国内市场,由于受到出口禁令限制,只能采购英伟达版的A800、H800,不仅性能发挥受限,而且有进一步断供的风险。
而目前中国企业若使用海外的云计算服务,可能还面临着被进一步限制的风险。
据《华尔街日报》7月初报道,美国正在准备限制中国企业使用美国云计算服务,可能会要求亚马逊、微软等美国云服务提供商限制向中国公司可以提供使用先进制程AI芯片的云计算服务。
没有自主算力作为基础的大模型,就像一朵沙漠之花,终究难以长久。在性能和供货受到双重限制的背景下,国内必须要抓紧构建起全栈自研的算力底座。
作为国内头部的云计算厂商,华为云近年来一直在搭建自主创新的算力底座——而盘古大模型也是依托于自主算力构建。
华为云在贵安、乌兰察布、芜湖部署了三大AI算力中心,为公司可以提供澎湃昇腾AI算力。企业只需一键接入,就能获得随取随用的昇腾AI云服务,不用再费时费力自建或改造传统数据中心。
在这次华为全联接大会上,华为常务董事、华为云CEO张平安宣布,华为云昇腾AI云服务已经正式上线。
而且华为云的昇腾AI云服务不是封闭的,更是开放的、包容的。近日,华为云昇腾AI云服务“百模千态”专区也已经正式上线。昇腾AI云服务不仅支持盘古大模型,还将适配业内主流的近百个开源大模型,如LLAMA,GLM等,同时支持企业基于盘古大模型L0和L1层级开发自己的专属大模型。
除了提供稳定可靠的云服务底座,华为云还提供了高效的大模型训练环境和完备的工具链,能轻松实现千卡训练连续30天不中断,任务恢复时长小于30分钟。
此外,面对AI时代数据准备、模型训练、推理部署、应用落地、集群建设等多重挑战,华为云进行了软硬件结合的系统性创新,搭建起了从系统架构层到应用开发层的多项云服务能力,并且这些能力都可以跨云、网、边、端实现多平台部署和使用。
华为针对云底座的系统下创新,实际上的意思就是在给整个大模型和AI产业做着打地基的工作。在国内半导体行业算力受限的背景下,让行业玩家不再“束手束脚”。
实际上,在商业世界中,博弈与竞争历来是此消彼长的过程。在热闹无比的“百模”大战中,究竟什么样的大模型才能生存到最后?
在行业爆发之初,受到集体关注的往往是以ChatGPT为代表的to C模式。虽然最新版的ChatGPT4.0,在“写诗作画”的能力上得到了诸多认可。但最近也屡屡传出,其数据库、训练量、处理问题的能力,已逐渐接近天花板。
最近马斯克也表态称:训练GPT-5在大多数情况下要30000—50000张H100芯片,越来越庞大的算力要求,已经让ChatGPT多少有些骑虎难下。Open AI 首席执行官Sam Altman甚至表示,“我们的GPU非常短缺,使用我们产品的人越少越好。”
因此,大模型归根到底,未来的发展趋势势必需要走出温室,渗透入各行各业,最终凝结为实打实的商业经济价值。聚焦于解决行业问题的大模型,它的发展才可以说没有终局和尽头。而华为云盘古大模型便正走在这样的路上。
可以说,世界上没有一劳永逸的大模型,但向来都有一腔孤勇、埋头苦干的人。只有持之以恒不断进行创新,聚焦现实不断解决行业难题,才是整个大模型行业的生存之道,同时也是盘古和华为云的生存之道。
- 上一个: 你了解区块链三层结构吗
- 下一个: 中船黄埔文冲请求含油铁屑搜集设备专利能下降人工本钱