打造中国版ChatGPT 蹄疾步稳更需放眼量
近来,ChatGPT以生动丰富的对话形式、集成完备的应用功能和迅速拓展的领域延伸,不仅再次将人工智能产业“带火出圈”,更是对党的二十大报告中“新一轮科技革命和产业变革深入发展,我国发展面临新的战略机遇”的重要论断作出的具象说明。党的二十大报告中提出“建设现代化产业体系,推进新型工业化,加快建设数字中国”。面对ChatGPT的领先优势与美国的迅速跟进封锁,我们应当知难而进、迎难而上。在顶层设计上,科技部部长王志刚在全国两会“部长通道”发言中,从技术应用角度和伦理法律角度清晰阐述了国家布局;在产业发展上,以百度“文心一言”为代表,国内各大互联网企业均已推出或正在研发“类ChatGPT”中文对话模型。相关科技成果及布局令国人备受鼓舞,但我们仍要正视相关产业发展差距,冷静分析技术落地阻力。从业内人士的角度来看,当前国内外语言大模型差距主要体现在三方面:算力、数据、算法。在算力方面,ChatGPT使用MicrosoftAzure的超级计算基础设施训练,其对高性能算力的需求令人咋舌。国内华为等企业前瞻布局,已有基于昇腾910AI芯片的Atlas计算卡可实现部分替代,但充足可靠的算力仍是我们当前发展大模型所缺乏的。一方面国产替代集中于中低端计算卡,仅能承接中小模型的训练,高端计算卡暂时无法替代;另一方面自主计算生态稚嫩,研究端和生产端的从业人员缺乏替换动力。没有更多的使用场景与更大的使用频率,自主算力就不会有更快的进步速度。在数据方面,国内规模庞大的市场与相对宽松的环境像是“黑土地”,一直为国内互联网企业迅速发展提供丰富的养分。这也促使“数据规模决定市场占有”发展思路的形成。而现在,ChatGPT与人类专家交互的调优方法,极大提高了数据质量所占权重。高质量数据的数量与增速对我们取得产业领先优势至关重要,但现状令人忧心。大模型的性能提升极大地依赖数据的“投喂”,但现有中文标注信息量与英文标注信息量有较大的差距。同时,现有数据标注公司大多是低成本、低附加值的“内卷”思路,缺乏行业共识与标准,影响高质量标注数据发展。在算法方面,从技术封锁和商业盈利两方面考量,未来业内算法交流将更受限制,这对我国的人才储备和质量提出了考验。根据斯坦福大学《2023AI指数报告》,2021年发表AI论文总量世界前10机构中,我国共占9席,充分说明我国AI科研人员规模可观。假以时日,相信国内各大企业一定可以复现GPT-3.5或GPT-4。但更令人担心的是算法原创性,即我们是否有能力提出全新的技术路径。考虑到AI在敏感领域的颠覆性应用,更为领先的算法恐怕无从参考。到那时,我们有没有能力提出自主创新的算法模型呢?因此,记者尝试用“蹄疾步稳更需放眼量”来概括对于推进国产ChatGPT建设的建议。首先,算力升级需蹄疾。加快推进半导体产业国产替代进程,重新校对研发时间表。产业发展有其内在规律,我们要用科学的态度对待科学,但也要发挥“一万年太久,只争朝夕”的主观能动性,为核心科技的自主可控争取主动。一方面是加快软硬件计算设施的国产替代进程,只有增加国产设备的使用场景并提升使用频率,我们才能更快形成独立自主的研发与应用生态,从而实现软硬件发展一体化推进;另一方面是加快算力共享平台建设,在高性能算力方面健全新型举国体制,搭建算力资源协作平台与机制,从而为国产替代赢得时间与空间。其次,政策规范需步稳。当前舆论集中于技术应用层面,但政策思考应有前瞻性,信息使用与保护的相关规范应提早规划。伴随AI大模型的迭代升级,深层伪造技术用于违法犯罪将更加棘手。因此,政府各部门应当通力合作、统筹协调,对AI技术的研发与应用综合掌握,从而贯彻落实科技发展以人民为中心的理念,凸显科技“人性之善”。最后,技术创新放眼量。AI对我国高质量发展的重要性不言自明,但要警惕“一有热点扑上去,一遇冷作鸟兽散”的现象,因为真正的竞争在于热闹过后仍能坐稳“冷板凳”,于无声处听惊雷。限于生成模型的原理,ChatGPT的答案中存在大量虚假信息,在学术文献引用和网址推荐上尤为突出,显示出极大的误导性。这提醒我们不能仅仅跟随ChatGPT的既有套路,更要对国产对话大模型发展路径实现自主可控。“摸着石头过河”是发展经验,但随着科技竞争进入“深水区”,还能有“石头”给我们摸吗?基础科学底层技术的积累突破才是我们长期竞争的最大底气,这拼的是政策制定者的前瞻决策、科研工作者的潜精研思、产业从业者的凝心聚力。“人生万事须自为,跬步江山即寥廓”,国家支持,产业积极,社会期待,相信我们能够团结一切可以团结的力量,共同实现国产ChatGPT的破局,为实现高水平科技自立自强添砖加瓦。(记者徐勇实习生李晓东)转自:人民邮电报 原文链接://shuzhiren.com/post/33181.html