百度语言与知识技术峰会召开 王海峰揭秘NLP技术演进路径

数智人2023-05-31产业资讯165
AI正在向更深层次进化,语言与知识技术的重要性愈加凸显。8月25日,以“掌握知识、理解语言、拥有智能”为主题的百度大脑语言与知识技术峰会重磅开启,百度CTO王海峰发表主旨演讲,解读百度语言与知识技术的发展历程与最新成果,与产学研各界分享技术及产业发展趋势和展望,百度集团副总裁吴甜和百度技术委员会主席吴华分别发布百度语言与知识技术系列产品和数据集共建计划,重磅推出5款产品的新发布,全面加速AI技术大规模应用。在演讲中,王海峰表示,“在百度语言与知识技术的布局和发展中,我们始终在注意把握两个趋势,即技术发展趋势和产业发展趋势,并力争引领趋势。”语言与知识技术是人工智能认知能力的核心,以语言和知识为研究对象,让机器像人一样掌握知识、理解语言的自然语言处理技术,对于人工智能发展至关重要。十年来,百度大脑语言与知识技术成果丰硕,获得包括国家科技进步奖在内的20多个奖项,30多项国际竞赛冠军,发表学术论文超过300篇,申请专利2000多项。技术不断突破创新的同时,也在产品上创新探索,同时将领先的技术输出给开发者与合作伙伴,提升各行业智能化水平。半个多世纪前,老一辈自然语言处理学者,在一本名为《机器翻译浅说》的书中,畅想了未来跨语言、跨文化的无障碍沟通场景。如今,机器同传、翻译机、跨模态翻译等工具,已融入人们的工作和生活,沟通无国界的梦想正逐步实现。这一切是人工智能技术,特别是语言与知识技术进步所带来的结果。历经近十年发展,百度已经构建了完整的语言与知识技术布局,包括知识图谱、语言理解与生成技术,以及上述技术所支持的包含智能搜索、机器翻译、对话系统、智能写作、深度问答等在内的的应用系统。其中,知识图谱是机器认知世界的基础。机器认知能力的突破,越来越依赖对知识和大规模知识图谱的运用。百度打造了世界上最大的多源异构知识图谱,拥有超过50亿实体和5500亿事实,并在不断演进和更新,已应用于各行各业,每日调用次数超过400亿次。不仅如此,针对不同应用场景和知识形态,百度还建立起多样化的知识图谱类型,既有基础的实体知识图谱,也有行业知识图谱、事件图谱、关注点图谱等,以及融合语音、视频、图片的多模态知识图谱。这背后,是百度创建的包括无标签大数据开放知识挖掘技术、知识体系自扩展的知识图谱自学习技术、以及融合多源异构数据的知识补全与整合技术在内一整套知识图谱构建方法。在知识的加持下,语言理解相关技术的能力不断增强,机器也可以逐渐像人一样不断学习、不断进步。百度提出知识增强的语义理解框架ERNIE,在深度学习的基础上融入知识,具备人类一样的持续学习能力,曾一举登顶全球权威数据集GLUE榜单,首次突破90分大关,并且超越人类得分。而通过融入知识、语义理解、以及增强小样本学习能力,机器的阅读理解和对话能力也在迅速增强。当然,和人类认知世界的形式类似,机器认知世界时,也不仅是运用自然语言,而往往是对语音、视觉、语音等多模态信息的综合应用。为此,百度研制了知识增强的跨模态深度语义理解方法,通过知识关联跨模态信息,运用语言描述不同模态信息的语义,进而让机器实现从“看清”到“看懂”、从“听清”到“听懂”,即图像和语言、语音和语言的一体化理解。而融合场景图知识的跨模态语义理解预训练技术,则大幅提升了跨模态推理能力。在机器理解自然语言之外,要与人进行交互,语言生成的任务也必不可少。百度基于多流机制的语言生成预训练技术,在语言生成的过程中,兼顾词、短语等不同粒度的语义信息,提升了生成效果。而多文档摘要生成,则通过图结构语义表示,引入篇章结构知识,增强长文本语义表示能力的同时,解决了跨文档领域关系建模难题。结合语言生成技术和其他语言与知识技术,百度打造了智能创作平台,已被20多家媒体所采用,日调用量超过35万次。语言与知识技术的全面突破,在搜索、翻译、对话系统等各类产品、应用中得到突出体现。王海峰介绍,通过知识图谱、语言理解和跨模态语义理解等技术,智能搜索帮助用户更加高效、精准、便捷地获取知识和信息。智能搜索再进一步发展,搜索将无处不在。百度提出了知识图谱驱动的对话控制技术,以及首个基于隐空间的大规模开放域对话模型PLATO等,并推出智能对话定制和服务平台UNIT,可帮助开发者高效构建智能对话系统,实现规模化应用。百度翻译支持200多种语言,每天响应超过千亿字符的翻译请求,支持超过40多万家第三方应用,技术上,提出了多智能体联合学习、基于语义单元的同传模型、稀缺语种分组混合训练算法等。此外,百度语言与知识技术的成果,也在源源不断通过开源开放平台对外输出,在互联网、金融、医疗、教育等诸多领域发挥作用,提升产业智能化水平的同时,也得到了各方认可,这是近十年来百度语言与知识技术不断进步的最佳证明。演讲最后,王海峰对语言与知识技术的进一步发展做了展望。他表示,复杂知识表示和快速构建技术,知识与深度学习进一步融合,深度融合感知和认知的跨模态语义理解技术,模型可解释性和鲁棒性等等,仍有很多技术难题需要持续研究和解决。但对于未来,百度充满信心,愿始终坚持探索机器“掌握知识、理解语言、拥有智能”,与学术界、产业界携手,推动语言与知识技术、人工智能技术持续进步,为产业不断升级、社会经济高质量发展做出更大贡献。转自:财讯网 原文链接://shuzhiren.com/post/8441.html

相关文章

氢能产业链与创新链加速融合

“当前我国氢能产业进入全新发展阶段,这需要更多、更专、更优的专精特新企业支撑氢能发展。”国家能源局科技装备司能效与储能处处长徐梓铭在近日由中国氢能联盟举办的2023氢能专精特新创业大赛决赛现场指出。氢...

66元吃到4菜1汤,走红网络的“上门代厨”前景如何?

这里是民生调查局,见人所未见,调查民生之变。关注你想关注的、你没关注的,调查你想看的、未看到的。中新网11月15日电(中新财经记者宋宇晟)“你是否下班回到家就想吃一顿可口的饭菜?你是否讨厌买菜的讨价还...

2023年我国自行车产量将达1亿辆左右

近年来,新一轮科技革命和产业变革为自行车行业发展创造了新契机。2022年,全行业总产值同比增长3%,实现利润超100亿元,同比增长20%。2023年我国自行车产量将达1亿辆左右,仍是世界上最大的自行车...

打造数字化降碳中国方案 我国建立首个汽车产业链碳公示平台

昨天(2月9日),我国首个汽车产业链碳公示平台在北京发布,这也是全球首个针对汽车全产业链的碳足迹信息公示平台。这一平台的上线,将对汽车工业绿色低碳高质量发展提供新的动能。记者了解到,汽车产业链碳公示平...

上半年GDP同比增长5.0%,经济数据一览

7月15日,国家统计局发布数据,初步核算,上半年国内生产总值616836亿元,按不变价格计算,同比增长5.0%。分产业看:第一产业增加值30660亿元,同比增长3.5%;第二产业增加值236530亿元...

研发投入首超3万亿元说明什么

国家统计局、科学技术部、财政部9月18日发布的《2022年全国科技经费投入统计公报》显示,2022年,全国研究与试验发展(R&D)经费投入总量首次超过3万亿元,达到30782.9亿元,比上年增加282...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。