美AI巨头频陷非法数据收集争议

数智人2024-03-21产业资讯92
“有许多专家相信,OpenAI公司在使用公共视频网站的数据训练其大模型。”美国“商业内幕”网站18日刊文称,这家业界领先的人工智能(AI)初创企业获取数据的方式正在引发争议。不只是OpenAI,近期美国多个头部科技企业遭遇类似争议。训练人工智能大模型的数据来源是否合法?如何界定企业使用公众数据的边界?都成为未来各国完善人工智能法规需要认真考虑的问题。OpenAI遭遇质疑“商业内幕”网的文章以OpenAI公司旗下大火的人工智能视频创作工具Sora为例称,Sora的训练依赖海量数据,这些数据很可能搜刮自谷歌旗下的YouTube视频网站,而这已经几乎是公开的秘密。事实上,YouTube官方一直禁止使用自动化工具批量下载网站视频的做法,也禁止下载YouTube视频用于商业目的,并采取限流等措施应对工具刮削。文章称,目前尚不清楚OpenAI是用了什么样的技术手段绕过YouTube的拦截。美国《华尔街日报》近期采访OpenAI首席技术官米拉·穆拉蒂,在被问及公司使用什么数据训练Sora时,她回应称“使用的是公开和被许可数据”。但被问及其中是否包括YouTube视频内容时,她表示“对此并不确定”。中关村信息消费联盟理事长项立刚20日告诉《环球时报》记者,人工智能大模型分为通用大模型和垂直(行业)大模型。OpenAI做的是通用大模型,会在YouTube等公共平台上爬取数据。图片和视频的版权往往较文字更为明确,更容易引发争议。“比如,我拍的视频、图片就是我所创作的内容,但被整合到人工智能大模型里后,就成为后者的内容。这里面有很多法律问题是需要解决的。”当前,人工智能赛道在全球持续火热,众多初创公司争先恐后地收集高质量的数据训练人工智能大模型。“商业内幕”网援引熟悉OpenAI运营的人士的话称,该公司指派了一个“秘密团队”来获取训练数据,公司内部也不会深究数据来源。互联网界的各大玩家似乎达成某种“共识”——只要自身能抓取到别人的数据,也就默许其他玩家采取相同的做法。在一些人看来,这样的“共识”是狂飙突进中的人工智能产业需要留意的一大隐患。“商业内幕”网的报道认为,生成式人工智能的快速兴起掀起了一场世界范围内的技术竞赛,在这个新领域中,什么是合法的,什么是合乎道德的,目前尚缺乏明确而成熟的规则。“混乱”中推动监管措施变革“商业内幕”网称,人们对复杂的生成式人工智能系统给公众带来的潜在危害有很多担忧,公众对这些人工智能大模型从何处获取数据、如何使用数据以及在涉及敏感信息时是否采取保护措施知之甚少,科技公司不仅没有告诉公众太多信息,甚至连自身都无法将这一过程彻底解释清楚。一段时间以来,美国多家业内头部企业因人工智能训练数据来源而陷入侵权纠纷,甚至吃到官司。本月初,3名作家在美国加州对英伟达公司发起集体诉讼,指控该公司的NeMoAI平台使用盗版文学网站素材训练人工智能的自然语言撰写技能。早前,包括《冰与火之歌》作者在内的18名作家起诉OpenAI侵权;《纽约时报》起诉OpenAI和微软非法使用其内容;在2023年,就有许多设计师起诉人工智能绘画软件Midjourney和StabilityAI未经许可使用其版权作品训练人工智能绘图工具。美国娱乐游戏网站IGN评价上述官司称,这些案例或成为推动监管措施变革的关键。面对外界越来越频繁的质疑,一些巨头对训练人工智能所用的海量数据来源讳莫如深。去年年底,两名美国议员提出一项《人工智能基础模型透明法案》,要求所有人工智能基础模型都必须披露训练数据来源、获取数据的方式以及使用的算法等。但这项法案何时能成为正式立法不得而知。多国法规有待检验中国经济学者盘和林告诉《环球时报》记者,对于获取训练人工智能大模型的数据,各国法规尚有分歧,甚至是一片空白。有些国家的法规更加倾向于信息公开,有些国家的法规更加倾向于信息安全。共识在于,选取数据不能涉及个人隐私数据。如果企业爬取公共数据,需对数据进行处理以达到脱敏脱密。项立刚告诉记者,中国去年在人工智能大模型的管理方面出台了相关的条例。至于涉及知识产权的管理,需要在未来随着人工智能产品的完善和技术的发展进一步制定相关的法律和法规。在管理人工智能训练数据来源方面,欧洲步子迈得较大。瑞士《一瞥报》19日称,人们已经意识到,会有犯罪者通过网络数据进行非法AI创作,甚至还会出现勒索事件。欧洲议会13日以压倒性票数通过《人工智能法案》。该法案为人工智能技术设置严格的规则,旨在确保人工智能的使用不会侵犯人的基本权利,如隐私、数据保护和非歧视等。欧盟官员将其称为“世界上第一部针对可信人工智能的全面、具有约束力的法规”。盘和林表示,与美国不同,中国主流人工智能大模型多基于企业内部数据进行训练。美国是判例法国家,经纪商可能从数据平台购买数据,更多的则是从互联网公开数据中爬取有用数据。包括社交媒体的所有资料。继而对数据进行预标注和加工处理。“商业内幕”网认为,谷歌、OpenAI和一些科技公司认为,在当前的“共识”下,即使使用受版权保护的内容进行人工智能模型训练是合法的,但这样的诉求也有待得到监管机构或法庭的检验。▲本报驻美国、德国特约记者冯亚仁昭东本报记者王冬●甄翔 原文链接://shuzhiren.com/post/122205.html

相关文章

今年前10个月中国社会物流总额278.3万亿元

中新社北京11月28日电(记者阮煜琳)中国物流与采购联合会28日发布数据显示,1月至10月,全国社会物流总额278.3万亿元(人民币,下同),按可比价格计算,同比增长4.9%。10月份,社会物流总额增...

国家港口能源物流产业计量测试中心获批筹建

为提升港口能源物流产业核心竞争力,更好地发挥计量对港口能源物流产业的技术支撑和保障作用,近日,市场监管总局批准依托广州能源检测研究院筹建国家港口能源物流产业计量测试中心。港口能源物流产业是我国港口能源...

新加坡展团进博会上捕捉新机遇 签约合作金额突破8700万新元

11月6日,新加坡工商联合总会(SBF)在第六届中国国际进口博览会(以下简称“进博会”)上,同期举办第六届新中经贸与投资论坛。据了解,作为高级别双边商业平台,新中经贸与投资论坛旨在促进建设性对话,加强...

外贸“压舱石”!5800余家AEO企业贡献我国约四成进出口值

新华社深圳5月8日电AEO是“经认证的经营者”的英文缩写。目前,我国共有5800余家AEO企业。海关最新数据显示,2023年,我国AEO企业以20.5%的报关单量占比,贡献全国37.1%的进出口值和3...

全国耕地面积连续两年净增

自然资源部近日称,2022年度全国国土变更调查初步数据显示,2022年全国耕地净增130万亩,是继2021年全国耕地总量净增后第二年实现净增加。自然资源部发布的《2022年中国自然资源统计公报》显示,...

推进照明行业质量升级 两项“领跑者”LED照明产品评价标准发布实施

照明产品覆盖生活和生产的各个领域,其质量高低、节能性、智能化等方面和每个人都息息相关。日前,记者在全国团体标准信息平台上看到,由中关村现代能源环境服务产业联盟和广东省照明学会双归口的第一批“领跑者”L...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。