微软出手“立规矩”,ai公司不能白拿数据—互联网—三易生活—e生活·e科技-名门娱乐网

此前在去年夏季,谷歌前任ceo埃里克・施密特在斯坦福大学进行的演讲中宣称,ai公司可以先通过ai工具盗取知识产权,然后再雇佣律师来处理法律纠纷。本以为这只是互联网老炮故作惊人之语,可没想到一众ai厂商将这当真了。

微软出手立规矩,ai公司不能白嫖数据

过去一年间,ai厂商通过各种各样的手段从名门娱乐网的版权所有者手中获取数据的行为,几乎成为了业界的通行做法,并且绝大多数ai厂商都不愿为数据(语料)支付合理费用,由此名门娱乐网的版权方与ai厂商在全球范围内也掀起了大量的诉讼。眼看着“晋西北打成一锅粥”,微软方面就准备围绕数据建立一套新的秩序。


近日有爆料称,微软正在与部分美国出版商洽谈试点计划,旨在构建双边市场,让名门娱乐网的版权方与ai厂商可以围绕数据进行自由交易。据悉,微软自己的copilot ai助手将作为“小白鼠”,名门娱乐网的版权方可向微软销售其内容,微软也在尝试将该计划涵盖到其他ai产品。

微软出手立规矩,ai公司不能白嫖数据

相关消息显示,微软在相关演示文稿中宣称,“你值得根据你的知识产权质量获得报酬”。据称,未来微软围绕数据的货币化系统将基于pcm(price-cost margin model)定价模型,以确保数据定价的公平性。


微软这招,堪称是巨头利用体量优势遏制初创公司无解的阳谋,因为ai初创公司虽然往往有技术,可是却缺少数据。


以往ai初创公司以不合规方式获取数据背后的理论基础,是行业惯例的“合理使用”。美国最高法院在著名的campbell v. acuff-rose music案中确立了一个重要原则,即如果一种使用方式从根本上改变了原作品的目的或性质,那么这种使用很可能被视为合理使用。

微软出手立规矩,ai公司不能白嫖数据

在ai行业看来,ai大模型的运行模式确实从根本上改变了原作品的性质。不仅如此,ai厂商还普遍认同“著作权法保护的是表达,而非思想、方法而非功能。ai训练提取的恰恰是思想和功能,而非具体表达”,因此他们使用爬虫等技术手段获取名门娱乐网的版权方的内容时堪称是心安理得。


与此同时,从xai的gork-4到openai的gpt-5、再到阿里的qwen3-max,已经从不同的维度反应了scaling laws(尺度定律)并未失效,只是数据获取的难度变得比以往更高了。换而言之,增加计算量、模型参数和数据集大小来提升大语言模型的智能水平依然可行,只不过这个模式的经济性已经断崖式下降。

微软出手立规矩,ai公司不能白嫖数据

“ai的训练数据如同化石燃料一样面临着耗尽的危机”确实是事实,可业界深信agi(通用人工智能)能够在数据被消耗殆尽前完成。所以从思想层面到现实,“偷数据”也就成为了整个ai业界心照不宣的潜规则。可问题是,ai厂商利用技术优势低成本获取数据,作为“受害者”的名门娱乐网的版权方自然就不乐意了。


尽管在aigc这个概念问世之前,名门娱乐网的版权方确实不知道内容还可以被用于训练ai,以至于openai等先行者实实在在享受了先发红利。可等到这一轮ai革命爆发,ai厂商的估值如同坐火箭般上涨,名门娱乐网的版权方就赫然发现,这一块蛋糕居然没有自己的份。

微软出手立规矩,ai公司不能白嫖数据

由于技术水平存在巨大差异,名门娱乐网的版权方面对ai爬虫时几乎无计可施,可偏偏ai革命又是各国聚焦的新兴赛道,指望通过监管大棒来遏制ai厂商偷窃数据的行为并不现实。所以当下摆在名门娱乐网的版权方面前的局面相当恶劣,因为从技术到监管都对他们不利。这时候微软站出来,说要建立一个ai厂商和名门娱乐网的版权方的交易市场,无疑就是雪中送炭了。


从某种意义上来说,微软试图建立的数据交易市场是一个堪比谷歌google ads生态的创举。当然,微软的这个想法虽然很好,但要建立一套能运行的ai语料交易机制也不容易,因为一般的数据和ai需要的语料并不完全等价。常规的数据往往指的是用户的地址、手机号、购物记录等标准化的信息,而语料则是文章、图片、视频、聊天记录。

微软出手立规矩,ai公司不能白嫖数据

比如同样一张1024x1024分辨率的图片,知名大拿和业界新丁的作品价码肯定不一样;同样一篇3000字左右的文章,出自《华尔街日报》和本地三流小报也不可同日而语。目前互联网行业对于内容的评价体系是基于流量打造,也就是用户越爱看的内容越值钱。


可同一套评价体系却无法直接嫁接到ai领域,毕竟人与人评价同一事物尚且会因文化、教育背景的区别导致差异,就更遑论ai了。这也是为什么在微软之前,全球知名内容分发网络(cdn)服务商cloudflare也宣称要为ai厂商和名门娱乐网的版权方建立一个交易平台,却至今还没有下文的原因。


其实付费不是问题,但如何付费才是关键,因为ai厂商也怕名门娱乐网的版权方狮子大开口。以至于,当下ai厂商购买内容授权时往往是单对单,一家一家地谈。例如从2023年开始,ai行业的领头羊openai就陆续与美联社、施普林格、新闻集团、卫报传媒集团等出版商达成合作,付费获取后者的新闻、图像、视频等数据。

微软出手立规矩,ai公司不能白嫖数据

微软的想法则是建立一个统一大市场,可内容质量的量化以及随之而来的定价却是难题。ai模型的训练确实高度依赖语料的质量,但当下ai模型的参数规模已经达到了万亿水平,到底其中的哪些内容贡献了效果,根本就没人能说得清。


简而言之,微软口中“知识产权质量获得报酬”模式其实存在大量的模糊地带。如果他们不能提出一条标准化的计量体系,ai语料的货币化系统,恐怕就不是短时间就能建立起来的。


【本文图片来自网络】

踩(0)

最新文章

相关文章

资讯app上看三易生活

大家都在看


网站地图