苹果、英伟达等公司未经许可使用 YouTube 字幕文件来训练人工智能模型

苹果、英伟达等公司未经许可使用YouTube字幕文件来训练人工智能模型调查显示，一些全球最大的科技公司未经许可在包含超过17.3万个YouTube视频字幕文件的数据集上训练了他们的人工智能模型。该数据集由名为EleutherAI的非营利公司创建，包含来自4.8万多个频道的YouTube视频字幕文件，并被苹果、英伟达和Anthropic等公司使用。影响到的创作者包括MarquesBrownlee和MrBeast，以及纽约时报、BBC和ABCNews等大型新闻出版商。谷歌发言人表示，YouTube首席执行官尼尔·莫汉之前的评论仍然有效，即使用YouTube数据训练人工智能模型的公司将违反该平台的条款和服务。——

在Telegram中查看

相关推荐

苹果公司寻求Photobucket数十亿张图片的授权以训练人工智能模型

苹果公司寻求Photobucket数十亿张图片的授权以训练人工智能模型生成式人工智能的兴起刺激了对多样化数据集的需求，而像Photobucket这样的公司能够提供大量的视觉数据，训练人工智能根据文本提示生成内容。在ChatGPT于2022年底推出后不久，苹果公司就与Shutterstock达成了数百万张图片的授权协议，据信这笔交易的价值在2500万美元到5000万美元之间。追求"道德来源"和合法明确的数据，标志着苹果与早先随意采集网络数据的做法不同。据报道，苹果公司准备在6月份的WWDC大会上展示iOS18及其他主要软件更新所带来的一系列人工智能功能。相关文章:Shutterstock授权苹果公司使用数百万张图片来训练其人工智能模型...PC版：https://www.cnbeta.com.tw/articles/soft/1426645.htm手机版：https://m.cnbeta.com.tw/view/1426645.htm

英国制定规则提高人工智能模型训练透明度

英国制定规则提高人工智能模型训练透明度据英国金融时报，英国部长们正在制定计划，以提高科技公司训练人工智能模型的透明度。此前，创意产业对未经许可或付费的作品被复制和使用表示担忧。英国文化大臣弗雷泽表示，政府将首次尝试针对人工智能团体使用电视节目、书籍和音乐等材料制定规则。弗雷泽称，部长们最初将把重点放在确保人工智能开发人员使用哪些内容来训练他们的模型上，以提高透明度，这实际上将使该行业能够看到其生产的成果是否被剽窃。

纽约时报禁止使用其内容来训练人工智能模型

纽约时报禁止使用其内容来训练人工智能模型《纽约时报》已采取先发制人的措施，阻止其内容被用于训练人工智能模型。据Adweek报道，《纽约时报》于8月3日更新了服务条款，禁止将其内容（包括文字、照片、图像、音频/视频剪辑、“外观和感觉”、元数据或汇编）用于开发“任何软件程序，包括但不限于训练机器学习或人工智能（AI）系统。”更新后的条款还规定，未经出版物的书面许可，不得使用旨在使用、访问或收集此类内容的网站爬虫等自动化工具。《纽约时报》表示，拒绝遵守这些新限制可能会导致未具体说明的罚款或处罚。尽管在其政策中引入了新规则，但该出版物似乎并未对其robots.txt进行任何修改，该文件用于告知搜索引擎爬虫哪些URL可以访问。——

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃

人工智能对人工智能生成的内容进行训练将导致人工智能崩溃用于训练大型语言模型的数据最初来自人类来源，如书籍、文章、照片等，这些都是在没有人工智能的帮助下创建的。但随着越来越多的人使用人工智能来制作和发布内容，一个明显的问题出现了：当人工智能生成的内容在互联网上扩散时，人工智能模型开始对其进行训练。研究人员发现，“在训练中使用模型生成的内容会导致所产生的模型出现不可逆转的缺陷。”他们研究了文本到文本和图像到图像的人工智能生成模型的概率分布，得出结论：“从其他模型产生的数据中学习会导致模型崩溃——这是一个退化的过程，并且随着时间的推移，模型会忘记真正的基础数据分布。”他们观察到模型崩溃发生得如此之快：模型可以迅速忘记它们最初学习的大部分原始数据。这导致它们随着时间的推移，表现越来越差，错误越来越多。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型就在几天前，YouTube首席执行官尼尔-莫汉（NealMohan）在接受彭博社采访时表示，OpenAI据称使用YouTube视频来训练其新的文本到视频生成器Sora将违反该平台的政策。据《纽约时报》报道，OpenAI使用其Whisper语音识别工具转录了超过100万小时的YouTube视频，然后用于训练GPT-4。TheInformation此前曾报道，OpenAI曾使用YouTube视频和播客来训练这两个人工智能系统。据报道，OpenAI总裁格雷格-布罗克曼（GregBrockman）也是这个团队的成员之一。Google发言人马特-布莱恩特（MattBryant）告诉《纽约时报》，根据Google的规定，"未经授权采集或下载YouTube内容"是不被允许的，同时他还表示，公司并不知道OpenAI使用过此类内容。不过，该报道称，Google有人知道但没有对OpenAI采取行动，因为Google自己也正在使用YouTube视频训练自己的人工智能模型。但Google告诉《纽约时报》，它只使用同意参加实验项目的创作者的视频。《纽约时报》的报道还称，Google在2022年6月调整了其隐私政策，以更广泛地涵盖使用公开内容（包括Google文档和Google工作表）来训练其人工智能模型和产品。布赖恩特告诉《纽约时报》，只有在选择使用Google实验功能的用户允许的情况下，Google才会这样做，而且该公司"并没有根据这一语言变化开始对其他类型的数据进行训练"。相关文章:YouTubeCEO表示OpenAI用其视频训练Sora将违反平台服务条款...PC版：https://www.cnbeta.com.tw/articles/soft/1426406.htm手机版：https://m.cnbeta.com.tw/view/1426406.htm

国内首家人工智能数据训练基地投用大模型训练 “一站式” 提供

国内首家人工智能数据训练基地投用大模型训练“一站式”提供3月29日，2024北京AI原生产业创新大会暨北京数据基础制度先行区成果发布会在北京经开区举办，人工智能公共算力平台3000P智能算力投入使用，北京人工智能数据训练基地启用，这也是国内首家投入运营的人工智能数据训练基地。北京亦庄人工智能公共算力平台是北京最大规模的高性能人工智能计算集群，可以帮助企业推动开展大模型训练，推广行业应用。（新京报）

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人