OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型

OpenAI和谷歌利用了YouTube视频转录来训练其人工智能模型就在几天前，YouTube首席执行官尼尔-莫汉（NealMohan）在接受彭博社采访时表示，OpenAI据称使用YouTube视频来训练其新的文本到视频生成器Sora将违反该平台的政策。据《纽约时报》报道，OpenAI使用其Whisper语音识别工具转录了超过100万小时的YouTube视频，然后用于训练GPT-4。TheInformation此前曾报道，OpenAI曾使用YouTube视频和播客来训练这两个人工智能系统。据报道，OpenAI总裁格雷格-布罗克曼（GregBrockman）也是这个团队的成员之一。Google发言人马特-布莱恩特（MattBryant）告诉《纽约时报》，根据Google的规定，"未经授权采集或下载YouTube内容"是不被允许的，同时他还表示，公司并不知道OpenAI使用过此类内容。不过，该报道称，Google有人知道但没有对OpenAI采取行动，因为Google自己也正在使用YouTube视频训练自己的人工智能模型。但Google告诉《纽约时报》，它只使用同意参加实验项目的创作者的视频。《纽约时报》的报道还称，Google在2022年6月调整了其隐私政策，以更广泛地涵盖使用公开内容（包括Google文档和Google工作表）来训练其人工智能模型和产品。布赖恩特告诉《纽约时报》，只有在选择使用Google实验功能的用户允许的情况下，Google才会这样做，而且该公司"并没有根据这一语言变化开始对其他类型的数据进行训练"。相关文章:YouTubeCEO表示OpenAI用其视频训练Sora将违反平台服务条款...PC版：https://www.cnbeta.com.tw/articles/soft/1426406.htm手机版：https://m.cnbeta.com.tw/view/1426406.htm

在Telegram中查看

相关推荐

苹果、英伟达等公司未经许可使用 YouTube 字幕文件来训练人工智能模型

苹果、英伟达等公司未经许可使用YouTube字幕文件来训练人工智能模型调查显示，一些全球最大的科技公司未经许可在包含超过17.3万个YouTube视频字幕文件的数据集上训练了他们的人工智能模型。该数据集由名为EleutherAI的非营利公司创建，包含来自4.8万多个频道的YouTube视频字幕文件，并被苹果、英伟达和Anthropic等公司使用。影响到的创作者包括MarquesBrownlee和MrBeast，以及纽约时报、BBC和ABCNews等大型新闻出版商。谷歌发言人表示，YouTube首席执行官尼尔·莫汉之前的评论仍然有效，即使用YouTube数据训练人工智能模型的公司将违反该平台的条款和服务。——

纽约时报禁止使用其内容来训练人工智能模型

纽约时报禁止使用其内容来训练人工智能模型《纽约时报》已采取先发制人的措施，阻止其内容被用于训练人工智能模型。据Adweek报道，《纽约时报》于8月3日更新了服务条款，禁止将其内容（包括文字、照片、图像、音频/视频剪辑、“外观和感觉”、元数据或汇编）用于开发“任何软件程序，包括但不限于训练机器学习或人工智能（AI）系统。”更新后的条款还规定，未经出版物的书面许可，不得使用旨在使用、访问或收集此类内容的网站爬虫等自动化工具。《纽约时报》表示，拒绝遵守这些新限制可能会导致未具体说明的罚款或处罚。尽管在其政策中引入了新规则，但该出版物似乎并未对其robots.txt进行任何修改，该文件用于告知搜索引擎爬虫哪些URL可以访问。——

谷歌利用 YouTube 开发其下一代人工智能

谷歌利用YouTube开发其下一代人工智能据透露，谷歌的研究人员一直在利用YouTube开发其下一个大型语言模型“双子座Gemini”，该模型展示了在其他任何模型中都看不到的多模态能力。而OpenAI也已经秘密地使用了YouTube的数据来训练其一些人工智能模型，但谷歌能够拥有YouTube更全面的视频数据。人工智能开发者在寻找用于训练和改进模型的高质量数据方面面临着新的障碍。从Reddit到StackExchange再到DeviantArt的主要网站出版商正越来越多地阻止开发者为该目的下载数据。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

OpenAI 转录了超过100万小时的 YouTube 视频来训练 GPT-4

OpenAI转录了超过100万小时的YouTube视频来训练GPT-4据《纽约时报》报道，OpenAI公司迫切需要大量训练数据，为此开发了Whisper音频转录模型来克服困难，转录了超过100万小时的YouTube视频来训练其最先进的大型语言模型GPT-4。该公司知道这在法律上存在问题，但相信这是合理使用。OpenAI总裁格雷格·布罗克曼亲自参与了所使用视频的收集。OpenAI发言人表示，该公司为其每个模型策划了“独特”的数据集，以“帮助他们了解世界”并保持其全球研究竞争力。并补充说，该公司使用“众多来源，包括公开数据和非公开数据的合作伙伴”，并且正在考虑生成自己的合成数据。据报道，该公司在2021年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录YouTube视频、播客和有声读物。——、

据美国媒体近日报道，美国开放人工智能研究中心 (OpenAI) 首席技术官米拉・穆拉蒂近日在接受采访时，被问及 OpenAI 使

据美国媒体近日报道，美国开放人工智能研究中心(OpenAI)首席技术官米拉・穆拉蒂近日在接受采访时，被问及OpenAI使用了什么数据来训练其视频生成模型Sora，以及是否使用了来自多个社交媒体平台的数据。穆拉蒂表示，她并不确定OpenAI是否使用了社交媒体平台的数据。她强调OpenAI使用的是“公开可用的数据或得到许可的数据”，但她拒绝介绍更多细节。去年12月，美国《纽约时报》指控OpenAI及其投资方微软公司未经授权使用《纽约时报》文章训练ChatGPT等聊天机器人。有媒体报道称，还有多家版权所有方也对一些研发人工智能的企业提起诉讼，控告这些企业在人工智能训练中滥用版权作品。围绕人工智能训练是否符合版权法所规定的“合理使用”这一关键问题，美国相关法院尚未作出裁决。（央视新闻）

OpenAI 表示已开始训练新的旗舰人工智能模型

OpenAI表示已开始训练新的旗舰人工智能模型OpenAI周二表示，它已开始训练一种新的旗舰人工智能模型，该模型将取代驱动其流行在线聊天机器人ChatGPT的GPT-4技术。OpenAI在一篇博客文章中表示，希望新模型能够带来“更高水平的能力”，因为该公司致力于打造“通用人工智能”，即能够做任何人类大脑能做的事情的机器。新模型将成为人工智能产品的引擎，包括聊天机器人、类似于苹果Siri的数字助理、搜索引擎和图像生成器。——，

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人