消息称 Reddit 正与 AI 巨头商讨数据付费事宜，若谈判破裂将屏蔽搜索引擎爬虫

消息称Reddit正与AI巨头商讨数据付费事宜，若谈判破裂将屏蔽搜索引擎爬虫据《华盛顿邮报》当地时间周五报道，社交问答网站Reddit已经与一系列生成式AI巨头会面，双方将商讨付费使用数据的事宜。但如果双方无法达成协议，谈判破裂的话，Reddit将考虑禁止谷歌、必应等搜索引擎的爬虫从平台内获取内容。这将迫使用户主动使用且需要登录Reddit，才能获取到自己想要的信息。稍晚之后，《华盛顿邮报》更正了这篇报道的部分细节：Reddit否认了上述报道中关于“用户需强制登录平台，才能查看内容”的说法，至于“封杀搜索引擎爬虫”，官方则并未否认。消息人士还称，“没有搜索，Reddit也能生存。”在Reddit考虑这样做之前，还有超过535家新闻机构采取了类似做法：装备了应对生成式AI的“拦截器”，包括《纽约时报》《华盛顿邮报》和路透社等。此举是为了防止其内容被收集并用于训练AI聊天机器人，比如OpenAI的ChatGPT。不过，美联社在7月宣布与OpenAI达成许可协议，OpenAI获得了将美联社的报道内容用于AI模型训练数据的许可。()投稿：@ZaiHuaBot频道：@TestFlightCN

在Telegram中查看

相关推荐

Reddit坚持数据收费或将封杀搜索引擎爬虫

Reddit坚持数据收费或将封杀搜索引擎爬虫这将迫使用户登录Reddit账号才能获取到自己想要的信息。也就是说，Reddit的内容将不会显示在谷歌和必应的搜索中。对此，《华盛顿邮报》随后的纠正报道，以及TheVerge的最新报道指出，Reddit否认了上述报道中关于“强制用户登录平台，才能查看内容”的说法，至于“封杀搜索引擎爬虫”，官方并未否认。消息人士还称，“没有搜索（网站），Reddit也能生存。”Reddit是美国人最常访问的新闻网站，用户可以在其中创建并分享内容，有“美国版百度贴吧”之称，目前Reddit拥有超过13万个活跃社区，根据该公司2020年底的数据，其拥有超过15亿注册用户，4.3亿月度活跃用户，以及5200万日活跃用户。训练AIGC工具需要海量数据，而Reddit积累了大量用户生成内容，均是AI优质训练数据，这家公司由此觅得商机。4月份，Reddit宣布，将向使用其API训练AI聊天机器人的公司收取数据使用费，其中便包含微软、谷歌、OpenAI等；6月份，其高于行业平均水平的收费标准被爆出——每5000万次API请求收取1.2万美元。如果说庞大的数据资产为Reddit提供了收费的可能性，其上市计划则提示了Reddit进行收费的必要性。此前知情人士说，Reddit的目标是在今年晚些时候最终上市——很可能是在下半年。Reddit和包括Instacart在内的其他公司正在更新他们的IPO文件，为市场状况好转时可能的IPO做好准备。多方施压AI巨头数据免费时代告结？当下，AIGC浪潮正席卷坐拥数据资产的公司，Reddit、X（前身为Twitter）等公司待价而沽。据了解，X的定价比Reddit更高，据WIRED此前报道，X提供的套餐中最便宜的为：每月支付4.2万美元可以访问5000万条推文。报纸出版商为代表的公司选择高筑城墙。《华盛顿邮报》报道称，自8月以来，至少535家新闻机构（包括《纽约时报》、路透社和《华盛顿邮报》）安装了拦截器，以防止其内容被OpenAI等公司抓取，用于训练ChatGPT等产品。其目的是相同的——希望在AIGC市场中分一杯羹。据Semafor7月报道，拥有TheDailyBeast的媒体集团IAC试图建立一个出版商联盟，旨在通过诉讼或立法行动从AI公司赢得数十亿美元。8月，NPR报道称《纽约时报》也在考虑对OpenAI提起诉讼。除了大公司的收费要求，大型AI公司还面临着来自个人的压力，大量作者、艺术家和软件程序员正向其提出版权诉讼，要求赔偿侵权损失并分享利润。据此前报道，前阿肯色州州长MikeHuckabee已作为原告加入了对Meta、微软和彭博社的集体诉讼，指控他们使用盗版书籍来训练AI。彭博称，到2032年，这一市场（数据收费市场）预计将达到1.3万亿美元。当然，收费背后，不仅仅是钱的问题，许多公司将数据使用视为一个关乎生存的问题，担心AI用自家数据学到了东西，转而挖走了自己的用户。如针对程序员的问答平台StackOverflow的首席执行官PrashanthChandrasekar表示，OpenAI推出GPT-4一个月后，随着程序员转向AI寻求编码问题的答案，编码社区StackOverflow的流量下降了15%，他认为人工智能已经接受了StackOverflow数据的训练。最新消息显示，StackOverflow已经裁员28%。目前，无论是传媒集团还是主流社交平台，仍然在与AI巨头“拉锯”，最终是否需要付费、如何收费，不同话语权的公司将得到不同的结果。...PC版：https://www.cnbeta.com.tw/articles/soft/1391683.htm手机版：https://m.cnbeta.com.tw/view/1391683.htm

消息称Reddit正与AI巨头商讨数据付费事宜，若谈判破裂将屏蔽搜索引擎爬虫#抽屉IT

Reddit 现已屏蔽除谷歌以外主要搜索引擎和人工智能机器人

Reddit现已屏蔽除谷歌以外主要搜索引擎和人工智能机器人Reddit正在加大对网络爬虫的打击力度。据404Media报道，过去几周，Reddit已开始阻止搜索引擎显示最新帖子和评论，除非搜索引擎付费。目前，谷歌是唯一一家使用“site:reddit.com”技巧在Reddit上搜索帖子时显示最新结果的主流搜索引擎。这排除了必应、DuckDuckGo和其他替代方案。这可能是因为谷歌达成了一项价值6000万美元的协议，允许该公司使用Reddit的内容训练其人工智能模型。Reddit发言人表示：“这与我们最近与谷歌的合作完全无关。我们一直在与多家搜索引擎进行讨论。未能与所有搜索引擎达成协议，因为有些搜索引擎无法或不愿意就其对Reddit内容的使用(包括用于人工智能)做出可执行的承诺。”——

Reddit与生成式AI巨头商讨付费使用数据的事宜，若谈判破裂，Reddit将考虑禁止搜索引擎爬虫获取内容。

慕课网 python分布式爬虫打造搜索引擎【完整版】

名称：慕课网python分布式爬虫打造搜索引擎【完整版】描述：慕课网python分布式爬虫打造搜索引擎【完整版】链接：https://www.aliyundrive.com/s/HmQYZDDf3Lu大小：103G标签：##慕课网_python分布式爬虫打造搜索引擎_完整版来自：雷锋频道：@shareAliyun群组：@aliyundriveShare投稿：@aliyun_share_bot

Twitter (X) 现在屏蔽 Bing 搜索引擎

Twitter(X)现在屏蔽Bing搜索引擎马斯克的Twitter(现在改名X)现在阻止必应搜索引擎，具体来说是阻止Bingbot爬取和访问Twitter[.]com平台上发布的内容。Twitter特别在其robots.txt文件中添加了一项指令，以禁止Bingbot爬取其平台上的内容。事实上，现在在Bing搜索引擎上使用“”命令仅显示104,000个TwitterURL。但对于Google搜索引擎，使用该命令会显示4.22亿个URL。早在7月份，Twitter就曾封锁过Google，导致Twitter在Google搜索中的可见度大幅下降。几天后，Twitter撤销了这一更改。——

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人