多家AI 公司绕过网络标准抓取出版商网站内容

多家AI公司绕过网络标准抓取出版商网站内容据TollBit公司透露，多家AI公司正在绕过"robots.txt"协议，抓取网页内容用于生成AI系统。AI公司Perplexity被指未经许可使用福布斯Forbes的内容。具TollBit透露，这不是个例，多家AI公司也在这里做。这种行为可能对新闻行业造成经济损失，因为新闻出版者无法从中获利。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

在Telegram中查看

相关推荐

谷歌向300多家欧盟出版商支付新闻费用

谷歌向300多家欧盟出版商支付新闻费用布鲁塞尔，5月11日（路透社）--Alphabet（GOOGL.O）旗下的谷歌公司告诉路透社，该公司已经签署了向德国、法国和其他四个欧盟国家的300多家出版商支付新闻费用的协议，并将推出一个工具，使其他人也能更容易签约。三年前，欧盟通过了具有里程碑意义的版权规则，要求谷歌和其他网络平台向使用其作品的音乐家、表演者、作者、新闻出版商和记者支付报酬，此举将于周三晚些时候公开宣布。新闻出版商是谷歌最激烈的批评者之一，他们长期以来一直敦促政府确保网络平台为其内容支付公平的报酬。澳大利亚去年强制要求支付这种费用，而加拿大上个月也出台了类似的法律。"到目前为止，我们的协议涵盖了德国、匈牙利、法国、奥地利、荷兰和爱尔兰的300多个国家、地方和专业新闻出版物，还有更多的讨论正在进行中，"新闻和出版合作总监SulinaConnal在路透社看到的博文中说，预计将在星期三晚些时候公布。该博客没有说出版商获得了多少报酬。这批出版商中有三分之二是德国出版商，包括《明镜周刊》、《时代》和《法兰克福汇报》。——路透社

小红书禁止所有搜索引擎抓取其内容只能通过站内手动

小红书禁止所有搜索引擎抓取其内容只能通过站内手动搜索目前并不清楚小红书为什么禁止搜索引擎抓取内容，从SEO角度来说，允许搜索引擎抓取有助于给小红书带来更多流量，毕竟现在百度都索引了7亿多个网页。而且小红书是去年4月修改的，所以估计也不是因为防止被抓取内容训练AI吧？但小红书目前的内容库拿去训练AI确实很有价值，毕竟巨量文字和图片内容。不过robots.txt文件只是君子协定，属于防君子不妨小人的那种，除了会导致用户无法从搜索引擎直接查询小红书内容外，其实帮助也不大，毕竟其他非搜索引擎的爬虫也会继续抓取内容，小红书肯定也做了反爬措施了。现在国内的网站禁止搜索引擎抓取已经是个很常见的事情，或者专门预留一些层级目录供搜索引擎抓取想要获得一些流量，更有甚者甚至别说搜索引擎了，就连正常的用户访问也会被拦截，必须注册账号登录后才能继续访问，这显然不是一个好事情。附小红书2023年4月2日的robots.txt信息：下面是小红书最新的robots.txt信息：...PC版：https://www.cnbeta.com.tw/articles/soft/1425509.htm手机版：https://m.cnbeta.com.tw/view/1425509.htm

网络出版商担忧谷歌AI搜索会白嫖内容损害网站流量收益

网络出版商担忧谷歌AI搜索会白嫖内容损害网站流量收益谷歌将向一些用户展示人工智能生成的文本段落，并在搜索结果页面优先显示数个相关链接，而不是谷歌搜索结果通常显示的“十个蓝色链接”。基于人工智能的新谷歌搜索正在特定用户中进行测试，目前还没有广泛使用。但不少网络出版商已经开始担心，如果这成为谷歌默认的搜索结果显示方式，会把更多用户留在谷歌网站上，从而可能会给他们网站带来更少的访问量，影响到网络出版商的收益。这一争议也凸显出谷歌与其索引网站之间长期存在的紧张关系，人工智能新工具的出现无疑加剧了这种态势。长期以来，网络出版商一直担心谷歌会在自家网站上重新组合他们网站上的内容片段，但现在谷歌显然在使用先进的机器学习模型来“训练”人工智能，从而生成类似文本和响应结果。专注于游戏新闻和评论内容的网站TechRaptor首席执行官拉特利奇·道格特(RutledgeDaugette)表示，谷歌的举动根本没有考虑网络出版商的利益，谷歌的人工智能搜索相当于剽窃网站内容。“他们的重点是零点击搜索，使用的是网络出版商和作家花时间和精力创作出的高质量内容；不同于用户可能点击网站，这没有给网络出版商和作家提供任何好处。”道格特表示，“到目前为止，人工智能一直在迅速重复使用他人信息，没有给内容所有者带来任何好处，具体到谷歌这种情况，聊天机器人Bard甚至不会提供所使用的信息来源。”长期以来，Yelp公共政策主管路德·洛威(LutherLowe)一直对谷歌的搜索政策持批评态度。他说，谷歌搜索的更新是其长达数十年战略的组成部分，目的是让用户在谷歌网站上停留更长时间，而不是把他们引到最初提供信息的网站。洛威在接受采访时表示：“谷歌将ChatGPT克隆版引入搜索领域所产生的排他性，是给整个网络放血的终章。”据密切追踪谷歌搜索引擎变化的新闻网站“搜索引擎天地”(SearchEngineLand)透露，到目前为止，人工智能生成内容在测试中都会显示在自然搜索结果（与搜索相关且有价值的免费列表链接）之上。此前曾有报道称，谷歌计划重新设计搜索结果页面，为的是推广人工智能生成的内容。根据对生成式搜索体验的测试，人工智能生成内容会优先显示在谷歌搜索结果页面顶部的绿色方框中，右边有三个方框显示相关网站链接。在关于谷歌搜索结果的第一个例子中，来自三个网站的信息标题都没有显示全。谷歌说，这些信息不是从网站上抓取的，只是用来证实链接。SearchEngineLand表示，与谷歌的Bard聊天机器人相比，生成式搜索体验是一种改进，也是一种“更健康”的链接方式，毕竟Bard很少直接链接到网络出版商的网站。一些网络出版商想知道他们是否能阻止谷歌等人工智能公司抓取他们网站上的内容来训练人工智能模型。诸如StableDiffusion等人工智能公司已经面临来自数据所有者的诉讼，但如何界定人工智能抓取网络数据的行为还没有一个清晰论断。Reddit等其他公司开始宣布计划，对访问其数据的行为收费。IAC旗下有AllRecipe、PeopleMagazine和DailyBeast等多个网站。公司董事长巴里·迪勒(BarryDiller)是出版界的领军人物。他在上个月的一次会议上说：“如果世界上所有的信息都能被吸进这个大锅里，然后在所谓的聊天功能中重新包装成陈述性的语句，你想要多少就有多少，那就不会有出版业了，因为这是不可能的。”迪勒继续说道：“你所要做的就是让整个行业认可，除非能想出一个让网络出版商获得付费渠道的系统，否则就不能盗取我们的内容。”他说谷歌将面临这个问题。迪勒表示，他认为网络出版商可以根据版权法起诉人工智能公司，目前需要重新定义“合理使用”的限制范畴。周三有报道称，以迪勒为首的一众网络出版商高管表示，“如果有必要，我们将修改版权法。”网络出版商面临的主要挑战是如何确定他们网站上的内容正在被人工智能使用。谷歌并没有透露生成式搜索体验背后大型语言模型PaLM2的训练来源。道格特说，虽然自己在聊天机器人Bard上看到来自其他网站的内容被改写但没有注明归属的例子，但如果没有直接链接来源，很难判断信息是不是来自特定网站。谷歌没有发表相关评论。“PaLM2是基于互联网上大量公开可用数据进行训练的，我们显然重视网络生态系统的健康。”谷歌研究副总裁佐宾·加赫拉马尼（ZoubinGhahramani）在本周早些时候的媒体通气会上表示，“确保健康生态系统的确是我们思考如何开发产品的组成部分，创作者也是这个繁荣发展生态系统的一部分。”道格特表示，谷歌的举动将让独立网络出版商处境艰难。道格特说：“我认为，当很多同事被解雇时，我们不得不担心自己的辛勤工作被剽窃，这对我们行业来说真的很令人沮丧。”“这是不对的。”...PC版：https://www.cnbeta.com.tw/articles/soft/1359237.htm手机版：https://m.cnbeta.com.tw/view/1359237.htm

OpenAI 和 Anthropic 无视了防止机器人抓取在线内容的既定规则

OpenAI和Anthropic无视了防止机器人抓取在线内容的既定规则据《商业内幕》获悉，世界上最大的两家人工智能公司无视媒体出版商要求其停止免费抓取其网络内容用于模型训练的请求。据了解TollBit调查情况的人士以及另一位知情人士称，OpenAI和Anthropic要么无视或规避了名为robots.txt的既定网络规则，该规则阻止自动抓取网站内容。TollBit是一家致力于在出版商和人工智能公司之间促成付费许可交易的初创公司，该公司发现有多家人工智能公司存在这种行为，并在周五的信函中通知了某些大型出版商，信函中没有透露被指责规避规则的人工智能公司名字——

CloudFlare为所有用户推出AI爬虫防护功能，一键拦截未经授权的AI爬虫抓取网站数据

CloudFlare为所有用户推出AI爬虫防护功能，一键拦截未经授权的AI爬虫抓取网站数据CloudFlare最近推出了一项新的AI爬虫防护功能，允许用户一键开启自动拦截AI爬虫，防止网站数据被用于AI模型训练。这项服务对免费和订阅用户均开放，旨在避免未经授权的内容抓取。尽管CloudFlare的具体运作原理尚未公开，但预计其可能通过识别并拦截常见的AI爬虫名称来实现防护。此外，对于不遵守robots.txt协议的爬虫，CloudFlare建议使用额外措施，如封禁高频UA或开启真人验证功能，以增强防护效果。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

Google呼吁更新"robots.txt"以适应新兴AI场景

Google呼吁更新"robots.txt"以适应新兴AI场景Google副总裁在博客中表示，随着新技术的出现，网络社区有必要发展支持网络未来发展的标准和协议。Robots.txt，一个于近30年前由社区主导的创建的网络标准，已被证明是网络出版商控制搜索引擎抓取其内容的一种简单透明的方式。（Robots.txt是一个文本文件，用于控制搜索引擎爬虫在网站上的抓取行为。其本身是非强制性的，不具备法律效应。）他们认为现在应当为网络和人工智能社区探索其他机器可读方法，以便网络发布者选择和控制新兴人工智能和研究用例，并将为此启动。消息来源：投稿：@ZaiHuaBot频道：@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人