GPT-5不远了！OpenAI推出网络爬虫GPTBot，自动抓取数据，可选择性关闭

推荐平台	链接	平台介绍
币安网	注册链接	币安是全球领先的区块链生态系统，推出了一系列产品，其中包括最大的加密货币交易平台。我们的使命是在未来成为全球性加密货币基础架构供应商。
欧易OKX	注册链接	欧易是全球著名的数字资产交易平台之一，主要面向全球用户提供比特币、莱特币、以太币等数字资产的币币和衍生品交易服务。
HTX火币	注册链接	火币全球专业站，是火币集团旗下服务于全球专业交易用户的创新数字资产国际站，致力于发现优质的创新数字资产投资机会。

编辑：桃子好困

来源：新智元

导读： 就在刚刚，OpenAI推出了GPTBot——一个可以自动从整个互联网抓取数据的网络爬虫。得到的这些数据则会被用来训练像GPT-4和GPT-5这样的AI模型！

前段时间，抓取平台用户数据风波，Reddit网友吵翻了天。

今天，OpenAI推出了一个网络爬虫工具GPTBot，能够自动抓取网站的数据。

GPT-5不远了！OpenAI推出网络爬虫GPTBot，自动抓取数据，可选择性关闭

如何使用？

OpenAI在发布的文档中表示，网络爬虫将过滤删除需要付费强访问的来源，同时也会删除个人身份信息（PII）或违反其政策的文本。

GPTBot抓取的数据，被用来训练GPT-4或GPT-5，能够提升未来人工智能系统的准确性和能力。

可通过以下代码识别该工具：

User agent token: GPTBotFull user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

禁止GPTBot访问

另一方面，你也可以通过将GPTBot添加到站点robots. txt，来禁止其访问网站。

这意味着，网站所有者必须自愿采取措施，禁止OpenAI对自己的网站访问，不将自己的数据用来训练。

User-agent: GPTBotDisallow: /

自定义GPTBot访问

你还可以通过以下代码，来控制GPTBot对网站部分内容的访问。

User-agent: GPTBotAllow: /directory-1/Disallow: /directory-2/

IP出口

对于OpenAI的爬虫，将从OpenAI网站上记录的IP地址块调用网站。

GPT-5不远了！OpenAI推出网络爬虫GPTBot，自动抓取数据，可选择性关闭

网友热议

OpenAI此举引发了网友对用于训练AI模型的网络爬虫的道德问题的讨论。

「OpenAI甚至没有适度引用。它是在制作衍生作品，却没有引用，从而掩盖了它的事实。」

GPT-5不远了！OpenAI推出网络爬虫GPTBot，自动抓取数据，可选择性关闭

网友表示，终于有机会阻止OpenAI抓取你的网络数据，来训练模型。

GPT-5不远了！OpenAI推出网络爬虫GPTBot，自动抓取数据，可选择性关闭

还有人表示，ChatGPT浏览器插件已被移除一段时间，部分原因是它可以访问付费墙后面的内容。

GPT-5不远了！OpenAI推出网络爬虫GPTBot，自动抓取数据，可选择性关闭

前段时间，OpenAI于7月18日向美国专利局提交了GPT-5的商标申请，暗示着公司正在训练更高级的AI系统。

GPT-5不远了！OpenAI推出网络爬虫GPTBot，自动抓取数据，可选择性关闭

GPTBot显然将帮助该OpenAI从互联网上收集更多数据来训练这个模型。

参考资料：

https://platform.openai.com/docs/gptbot

推荐平台	链接	平台介绍
Gate芝麻开门	平台介绍	Gate.io芝麻开门创立于2013年，是全球真实交易量TOP10的加密货币交易平台，向全球数千万用户提供安全可靠、真实透明的数字资产交易服务。
Bitget	注册链接	Bitget的背后是一群区块链技术的早期接受者，也是区块链未来发展的信仰者，一直致力于提供安全、一站式的交易解决方案，帮助用户更聪明地交易。
Bybit	注册链接	Bybit通过数字资产与传统金融的结合，引领数字资产的生态发展。提供一流的流动性，致力于打造业内最安全、公平、高效及人性化的交易服务平台。
派网	注册链接	派网提供多样化的量化交易机器人，用户可依照自身交易需求和策略选择最适合的机器人。同时派网也提供合约交易与合约网格机器人，给予更方便的合约交易体验。