Eine böse blickender Roboter

So verhindern Sie, dass der GPTBot Ihre NeosCMS-Website crawlen kann

OpenAI hat kürzlich eine Dokumentation darüber veröffentlicht, wie Sie Ihre Website anpassen können, um zu verhindern, dass der so genannte GPTBot Ihre Inhalte analysiert und wiederverwendet. Neil Clarke schrieb auch einen Artikel über das Blocken allerlei Bots.

Nehmen wir an, dass dies wahr ist und tatsächlich einen Effekt hat. Hier ist ein Beispiel, wie Sie die Ausgabe der robots.txt-Datei in Neos CMS mit minimalem Aufwand anpassen können:

prototype(Neos.Seo:RobotsTxt) {
  data {
	disallowBots = Neos.Fusion:Join {
	  GPTBot = 'User-agent: GPTBot'
	  GPTBotPath = 'Disallow: /'

	  OAISearchBot = 'User-agent: OAI-SearchBot'
	  OAISearchBotPath = 'Disallow: /'

	  ChatGPTUser = 'User-agent: ChatGPT-User'
	  ChatGPTUserPath = 'Disallow: /'

	  ClaudeBot = 'User-agent: ClaudeBot'
	  ClaudeBotPath = 'Disallow: /'

	  AnthropicAI = 'User-agent: anthropic-ai'
	  AnthropicAIPath = 'Disallow: /'

	  ClaudeWeb = 'User-agent: Claude-Web'
	  ClaudeWebPath = 'Disallow: /'

	  GoogleExtended = 'User-agent: Google-Extended'
	  GoogleExtendedPath = 'Disallow: /'

	  CCBot = 'User-agent: CCBot'
	  CCBotPath = 'Disallow: /'

	  PerplexityBot = 'User-agent: PerplexityBot'
	  PerplexityBotPath = 'Disallow: /'

	  FacebookBot = 'User-agent: FacebookBot'
	  FacebookBotPath = 'Disallow: /'

	  MetaExternalAgent = 'User-agent: Meta-ExternalAgent'
	  MetaExternalAgentPath = 'Disallow: /'

	  MetaExternalFetcher = 'User-agent: Meta-ExternalFetcher'
	  MetaExternalFetcherPath = 'Disallow: /'

	  OmgiliBot = 'User-agent: OmgiliBot'
	  OmgiliBotPath = 'Disallow: /'

	  CohereAI = 'User-agent: cohere-ai'
	  CohereAIPath = 'Disallow: /'

	  @glue = "\n"
	  @position = 'after disallowNeos'
	}
  }
}

Fügen Sie diesen Fusion-Code z. B. in eine neue Datei `Override.RobotsTxt.fusion` irgendwo im Fusion-Ordner Ihrer Website-Pakete ein.

Testen Sie die Änderung, indem Sie die robots.txt unter "your.domain/robots.txt" öffnen und sehen, ob sie wie erwartet funktioniert.

Das Neos.Seo-Paket muss natürlich installiert sein, damit dies funktioniert, und Sie sollten keine aktuelle robots.txt-Datei in Ihrem Webordner Ihrer Neos-Installation haben.

Auf diese Weise können Sie natürlich auch andere Anpassungen vornehmen und anderen Robotern, die Ihre Website besuchen, mehr Informationen zur Verfügung stellen.