English
Eine böse blickender Roboter

So verhindern Sie, dass der GPTBot Ihre NeosCMS-Website crawlen kann

OpenAI hat kürzlich eine Dokumentation darüber veröffentlicht, wie Sie Ihre Website anpassen können, um zu verhindern, dass der so genannte GPTBot Ihre Inhalte analysiert und wiederverwendet.

Nehmen wir an, dass dies wahr ist und tatsächlich einen Effekt hat. Hier ist ein Beispiel, wie Sie die Ausgabe der robots.txt-Datei in Neos CMS mit minimalem Aufwand anpassen können:

prototype(Neos.Seo:RobotsTxt) {
    data {
        # Disallow GPTBot (https://platform.openai.com/docs/gptbot)
        disallowGPTBot = 'User-agent: GPTBot'
        disallowGPTBot.@position = 'after disallowNeos'
        disallowGPTBotPath = 'Disallow: /'
        disallowGPTBotPath.@position = 'after disallowGPTBot'
    }
}

Fügen Sie diesen Fusion-Code z. B. in eine neue Datei `Override.RobotsTxt.fusion` irgendwo im Fusion-Ordner Ihrer Website-Pakete ein.

Testen Sie die Änderung, indem Sie die robots.txt unter "your.domain/robots.txt" öffnen und sehen, ob sie wie erwartet funktioniert.

Das Neos.Seo-Paket muss natürlich installiert sein, damit dies funktioniert, und Sie sollten keine aktuelle robots.txt-Datei in Ihrem Webordner Ihrer Neos-Installation haben.

Auf diese Weise können Sie natürlich auch andere Anpassungen vornehmen und anderen Robotern, die Ihre Website besuchen, mehr Informationen zur Verfügung stellen.

Hinweis: Ich erlaube den GPTBot auf meiner Website, da ich es derzeit vorziehe, dass meine Beispiele und Anleitungen anderen Menschen in irgendeiner Weise helfen. Je nachdem, was diese ML-Firmen tun, könnte ich meine Meinung irgendwann ändern, aber andererseits traue ich ihnen auch nicht zu, dass sie tatsächlich respektieren, was ich in der robots.txt konfiguriere.