Jump to content
Règlement du forum ×

Empecher ChapGTP de siphonner votre site à votre insu.


Recommended Posts

Les performances de ChatGPT ne pouvaient être atteintes sans  une quantité astronomique de ressources obtenues des  diverses pages web en tout genre… dont fait potentiellement partie votre propre site web.. Sachez qu'il existe des solutions pour se prémunir de l'exploitation de vos textes par OpenAI.
Pour assurer son bon fonctionnement, la société qui l'a développé, OpenAI, a eu recours à une gigantesque base de données de contenus publiés et disponibles en ligne.
Pour alimenter les connaissances de ChatGPT, la firme a utilisé des livres, Wikipédia, des sites de presse, des publications Reddit,des forums de discussion,des blogs,....
Mais OpenAI ne  demande jamais l'autorisation d'exploiter votre contenu pour améliorer ses modèles de langage, et donc, ChatGPT.
L'entreprise ne vous rémunère pas non plus pour votre participation à l'évolution des capacités de son produit.
Vous pouvez avoir plusieurs raisons de souhaiter que le contenu de votre site ne soit pas siphonné par ChatGPT à ses fins d'entraînement, qu'elles soient d'ordre pratique et moral ou simplement éviter de surcharger votre site de requêtes par l'intelligence artificielle…

Voici comment empêcher ChatGPT d'exploiter le contenu de votre site web à votre insu:
 

Révélation

Voilà pourquoi nous vous présentons quelques astuces qui devraient vous permettre de bloquer l'accès aux contenus de votre site à ChatGPT.
1. Bloquer Common Crawl sur tout votre site grâce au fichier robots.txt
L'une des méthodes utilisées par OpenAI pour alimenter ses modèles de langage est Common Crawl. Il s'agit d'une organisation à but non lucratif qui a mis au point un robot baptisé CCBot.
Son but est d'explorer et d'analyser le Web pour fournir gratuitement des archives et des ensembles de données de contenus publiés sur Internet.
CCBot a recours au protocole robots.txt pour effectuer ses opérations de ce que l'on appelle « crawling » en anglais.
Ce fichier se trouve à la racine de votre site web, et son rôle est d'indiquer aux robots d'exploration les URL auxquelles il a le droit d'accéder sur votre domaine.
Pour bloquer CCBot, auquel a recours ChatGPT, sur l'ensemble de votre site web, ajoutez les instructions suivantes à votre fichier robots.txt :
User-agent: CCBot
Disallow: /


2. Utiliser une balise nofollow dans les métadonnées de son site web
Toujours pour limiter l'accès à vos contenus par CCBot, vous disposez de la possibilité d'ajouter une balise nofollow au sein des métadonnées de votre code HTML, qui sert à structurer et mettre en page votre site web.
Celle-ci va faire savoir aux robots que vous ne désirez pas que le contenu de votre site soit indexé. La balise en question est celle-ci :
<meta name="CCBot" content="nofollow">

3. Recourir à des captchas contre les robots
Les captchas sont une technique de sécurité très populaire sur Internet, et leur but principal est d'éviter la surcharge des sites web causée par des robots en leur imposant un test qu'ils ne sont pas censés réussir.
Cette solution n'est à recommander que si vous craignez également que des robots malveillants s'en prennent à votre site, notamment dans le cadre d'attaques par déni de service (DDoS).
En effet, ces captchas seront aussi imposés à vos visiteurs humains, ce qui peut détériorer leur expérience sur votre site web. Privilégiez donc les deux autres solutions que nous décrivons plus haut.

Ces quelques méthodes devraient suffire à empêcher dorénavant ChatGPT (et toutes les plateformes ayant recours aux bases de données constituées par les robots d'exploration) d'utiliser votre site web et les contenus qu'il héberge comme terrain de jeu.
Mais vous n'êtes bien sûr pas à l'abri que le chatbot ait déjà eu accès à vos ressources dans le passé.
Gardez aussi à l'esprit qu'il peut dans certains cas être intéressant de laisser les robots scanner son site, tous ne vous veulent pas du mal.

 

Edited by laliche
Link to comment
Share on other sites

jessaye de m'inscrire pour tester chatgpt et ce depuis 20 jours....je seul message que je recois c'est:

 

"incription impossible veuillez ressayer plus tard"

jai essayé 3 navigateurs, 2 mails, et des VPN...mais RIEN !!!!!!!!!!!!!!!!!!!!! purée on fait comment pour s'inscrire ?!!!!!!!!!

 

 

 

Link to comment
Share on other sites

il y a 13 minutes, genio a dit :

jessaye de m'inscrire pour tester chatgpt et ce depuis 20 jours....je seul message que je recois c'est:

 

"incription impossible veuillez ressayer plus tard"

jai essayé 3 navigateurs, 2 mails, et des VPN...mais RIEN !!!!!!!!!!!!!!!!!!!!! purée on fait comment pour s'inscrire ?!!!!!!!!!

 

 

 

C'est pas facile de s'inscrire au chatgtp d'Open Ai . Essaye les alternatives comme You.com ou celle de Bing

Link to comment
Share on other sites

  • Administrators
il y a 49 minutes, genio a dit :

jessaye de m'inscrire pour tester chatgpt et ce depuis 20 jours....je seul message que je recois c'est:

 

"incription impossible veuillez ressayer plus tard"

jai essayé 3 navigateurs, 2 mails, et des VPN...mais RIEN !!!!!!!!!!!!!!!!!!!!! purée on fait comment pour s'inscrire ?!!!!!!!!!

Tu as essayé sans VPN sans rien ? je connais des gens qui ont créé leur compte depuis l'Algérie sans soucis.

Link to comment
Share on other sites

c'est balise ne veulent rien dire leur bot peut juste les ignorer et crawl tout le site c'est balise sont faites juste pour les moteurs de recherche afin de leur indiquer que tu ne souhaite pas indexer un contenu mais rien n'enperche le bot de siphonner le site en question , et pour les captcha , il y a des solution automatique et semi automatique pour les bypass donc il y a rien a faire , en plus de ça chatgpt ne siphone par les sites web mais c'est plus openAI qui le fait afin de cree un model , ce model ne peut pas etre mis a jour en temps reel 

Link to comment
Share on other sites

Il y a 10 heures, hotsauce3 a dit :

c'est balise ne veulent rien dire leur bot peut juste les ignorer et crawl tout le site c'est balise sont faites juste pour les moteurs de recherche afin de leur indiquer que tu ne souhaite pas indexer un contenu mais rien n'enperche le bot de siphonner le site en question , et pour les captcha , il y a des solution automatique et semi automatique pour les bypass donc il y a rien a faire , en plus de ça chatgpt ne siphone par les sites web mais c'est plus openAI qui le fait afin de cree un model , ce model ne peut pas etre mis a jour en temps reel 

En même temps qui mets un captcha sur un site vitrine ? Ce n'est pas user friendly. ça se met pas n'importe où. En plus quel intérêt open IA aurait de scrap des données de sites internet qui ne sont pas de sites qui répertorient des informations utiles style Wiki. C'est comme construire un mur et un portail qui se ferme avec un cadenas autour d'une mairie qui est un lieu public ça n'a aucun sens, heu...wait, ça se fait pas dans un certain pays ? 😅

Edited by parazitenew
  • Like 1
Link to comment
Share on other sites

Mieux ça dépend.

Il y a des offres gratuites, donc c'est mieux niveau prix, mais avec moins de choix de pays. Ex: ProtonVPN (NL, USA, JP).

Il y a des offres plus chères, mais qui offrent une meilleure protection de la vie privée, car avec des VPN comme CyberGhost ou Nord ou ExpressVPN on prend un risque de data mining de ses données personnelles.
Ex: Mullvad.

Etc.

 

Edited by NewBieVDZSL
Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.



  • Posts

    • @error404 non c'est un ancien article....la promo que tu m'a montré a été valable pendant 3 ans ou plus je crois..mais a été remplacé... un conseil: va vite chercher ta carte et laisse tomber les paiement especes...cela fait TRES longtemps qu'il n'y a que des inconvenients chez algerie telecom... ici nous autres membres du forum avons enormement gagné en bonus via le paiement en ligne; je suis tres tres etonné qu'il y a des gens qui ne savent meme pas ça...alors que ca a été mediatisé a fond par l'entreprise
    • @genio Non je n'étais pas au courant, merci pour l'information. la carte bancaire m'attend au bureau de poste j'ai fait des recherches, j'ai trouvé ça, c'est donc toujours en vigueur? https://www.algerietelecom.dz/fr/espace-presse/algerie-telecom-favorise-le-paiement-en-ligne-art1426
    • @error404 aucune idée; il n'y a aucune promo qui te donne 1 mois gratos...mais tu paies encore au niveau de l'agence en cash ?! je pensais que tous les membres de ce forum etaient passés à la CIB, vu les avantages évidents....depuis des années ! franchement les promos AT sont depuis des mois uniquement via e-paiement; d'ailleurs ici on en profites depuis des mois...avec 10% de bonus a chaque paiement...
    • Bonjour, hier dernier jour de mon abonnement adsl, j'ai prolongé d'un mois dans mon espace client, y'a marqué qu'il me reste 60 jours jusqu'en juillet. bug? erreur à leur signaler? promo? sur le papier qu'on m'a remis, c'était bien 30 jours il me semble.
    • @laliche evidemment que j'ai reglé le shift haha :)
×
×
  • Create New...