OpenAI визнав, що його бот GPTbot сканує інтернет для навчання ШІ
Компанія OpenAI визнала, що має спеціального бота-”павука” GPTbot, який сканує мережу та збирає дані для навчання свого штучного інтелекту, повідомляє Business Insider.
OpenAI може використовувати онлайн-контент, зібраний GPTbot, для навчання наступної великої моделі ШІ – GPT-5.
Так само у авторів зникають стимули ділитися високоякісною інформацією в Інтернеті безкоштовно: OpenAI збере цей контент для навчання майбутніх LLM.
Як захистити свій сайт від індексації GPTbot
Деякі автори, медіа та навіть онлайн-спільноти вже дійшли висновку, що, дозволивши боту GPTbot від OpenAI сканувати свій сайт, вони втрачають власний майбутній трафік.
OpenAI нещодавно фактично визнала існування цього боту – оголосила про спосіб блокування GPTbot за допомогою загального протоколу під robots.txt.
Для цього потрібно додати в файл robots.txt наступні строки:
- User-agent: GPTBot
- Disallow: /

Деякі сайти, наприклад Clarkesworld, журнал наукової фантастики та фентезі, вже скористались цим протоколом та заблокували GPTbot. Щоправда, це може бути запізно.
GPTbot – не єдиний індекс-бот для ШІ. Ще один цифровий павук CCBot збирає весь вміст мережі. Його власник – організація Common Crawl, яка є основним постачальником навчальних даних для моделей ШІ. Common Crawl регулярно зберігає всю цю інформацію, тому блокувати її бота також вже пізно.