Набір даних для навчання ШІ містить зображення сексуального насильства над дітьми — дослідження
Популярний набір даних для тренування штучного інтелекту LAION-5B містить посилання на зображення насильства над дітьми (CSAM). Про це свідчить аудит, проведений дослідниками Стенфордської інтернет-обсерваторії.
Згідно зі звітом, датасет містить щонайменше 1679 CSAM-матеріалів. Раніше їх вилучили з соцмереж та сайтів для дорослих, тому ці хеші відомі сервісам виявлення незаконного контенту, зокрема PhotoDNA та Канадським центром захисту дітей.
LAION-5B широко застосовують для навчання генераторів зображень на кшталт Stable Diffusion та Imagen від Google. На сайті LAION зазначено, що датасет не зберігає оригінальні фото. Він індексує інтернет і містить посилання на них та альтернативні підписи.
Підписуйтеся на наші соцмережі
На думку фахівців, існує ймовірність, що створені на основі LAION-5B моделі навчилися генерувати шкідливий контент.
Організація LAION зазначила, що тимчасово прибрала набори даних з відкритого доступу та дотримується політики «нульової толерантності» до подібних матеріалів.
Експерти також порадили «даунгрейднути» моделі ШІ, які навчались на проблемних даних, зокрема Stable Diffusion 1.5. Компанія Stability AI запевнила, що в процесі тренування своїх алгоритмів сконцентрувалась на безпечній частині LAION-5B.