Головна Спільнота

Як працюють мовні моделі: порівнюємо Bing, Claude, Bard та Chat GPT-4

50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH

7 листопада 2023 8 хвилин читання

Після релізу ChatGPT на ринку з’явилося ще кілька потужних мовних моделей, що здатні конкурувати із продуктом Open AI. Хочу розповісти вам про тестове порівняння чотирьох найпопулярніших мовних моделей, якими користується більшість фахівців, що працюють саме з такими моделями. Відразу зазначу, кожна з моделей особливо сильна у деяких напрямах. Не рекомендуємо жодну з них відкидати. Але все по порядку.

Які мовні моделі ми тестували?

Claude — віртуальний помічник, створений компанією Anthropic у 2022 році. Навчений вести природний діалог і відповідати на запитання користувачів.
Bard — чатбот на основі нейромережі, представлений компанією Google у лютому 2023 року. Призначений для пошуку інформації та ведення розмови.
Bing — пошукова система, створена компанією Microsoft у 2009 році, проте нова версія оснащена штучним інтелектом вийшла у 2023-му. Використовує AI і машинне навчання для покращення результатів пошуку.
ChatGPT-4 — четверта версія чатбота від компанії OpenAI, що вийшла у 2023 році. Вміє вести діалог, генерувати текст і відповідати на запитання.

Кожне завдання кожної моделі ми оцінювали за п'ятибальною шкалою, де 0 — зовсім не впорався із завданням, 5 — впорався відмінно.

Завдання 1

Суть завдання: зробити рерайт тексту обсягом приблизно тисяча знаків. Текст завантажувався безпосередньо у сервіс.

Bard зробив гарний, структурований текст. Зі вступом, переліком тез та висновком. Таким чином, можна констатувати, що Bard впорався добре, єдина проблема, текст став більше на 500 знаків. А це не завжди добре саме для завдання рерайту. Ставимо йому 4.
Claude впорався не відразу. Спочатку він дав нам текст англійською мовою. Але після додаткової команди переклав його. Що ж, Claude із завданням упорався. Рерайт тексту зроблено якісно і обсяги дотримано. Заслужив найвищий бал — 5.
Bing зробив не зовсім те, що його просили. Тобто він зробив невеликий рерайт, але швидше спрацював, як фактчекер, а не як рерайтер. Дав кілька посилань. Тобто зробив завдання, але не зовсім те, яке його просили зробити. Ставимо йому 3.
ChatGPT-4 впорався відразу і відмінно. Більше того, він додав у текст образності і зробив дуже коректний рерайт, додавши деякі цікаві мовні звороти і явно зробив текст семантично багатшим. Отримує за це 5.

Завдання 2

Суть завдання: працювати, як копірайтер. Написати продаючий текст за матеріалами сторінки інтернет-магазину. Ми рандомно взяли стандартну сторінку, одного з інтернет-магазинів, на якій є характеристики звичайних навушників. І завантажили її у вигляді посилання.

Claude написав, що у нього немає виходу в інтернет. Але тут же видав текст саме про потрібний товар. Тобто, якимось чином він його зчитав з інтернету і написав продаючий текст на 5.
Bard відповів нам: «Я просто мовна модель і не можу тут вам допомогти». Тобто не впорався зовсім. Оцінка – 0.
ChatGPT-4 вийшов в інтернет і знайшов інформацію. Продаючий текст написав непогано. Оцінка – 5.
Bing знайшов нам чимало інформації, але написаний ним продаючий текст я б оцінила на 4. Вийшло дуже стандартно.

Завдання 3

Суть завдання: прочитати і проаналізувати документ у форматі PDF описати суть цього документа. Це була комерційна пропозиція від одного з ресурсів.

Claude впорався на 5. Документ завантажився, був прочитаний, видана добре структурована інформація про його суть.
ChatGPT-4 також зміг прочитати документ, єдина відмінність від Claude, він дав опис документа в описовій формі, тоді як Claude зробив це тезово в стовпчик. ChatGPT-4 теж отримує 5.
Bard і Bing не побачили документ і не змоги його навіть прочитати. Обом оцінка — 0.

Завдання 4

Суть завдання: проаналізувати рандомне фото і описати, що на ньому зображено. Ми взяли рандомне фото популярної іграшки — pop it.

Bing видав нам відразу і назву іграшки і її опис та ряд посилань на неї. Отримує 5.
Claude, ChatGPT-4 і Bard теж непогано впоралися. Різниця лише в тому, що посилань не дали. Але всі зробили непоганий опис. Хоч зараз бери на картку в інтернет-магазин. Всі отримують по 5.

Завдання 5

Суть завдання: зробити синопсис зі сценарію серії художнього серіалу. Текст сценарію (а це 33 сторінки) безпосередньо завантажується в сервіс, щоб перевірити з яким обсягом тексту він може впоратися по максимуму.

Bing — у сервіс завантажилося майже п'ять сторінок тексту. Відповідно на цьому обсязі він і працював над синопсисом. Синопсис вийшов непоганий, але не повний. Оцінка — 3.
Bard також не повністю завантажив сценарій. І також видав неповний синопсис. Оцінка така сама — 3.
ChatGPT-4 написав, що не може впоратися з цим завданням, а отже, це 0.
Claude мабуть єдиний впорався на відмінно. Тобто прийняв весь текст і видав повний синопсис на 6 абзаців. Отримує 5.

Завдання 6

Суть завдання: написати статтю для блогу про риболовлю. Тут ми даємо нашим сервісам невеликий промпт, в якому вказуємо стилістику статті, ЦА, ключові меседжі, пояснюємо, чого варто уникати.

Bard статтю як таку не зробив. Але створив конструктор статті, план, який можна наповнювати вручну або ж за допомогою подальших постановок завдань йому ж, Bardу. Отримує 4.
Claude написав непогану статтю. Але досить суху і стислу за обсягом. Я оцінила її на 3.
ChatGPT-4 написав практично ідеальну статтю. У ній є відмінна розгонка, яка збільшує глибину прочитання статті, інформація і висновок. Хоч зараз можна вивішувати в блозі. Оцінка — 5.
Bing написав не статтю, а радше зібрав в інтернеті інформацію за темою. Тобто це не стаття, але з цим матеріалом можна працювати. Оцінка — 4.

Завдання 7

Суть завдання: написати сценарій ролика для ТікТок. Написати його на основі сценарію конкурента. Тут ми дали нейронкам докладний промпт, в якому сказали працювати, як сценарист, написати не тільки текст, але і ракурси для ведучого, титри і порахувати хронометраж. А також дали безліч чітких вказівок, які треба взяти в роботу і референс. Крім того, вони повинні писати цей сценарій в таблиці на 4 стовпці.

Claude написав найсоковитіший текст для ведучого. Непогано впорався і з описом дії. Ставимо 5.
ChatGPT-4 впорався на тому ж рівні, що і Claude. Також можемо поставити 5.
Bard впорався з ракурсами і хронометражем, але написав досить слабкий текст для ведучого. Це 4.
Bing має ту ж проблему, що і Bard і теж отримує 4.

Завдання 8

Суть завдання: в останньому завданні, ми попросили сервіси намалювати реалістичні пейзажі порожнього осіннього парку і забуту на лавці чашку кави.

Bard і Claude не мають такої функції, про що чесно написали. Оцінка 0.
ChatGPT-4 переключився на Dalli-E і згенерував непогану картинку. Я поставила 5.
Bing також згенерував цікаве зображення. І теж отримує 5.

Малюнок ChatGPT

Малюнок Bing

Підсумки

ChatGPT-4 наш фаворит, він краще за всіх впорався з більшістю завдань. За ним йде Claude, потім Bing і завершує список Bard. Втім, це свідчить не про якість самих моделей (вони всі дуже якісні), а про багатозадачність. Bard, хоч і отримав найменше балів, але у деяких завданнях йому немає рівних.

Тож використовуйте всі моделі і знайдіть ту, яка найбільше підходить.

Більше цікавого про нейромережі і штучний інтелект дивіться на нашому каналі.

Якщо ви хочете поділитися з читачами SPEKA власним досвідом, розповісти свою історію чи опублікувати колонку на важливу для вас тему, долучайтеся. Відтепер ви можете зареєструватися на сайті SPEKA і самостійно опублікувати свій пост.

50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH

Andrew Suslov 09.11.2023, 02:38

Цікаво, дякую. Я порівнював chat gpt і bard для перекладу інструкції на пральну машину. Bard суттєво краще зробив.

Відповісти

Igor Kanivets 09.11.2023, 02:20

Цікава та ємна стаття. Дякую

Відповісти

Інші матеріали

Meta демонструє ШІ-інструмент 3D Gen для швидкої генерації текстурованих 3D-моделей

Вікторія Рудзінська 21 годину тому

Meta представила новий інструмент штучного інтелекту 3D Gen, що дозволяє створювати або ретекстурувати 3D-об'єкти на основі текстових підказок швидше, ніж будь-коли раніше.

Meta демонструє ШІ-інструмент 3D Gen для швидкої генерації текстурованих 3D-моделей

Figma тимчасово вимикає функцію ШІ через проблеми з копіюванням дизайнів

Вікторія Рудзінська 21 годину тому

Figma вирішила тимчасово вимкнути свою нову функцію штучного інтелекту «Make Design» після того, як було виявлено, що вона копіює дизайни інших застосунків.

Студенти з України створили 21 defense-tech-рішення, яке допоможе ЗСУ на фронті

Владислав Паливода 2 липня 2024 14:01

Нові defense-tech-рішення представили українські студенти. За два дні вони показали 21 технологічну розробку для фронту, повідомляє міністр цифрової трансформації Михайло Федоров.

Студенти з України створили 21 defense-tech-рішення, яке допоможе ЗСУ на фронті

Як бізнес-спільноти сприяють розвитку вашого нетворку

Максим Олійник 2 липня 2024 11:35

Нетворкінг – універсальний інструмент, який може допомогти швидко та ефективно закрити потреби компанії. Працювати зі партнерами, які знайомі особисто, набагато легше та вигідніше, ніж з маловідомими людьми, тому вміння знайомитися є надзвичайно важливим для CEO компанії.

Як бізнес-спільноти сприяють розвитку вашого нетворку

Акцент США на ШІ не допоможе здоровому розвитку, впевнені у Китаї

Владислав Паливода 2 липня 2024 09:42

Інвестиції США у штучний інтелект у Китаї не сприяє здоровому розвитку. Це може спричинити розбіжності на рівні глобального управління, кажуть представники Китаю в ООН, повідомляє Reuters.

Акцент США на ШІ не допоможе здоровому розвитку, впевнені у Китаї