Головна Gemini

Google проти OpenAI: тестуємо Gemini та ChatGPT

50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH

8 грудня 2023 8 хвилин читання

Google нарешті випустив власну нову модель штучного інтелекту під назвою Gemini.

Раніше пошуковий гігант був піонером у майже всіх розробках на базі штучного інтелекту, а тому Gemini мав стати альтернативою нейромережі GPT від OpenAI. У компанії стверджують, що їм вдалося випередити конкурентів: Gemini начебто виконав 30 із 32 завдань краще, ніж GPT-4. SPEKA спробувала порівняти ефективність алгоритмів на виконанні типових завдань. Ось що вийшло.

Порівняння Bard на базі Gemini та ChatGPT

Що потрібно знати про нову модель ШІ Gemini від Google

Нейромережа працюватиме всередині ШІ-асистента Bard, а впроваджувати її будуть у два етапи. Від 6 грудня Bard буде використовувати спеціально налаштовану версію Gemini Pro для запитів англійською. Інші моделі наразі недоступні, але у Google обіцяють згодом підтримку 170 мов, зокрема українською.

Також на початку 2024 року Google планує представити версію Bard Advanced, яка надасть користувачам доступ до більш досконалих можливостей. Ймовірно, йдеться про роботу з графікою та відео.

SPEKA раніше порівнювала можливості Bard та ChatGPT. Тоді у шести завданнях перемогу здобув ChatGPT, Bard краще відповів на запитання, що потребувало фактологічної точності, а ще в одному завданні переможця не було.

Тепер ми тестуємо Bard з нейромережею Gemini (раніше була PaLM 2), а ChatGPT з версією GPT-4 замість GPT 3,5. Користування Bard безкоштовне, а GPT-4 коштує $20 на місяць.

Власний досвід: тестуємо Bard та ChatGPT

Ми протестували нейромережі на кількох запитаннях, які потребують різних здібностей, зокрема креативності, уміння аналізувати інформацію, фактологічної та математичної точності.

Жарти та креативність Bard і ChatGPT

Ми попросили чатботів написати декілька жартів, щоб оцінити їхнє почуття гумору.

Запит: Come up with 5 Chandler Bing style jokes about romantic relationships in today's world.

Стендаперам варто занепокоїтись. Що ChatGPT, що Bard суттєво покращили своє вміння вигадувати жарти у порівнянні з результатами минулого огляду. У кожного є 3-4 смішних ремарки, ChatGPT використав культову фразу Чендлера «Could we be any more …» (Чи може ми бути ще більш …). Обидві нейромережі наголошувати на атрибутах сучасного світу у своїх жартах, сприймаючи завдання надто буквально, але загалом впоралися напрочуд добре.

За аналогічним запитом українською до Bard та до версії GPT-3,5 алгоритми досі видають дуже посередні результати.

Алгоритмічне завдання для Bard і ChatGPT

Ми знаємо, що штучний інтелект поки що далекий від високої кухні, але написання покрокових рецептів мало б бути для нього легким завданням.

Запит: come up with an author's recipe for chocolate cake and write instructions for it.

Інгредієнти для торта за версією ChatGPT

Обидва чатботи впорались із завданням доволі непогано та написали детальні рецепти, які реально виконати, щоправда, важко назвати авторськими.

Допомога з проходженням комп’ютерної гри

Запит: I'm playing S.T.A.L.K.E.R, give me some tips on how to pass levels with controllers.

Обидва ШІ-помічники погано впорались із наданням практичних стратегій до гри, але Bard провалив завдання. Він попросив уточнити, яку саме частину я граю, хоча стратегія для усіх ігор однакова, а також не зміг розрізнити суть запитання, зрозумівши слово controllers як пристрої для гри, а не назву мутанта (контролер). ChatGPT хоч і одразу розпізнав, про що йдеться, припустився кількох фактологічних помилок, наприклад, що цих монстрів краще атакувати з далекої відстані, а також що вони здатні створювати фантомні копії самих себе.

Креативне письмо

Запит: Write a poem about a worm written in anapest. It must have a plot.

Як і у попередніх версіях, ChatGPT знову показав більше креативу, вигадав стилістично багатший вірш. Bard покращив свої здібності у креативному письмі, але використовував надто прості рими. А також додав посилання на різні портали, де можна дізнатися більше про цих тварин.

Діалог аргументів Bard і ChatGPT

Один зі способів перевірити сучасний чатбот зі штучним інтелектом — попросити його взяти на себе ролі людей, які обговорюють тему. Ми попросили аргументувати переваги різних мікропроцесорів.

Запит: write a 5-line discussion between a PowerPC fan and an Intel fan circa 2000.

Обидва чатботи доволі добре впорались зі своїм завданням. У попередньому огляді Bard провалив цей тест, написавши діалог лише на два рядки. Чатботи використали раціональні аргументи та технічну інформацію, але їхній стиль був дещо відмінним — у Bard діалог був значно емоційнішим.

Математична текстова задача для Bard і ChatGPT

Традиційно це не сильний бік великих мовних моделей (LLM). Тому ми дали кожному старомодне текстове завдання у стилі початкової школи.

Запит: if microsoft Windows 11 came on diskettes, how many diskettes would be needed?

Обидві системи провели правильний розрахунок та виконали математичну задачу. Щоправда, Bard у своїх розрахунках використовував рекомендований обсяг вільної пам’яті для інсталяції Windows 11 (64GB), хоча насправді файли операційної системи займають у середньому 27 GB. У минулому тестуванні Bard взагалі відмовився обраховувати цю операцію, апелюючи, що Windows 11 не поширюють на дискетах. Цього разу він коректно нагадав, що такий спосіб був би логістичним кошмаром, але провів операцію.

Фактологічна точність

Запит: who invented video games?

Обидва інструменти добре впорались із завданням і дали правильні відповіді, хоча відповідь ChatGPT була дещо коротшою.

Програмування та генерація коду в Bard та ChatGPT

Щоб перевірити, хто кодує краще, ми дали чатботам завдання.

Запит: write a Python script that says Hello World and then generates a random string of 10 characters and repeats ad infinitum.

З невідомих причин Bard вирішив проігнорувати Hello World, зосередившись на генеруванні рядків з випадковими символами. Тоді як ChatGPT виконав завдання без особливих проблем.

Що ще вмітиме Bard з новою нейромережею Gemini

Система також була розроблена з нуля для безперебійного аналізу тексту, зображень, аудіо та відео, що випереджає її конкурентів.

У Google кажуть, що розробляли Gemini так, щоб він був мультимодальним із самого початку, замість того, щоб починати з чисто текстової моделі, а потім прищеплювати візуальні та аудіокодери.

Звісно, поки що Bard не отримав усіх функціональних оновлень, але Google продемонстрував кілька цікавих особливостей нової моделі. Наприклад, вона зможе знаходити відмінності між двома зображеннями або ж акцентами в аудіо.

Також із цікавих функцій — Bespoke UI. Суть у тому, що на ваш запит модель спочатку генерує інтерфейс, а потім наповнює його (реальним або згенерованим контентом). По суті, це маленький зроблений на замовлення вебсайт з різними блоками. І з кожним із них користувач може поглибити взаємодію — виділити, попросити дописати чи переписати. Також система пише PRD (Product Requirements Document), шаблон для наповнення і код на Flutter.

Як працює Bespoke UI — нова функція Gemini

Нейромережа Gemini буде доступна у трьох моделях:

Gemini Ultra — найбільша та найпотужніша, для дуже складних завдань.
Gemini Pro — для широкого спектра завдань.
Gemini Nano — для користувачів Android, які хочуть створювати програми на базі Gemini. Наприклад, із Gemini Nano люди тепер можуть узагальнювати записи, зроблені за допомогою програми Recorder на телефоні Pixel 8 Pro (але лише англійською).

І хоча поки що нові функції не доступні широкому загалу, не схоже, що Bard обійшов свого конкурента, але він скоротив відставання у кількох сферах.

50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH

Oleg Yushkov 11.12.2023, 01:25

Цікава стаття, дякую. ChatGPT звісно ж має фору, проте чекаємо релізу Gemini Ultra. Тоді порівняння буде більш справедливим :)

Відповісти

Інші матеріали

Meta демонструє ШІ-інструмент 3D Gen для швидкої генерації текстурованих 3D-моделей

Вікторія Рудзінська 13 годин тому

Meta представила новий інструмент штучного інтелекту 3D Gen, що дозволяє створювати або ретекстурувати 3D-об'єкти на основі текстових підказок швидше, ніж будь-коли раніше.

Meta демонструє ШІ-інструмент 3D Gen для швидкої генерації текстурованих 3D-моделей

Figma тимчасово вимикає функцію ШІ через проблеми з копіюванням дизайнів

Вікторія Рудзінська 14 годин тому

Figma вирішила тимчасово вимкнути свою нову функцію штучного інтелекту «Make Design» після того, як було виявлено, що вона копіює дизайни інших застосунків.

Студенти з України створили 21 defense-tech-рішення, яке допоможе ЗСУ на фронті

Владислав Паливода 20 годин тому

Нові defense-tech-рішення представили українські студенти. За два дні вони показали 21 технологічну розробку для фронту, повідомляє міністр цифрової трансформації Михайло Федоров.

Студенти з України створили 21 defense-tech-рішення, яке допоможе ЗСУ на фронті

Акцент США на ШІ не допоможе здоровому розвитку, впевнені у Китаї

Владислав Паливода 2 липня 2024 09:42

Інвестиції США у штучний інтелект у Китаї не сприяє здоровому розвитку. Це може спричинити розбіжності на рівні глобального управління, кажуть представники Китаю в ООН, повідомляє Reuters.

Акцент США на ШІ не допоможе здоровому розвитку, впевнені у Китаї

Apple планує інтегрувати Google Gemini в свої пристрої

Вікторія Рудзінська 1 липня 2024 09:39

Apple планує додати нову модель штучного інтелекту Google Gemini до своїх пристроїв, повідомляє Марк Гурман з Bloomberg.

Apple планує інтегрувати Google Gemini в свої пристрої