«Ревизорро» в IT: тестируем суммаризацию текста в GigaChat и YandexGPT / Comments / Habr

Родион, спасибо большое за отзыв и вопрос:)

Мы не сравнивали все эти модели, поэтому можем предположить, как бы они себя проявили.

1. OpenChat (7 млрд, open source, https://huggingface.co/openchat/openchat_3.5) — модель со значительно меньшим количеством параметров, чем YandexGPT (100 млрд) и GigaChat (29 млрд). Кроме того, она позиционируется как англоязычная, а не многоязычная модель.

Доступ к API https://openchat.team/ недоступен.

2. Command R+ имеет достаточно параметров для адекватного сопоставления. Однако в перечне языков, на которых валидировалась модель, отсутствует русский (104 млрд, https://huggingface.co/CohereForAI/c4ai-command-r-plus). Тем не менее, через Hugging Face API можно пообщаться с ней (https://huggingface.co/spaces/CohereForAI/c4ai-command-r-plus).

Привожу примеры пересказа двух художественных текстов и оценки, которые бы получила модель в эксперименте:

«Собачье сердце»: «В рассказе описывается история бездомной собаки, которая была обварена кипятком поваром столовой. Собака страдает от боли и голода, но неожиданно встречает богатого человека, который подкармливает ее колбасой и забирает с собой. Собака благодарна и предана своему спасителю, несмотря на то, что тот живет в роскоши и имеет странные привычки. По пути к дому богатого человека собака выражает свою любовь и преданность, защищая своего нового хозяина от других собак и котов. В конце они приходят в дом, где богатый человек живет с другими людьми, и собака узнает, что в квартире будут проводиться ремонтные работы».

Оценки, которые бы получила модель: фактология = 1 (в доме не будут проводиться ремонтные работ, собака не защищала хозяина от собак и котов и др.), полнота = 8 (неверно расставлены содержательные акценты, не упомянут диалог со швейцаром и имена действующих лиц), стиль 7 (снижение на 2 балла за то, что модель нарушила инструкцию составить пересказ на 3-4 предложения, 1 балл за «история бездомной собаки, которая была обварена кипятком»).

«С неба упали три яблока»: «Воске, младшая дочь Севоянц Капитона, готовится к смерти, выполняя различные ритуалы и оставляя инструкции для своих соседей. Она вспоминает свою жизнь, включая смерть своей сестры Татевик за четыре дня до их запланированной свадьбы, и свое последующее замужество за Капитоном. Воске также вспоминает сон, который она видела перед свадьбой, и совет, который дал ей толкователь снов, чтобы она никогда не стригла свои волосы, так как они являются ее защитой от проклятия».

Оценки, которые бы получила модель: фактология = 1 (модель принимает Анатолию за её мать Воске), полнота = 7 (неверно расставлены содержательные акценты, не говорится о сути семейного проклятья, о кровотечении), стиль 8 (снижение за «готовится к смерти, выполняя различные ритуалы и оставляя инструкции для своих соседей», «смерть своей сестры Татевик за четыре дня до их запланированной свадьбы» как будто женятся Воске и Татевик)

3. llama 3 — ситуация аналогичная: количество параметров сопоставимое (70 млрд), однако на русском не валидировалась. Привожу примеры пересказа двух художественных текстов и оценки, которые бы получила модель в эксперименте:

«Собачье сердце»: «Вьюга свирепствует в переулке, и раненый бродячий пёс, Шарик, лежит в подворотне, умирая от боли и голода. Он проклинает повара, который облил его кипятком, и мечтает о еде. Внезапно появляется господин в шубе, который покупает колбасу в магазине. Пёс умоляет его о помощи, и господин дает ему кусок колбасы. Шарик выражает свою благодарность и преданность, и господин предлагает ему пойти за ним. Они идут по Пречистенке, и Шарик продолжает выражать свою преданность, несмотря на боль в боку. Они подходят к дому, и господин разговаривает со швейцаром, узнавая о новых жильцах в квартире. Шарик следует за господином, готовый идти за ним куда угодно».

Оценки, которые бы получила модель: фактология = 1 (в квартире профессора нет новых жильцов, Шариком пса нарёк профессор), полнота = 9 (суть вселения в дом новых жильцов отражена неверно), стиль 5 (снижение на 2 балла за то, что модель нарушила инструкцию составить пересказ на 3-4 предложения, по 1 баллу за «Вьюга свирепствует в переулке», «Пёс умоляет его о помощи», «Шарик продолжает выражать свою преданность, несмотря на боль в боку»)

«С неба упали три яблока»:
«Here is a brief summary of the text in 3-4 sentences: Sevoyants Anatolia, a 58-year-old woman, is preparing to die, carefully attending to her household chores and arranging her funeral attire. She has been bleeding internally for two days and knows that her illness is incurable. Anatolia's life has been marked by tragedy, including the death of her mother at a young age and the sudden passing of her older sister on the eve of her wedding. The family's history is intertwined with a curse that has haunted them for 18 years, and Anatolia's own fate seems to be tied to her inability to fulfill her role as a mother.»

Оценки, которые бы получила модель: фактология = 1 (путает Анатолию с её матерью Воске), полнота = 8 (неверно интерпретирована семейная история и семейное проклятие), стиль 0 (ответ на английском языке).

4. Claude 3 Haiku — проприетарная модель, ориентированная на английский язык. Её главным позиционируемым достоинством является скорость в обработке данных. К сожалению, модель не предоставляет доступ к своему API в нашем регионе: https://www.anthropic.com/claude-ai-locations.