Pull to refresh

Comments 4

Было бы интересно собрать какие нибудь большие тесткейсы и на них статистику посмотреть эмбеддингов!

потому что кажется что на небольших кейсах есть предвзятость и сдвиги

Вы имеете ввиду длинные тексты?
С этим проблема. Локальные модели очень ограниченные в размере текста, который они могут превратить в вектор.

text-large-03 может относительно много. Если не ошибаюсь 4096.

Bert 712 символов. intfloat/multilingual-e5-large - вообще 512.

Поэтому тут очень специфическое применение.

не я имею ввиду собрать различные задачи например для RAG, пособирать промты всякие и тест кейсы для этого и провести исследование на (хотя бы 100+ примерах) для русского, английского языка, … Для задач на понимание научных статей, блогов, новостей и тд. И посмотреть какие вообще эмбеды где лучше делают репрезентации.

Думаю что вполне может потянуть на небольшую научную статью

Возможно, но я тут больше как практик, поэтому на сегодняшний день наиболее практичным мне кажется исходить из домено-ориентированного подхода.

Т.е. делать файнтюн эмбединга под конкретную область знаний. Но это не решит вопрос (увы) задач поиска ответа на вопросы. К сожалению "традиционный" подход: нарезать на куски, сделать вектор и потом по ним искать имеет ограничения методологические. Более 80-85% точных ответов сложно получить.

Sign up to leave a comment.

Articles