не я имею ввиду собрать различные задачи например для RAG, пособирать промты всякие и тест кейсы для этого и провести исследование на (хотя бы 100+ примерах) для русского, английского языка, … Для задач на понимание научных статей, блогов, новостей и тд. И посмотреть какие вообще эмбеды где лучше делают репрезентации.

Думаю что вполне может потянуть на небольшую научную статью

dvgureev May 5 at 22:09

Возможно, но я тут больше как практик, поэтому на сегодняшний день наиболее практичным мне кажется исходить из домено-ориентированного подхода.

Т.е. делать файнтюн эмбединга под конкретную область знаний. Но это не решит вопрос (увы) задач поиска ответа на вопросы. К сожалению "традиционный" подход: нарезать на куски, сделать вектор и потом по ним искать имеет ограничения методологические. Более 80-85% точных ответов сложно получить.

Show the best of all time