Мощное мультимодальное семейство больших языковых моделей от Alibaba Group для понимания сложных документов и работы с ними.
• mPLUG-DocOwl1.5 - модель для извлечения единой структуры из документов без распознавания текста.
• TinyChart - SOTA в различных тестах понимания диаграмм, в том числе Chart-to-Text, Chart-to-Table, OpenCQA, and ChartX. TinyChart превосходит несколько MLLM для понимания диаграмм по параметрам до 13B, таких как ChartLlama и ChartAst (код на подходе).
• mPLUG-PaperOwl - научный анализ диаграмм, с помощью мультимодальной LLM.
• UReader - разбор документов с помощью мультимодальной модели большого языка без OCR.
В своем канале я публикую самые интересные новые модели и разбираю их, welcome.