Наша система чтения: corpus-core + два MCP-сервера
В новости про ежедневные ленты мы назвали их «публичным лицом более крупной системы чтения». Вот она — три новых открытых репозитория, которые позволяют ИИ-ассистенту по-настоящему читать вместе с нами через Model Context Protocol (MCP).
corpus-core — общий движок. Эмбеддинги для семантического поиска, текстовый поиск, секционно-осознанный чанкер, реестр задач, throttled-загрузка и универсальный каркас MCP-сервера. В нём нет проектной логики; оба сервера ниже построены на нём.
arxiv-radar-mcp — локальный MCP-сервер над ежедневными лентами arXiv. Ищешь по абстрактам — семантически или по тексту, по научным областям, — а когда статья выглядит перспективной, подтягиваешь её полный текст по запросу: сервер скачивает и индексирует его, и дальше можно искать внутри статьи («нашлось в Methods статьи X»). Абстракты держатся в памяти; полные тексты добавляются в корпус только когда попросишь.
lab-corpus-mcp — более широкое рабочее пространство для исследований. Принимает любую литературу, не только arXiv — PDF и презентационные слайды — распарсенные через MinerU и доступные для поиска тем же эмбеддинг-стеком. Видео-лекции и слайды — в планах.
Все три родились под наши собственные нужды: держать одного независимого исследователя (и ИИ-партнёра) в курсе быстро меняющейся междисциплинарной литературы. Мы пользуемся ими каждый день, продолжаем улучшать и делимся всем стеком с сообществом. Открытый код (MIT) — и мы открыты к коллаборации.