Наша система чтения: corpus-core + два MCP-сервера

В новости про ежедневные ленты мы назвали их «публичным лицом более крупной системы чтения». Вот она — три новых открытых репозитория, которые позволяют ИИ-ассистенту по-настоящему читать вместе с нами через Model Context Protocol (MCP).

corpus-core — общий движок. Эмбеддинги для семантического поиска, текстовый поиск, секционно-осознанный чанкер, реестр задач, throttled-загрузка и универсальный каркас MCP-сервера. В нём нет проектной логики; оба сервера ниже построены на нём.

arxiv-radar-mcp — локальный MCP-сервер над ежедневными лентами arXiv. Ищешь по абстрактам — семантически или по тексту, по научным областям, — а когда статья выглядит перспективной, подтягиваешь её полный текст по запросу: сервер скачивает и индексирует его, и дальше можно искать внутри статьи («нашлось в Methods статьи X»). Абстракты держатся в памяти; полные тексты добавляются в корпус только когда попросишь.

lab-corpus-mcp — более широкое рабочее пространство для исследований. Принимает любую литературу, не только arXiv — PDF и презентационные слайды — распарсенные через MinerU и доступные для поиска тем же эмбеддинг-стеком. Видео-лекции и слайды — в планах.

Все три родились под наши собственные нужды: держать одного независимого исследователя (и ИИ-партнёра) в курсе быстро меняющейся междисциплинарной литературы. Мы пользуемся ими каждый день, продолжаем улучшать и делимся всем стеком с сообществом. Открытый код (MIT) — и мы открыты к коллаборации.

corpus-core · arxiv-radar-mcp · lab-corpus-mcp