Arcanada — Adsessor: представляем AI-ассистента для звонков в Zoom и Google Meet

Видеозвонки изменили то, как мы работаем. Но они не изменили то, как мы думаем во время звонков. Вы сидите в совещании, кто-то упоминает проектное решение полугодовой давности — и вы либо помните его, либо нет. Кто-то говорит на языке, который вы понимаете частично, и вы киваете в надежде разобраться позже по расшифровке — после звонка, когда спрашивать уже поздно.

Это разрыв, который призван закрыть Adsessor.

Что такое Adsessor

Название из латыни: adsessor (или assessor) — помощник судьи или эксперт-советник, сидящий рядом с магистратом во время судебного разбирательства. Слово вписывается в традицию именования экосистемы (Verdicus, Scrutator, Consilium, Munera, Transcribator), но главное — оно отражает суть продукта: эксперт, сидящий рядом с вами во время разговора, а не отчёт, доставленный после него.

Adsessor — это AI-ассистент для звонков в Zoom и Google Meet, работающий в реальном времени. Он слушает (с согласия и уведомлением участников), расшифровывает в реальном времени, переводит между языками и — в более поздних фазах — сможет говорить как агент с ролью-персоной, участвующий в разговоре. Это не пост-колл суммаризатор. Это когнитивный слой для ваших встреч.

Проблема

Три различных разрыва определяют дизайн:

Первый: знания появляются после звонка, а не во время него. Современные инструменты (Otter.ai, Fireflies, Fathom) записывают и расшифровывают, а затем доставляют саммари после встречи. В нужный момент вы всё равно остаётесь без информации. Расшифровка полезна для документации, но она не помогает, когда клиент задаёт вопрос, на который есть ответ в вашей базе знаний — и вы не можете его найти, продолжая говорить.

Второй: языковые барьеры разделяют внимание. Международные команды по умолчанию переходят на английский, даже если все участники свободнее говорят на другом языке. Понимание падает. Нюансы теряются. Некоторые участники молчат не потому, что им нечего сказать, а потому что они обрабатывают информацию. Субтитры в реальном времени помогают, но они показывают один и тот же язык всем — они не переводят.

Третий: отсутствие роли эксперта, сидящего рядом. На физической встрече вы можете наклониться и тихо спросить коллегу. В видеозвонке этой роли нет. Никто не шепчет контекст, не подсказывает ссылки, не отмечает, что текущая тема пересекается с решением, принятым командой в прошлом квартале.

Adsessor спроектирован так, чтобы закрыть все три разрыва — не после звонка, а во время него.

Чем Adsessor будет

Система имеет два режима, от пассивного базового уровня к полной активной агентности:

Passive Baseline (цель Phase 1). Слушать, записывать, расшифровывать и суммаризировать. Никакой речи. Никакого видимого присутствия для других участников. Только хост управляет: начать/остановить запись, просматривать живую расшифровку, получать пост-колл саммари. Этот режим повторяет возможности существующих инструментов, но отличается архитектурно — он встроен напрямую в SDK платформы, а не через стороннего бот-вендора.

Active Mode (цель Phase 3+). Говорящие AI-агенты с ролевыми персонами. Персона архитектора, понимающая технический контекст из документации проекта. Персона бизнес-консультанта, помнящая исторические решения. Персона юридического консультанта, отслеживающая compliance-риски. Каждая персона может обращаться к участникам на их определённом языке. Хост видит субтитры с переводом в реальном времени, независимые от того, что видят другие участники — экран остальных не меняется. Во время звонка агент находит инсайты из приватной базы знаний через RAG. Он запоминает участников между встречами, выстраивая кросс-встречную память.

Оба режима работают с явным уведомлением об использовании бота — через On-Behalf-Of от Zoom и согласие, совместимое с GDPR, — чтобы каждый участник знал о присутствии AI-ассистента.

Архитектурные решения

Два решения формируют архитектуру больше, чем любые другие:

Прямая интеграция с платформой, без стороннего бот-вендора. Отраслевой стандарт — маршрутизировать аудио через бот-платформу вроде Recall.ai или Rewatch. Эти сервисы берут на себя Zoom/Meet-мост, извлечение аудио и управление участниками за поминутную плату. Adsessor делает наоборот: интегрируется напрямую с Zoom Meeting SDK и headless Chromium для Google Meet. Причина прагматичная, а не идеологическая. При низком объёме звонков сторонние боты дешевле и быстрее. При целевом объёме crossover по стоимости делает прямую интеграцию выгоднее за звонок. Кроме того, контроль над аудиопотоком даёт прямой доступ к сырому PCM 16-bit LE 16 kHz mono — без промежуточных конвертаций формата, снижающих качество. И для соблюдения GDPR ненужный третий посредник в цепочке аудио упрощает обработку персональных данных.

Экосистемная интеграция. Adsessor не изобретает идентификацию, маршрутизацию моделей, поиск знаний или память. Он потребляет их из существующих сервисов Arcanada: аутентификация через Auth Arcana, роутинг LLM через Model Connector, поиск знаний через Scrutator (open-source гибридный поисковый движок), кросс-встречная память участников через Long Term Memory. Это сокращает дублирование и гарантирует, что каждый сервис экосистемы становится умнее по мере улучшения любого из них.

Именно экосистемное требование переиспользования позволяет Adsessor стартовать как Phase 0-спайк, а не как переписывание инфраструктуры ботов для встреч с нуля.

Где мы сейчас

Phase 0 в процессе: дизайн-валидация через структурированный 5-дневный спайк по Zoom Meeting SDK. Четыре технических неизвестных решаются до перехода к Phase 1.

On-Behalf-Of кросс-аккаунтный поток. Zoom в феврале 2026 года ввёл обязательную авторизацию на уровне аккаунта для приложений, действующих от имени пользователей. Спайк проверяет, что OAuth и Bearer token flow работает для приложения от аккаунта разработчика, целевого на внешние Zoom-аккаунты.

Захват сырого аудио. Zoom Raw Data API выдаёт PCM 16-bit little-endian, 16 kHz mono — формат, требуемый Whisper и другими STT-движками без ресемплинга. Спайк подтверждает доступность API для аккаунтов Pro-уровня и возможность стримить аудиобуфер в реальном времени в STT-пайплайн.

Доступность для Pro-плана. Zoom Raw Data API и Meeting SDK требуют подписки Pro или выше. Спайк проверяет, что Pro достаточно (Business или Enterprise не обязательны).

Акустическое эхоподавление (AEC). Если Adsessor воспроизводит аудио в звонок (активный режим), он должен избежать обратной связи, когда его собственный выход обрабатывается как вход. Спайк тестирует обработку AEC в Zoom при наличии вторичного аудиопотока.

По рамке AAL (Automation Assurance Level) Adsessor заявляет текущий AAL = L0 (никакого продакшен-деплоя — ничего не работает в клиентских окружениях) и целевой AAL = L4 (самовосстанавливающийся коммерческий агент). Маркетинговый сайт adsessor.app зарегистрирован, но контент там — заглушка до Phase 1. Никаких твёрдых дат для фаз — это честная публичная отчётность о разработке, а не дорожная карта с обязательствами.

Phase 1+ дорожная карта

Ниже описывается, что мы намерены построить, в порядке очерёдности. Каждая дата ориентировочна; каждая фаза открывается только после завершения валидации предыдущей.

Phase 1 — пассивный базовый уровень для Zoom. Завершить валидацию Zoom Meeting SDK. Реализовать уведомление об использовании бота в соответствии с GDPR и требованиями Zoom. Выпустить первую продакшен-версию: Node.js-сервис, присоединяющийся к Zoom-встречам по приглашению хоста, записывающий сырое аудио, генерирующий расшифровку в реальном времени через Whisper или аналогичную модель, сохраняющий расшифровку с диаризацией спикеров и доставляющий пост-колл саммари. Без речи, без видимого агента. Доступ сначала только через Tailscale, затем для ранних тестировщиков.

Phase 2 — Google Meet bridge + живой перевод. Добавить интеграцию через headless Chromium для Google Meet. Реализовать субтитры в реальном времени с наложением перевода — только для хоста, интерфейс остальных участников не меняется. Перевод между английским, русским и испанским, с определением языка на сегмент речи.

Phase 3 — говорящие AI-агенты с ролевыми персонами. Представить персоны архитектора, бизнес-консультанта и юридического консультанта. Каждая персона опирается на поиск Scrutator по приватной базе знаний хоста — не generic LLM, а контекстно-зависимый поиск по документам, вики и прошлым разговорам, которые хост явно проиндексировал. Кросс-встречная память запоминает имена участников, предпочтения и прошлые решения. Агент говорит только по приглашению хоста (push-to-talk или ключевое слово).

Почему мы строим это публично

У Arcanada есть паттерн: сначала публиковать инфраструктуру, потом продукты. Scrutator — движок поиска знаний — с открытым исходным кодом под лицензией MIT. Combateka — обучающая игра — публично доступна. Фреймворк Datarim и методология AAL описаны в публичных постах. Это не случайно: инфраструктура должна быть прозрачной, проверяемой и улучшаемой сообществом.

Adsessor — коммерческий продукт (закрытый исходный код — ландшафт раскрытия ботов и условия SDK платформ делают open-source непрактичным для внутризвонкового агента). Но процесс разработки следует тому же принципу прозрачности. Статус-апдейты, архитектурные решения и честные оценки того, что работает, а что нет, будут публиковаться в этом блоге. Клиенты, оценивающие продукт до MVP, могут следить за процессом и принимать взвешенные решения о том, когда интегрироваться.

Никакого маркетингового шума. Никаких дат релиза, замаскированных под уверенность. Только добротная инженерия, публикуемая по мере продвижения.

Следите за обновлениями на arcanada.ai/blog. Исходный код движка поиска — на github.com/Arcanada-one/scrutator.