ИИ без ограничений: HelpfulAI — локальный офлайн-ассистент для Windows

HelpfulAI — это настольное приложение для Windows, которое запускает большие языковые модели у вас на компьютере, без учётных записей, подписок и телеметрии. Главная идея — «ИИ без ограничений» подключений к облаку: все ответы генерируются локально, а вы сами выбираете модели, правила и параметры работы.

Что умеет HelpfulAI

Локальный LLM (GGUF + llama.cpp)
Работает с моделями в формате .gguf через llama-cpp-python. Можно подключать любой файл модели: от лёгких 3B до мощных 7–13B и выше (в пределах ваших ресурсов).
Голосовой интерфейс офлайн
TTS на pyttsx3 (синтез речи) и STT на Vosk (распознавание речи без интернета). Кнопки: «Сказать тест», «Включить/Выключить прослушивание».
Правила общения (system prompt)
Отдельная вкладка «Правила» с редактором. Любой текст из rules.txt автоматически подмешивается к запросу — вы задаёте стиль и рамки ассистента. Тут можно прописать любые ограничения, ну или удалить их.
Ваш собственный помощник
Управление моделями
Вкладка «Модели»: выбор папки хранения, скачивание популярных моделей по кнопке, подключение собственного .gguf, вставка пути из буфера, статус активной модели.
Удобный чат
Вкладка «Чат»: диалог, отправка по Enter, правый клик (копировать/вставить), масштабирование шрифта (A-/A+, Ctrl±, Ctrl0), корректный вид на HiDPI-экранах.
Полный офлайн после первичной загрузки
Интернет нужен только для скачивания моделей и русской речи Vosk. Дальше — полностью локальная работа.

Кому пригодится

разработчикам и DevOps — код-подсказки, разбор логов, генерация скриптов;
инженерам и аналитикам — суммаризация текстов, черновики документов;
специалистам по кибербезопасности — в рамках разрешённых и безопасных задач: обучение, разбор отчётов, моделирование защитных сценариев;
студентам и авторам — структуры статей, пояснения, примеры.

Мы выступаем за ответственное использование. HelpfulAI не предназначен для противоправных действий — вы контролируете правила и сценарии в пределах закона и этики.

Поддерживаемые модели (примеры)

Готовые пресеты во вкладке «Модели» + возможность подключить любой .gguf.

Qwen-2.5-7B-Instruct (Q4_K_M) — оптимальный баланс для 16 ГБ RAM/CPU.
Mistral-7B-Instruct v0.2 (Q4_K_M) — быстрый, «универсальный» собеседник.
Также доступны лёгкие варианты: Phi-3-mini, Qwen-2.5-3B, StableLM-3B; для кода — DeepSeek-Coder-1.3B.
При наличии ресурсов можно подключать более крупные модели (Mixtral, Llama-3.x, Qwen-32B/72B и др.).

Системные требования

Минимум: CPU x86_64 (4 ядра), 8–16 ГБ RAM (для 7B-моделей в Q4_K_M), SSD с 10–15 ГБ под модели.
Рекомендуется: 16–32 ГБ RAM.
ОС: Windows 10/11.

Установка и запуск

Скачайте архив приложения и распакуйте в удобную папку.
Запустите MakeItWork_311.bat
— создаст виртуальное окружение, поставит зависимости и соберёт EXE.
Альтернатива для разработки: run_dev.bat (запуск из исходников).
Откройте приложение.
Первая остановка — вкладка «Модели»:
- Выберите папку для моделей (куда будут скачиваться .gguf).
- Скачайте одну из предложенных моделей или подключите свой .gguf (есть кнопка «Вставить путь .gguf» из буфера).
- Нажмите «Загрузить активную модель».
Вкладка «Голос» → «Скачать Vosk RU 0.22» (для STT).
Кнопка «Сказать тест» проверяет TTS; «Включить прослушивание» — офлайн-распознавание.
Вкладка «Правила» — настройте стиль и ограничения (rules.txt) под свои задачи.
Возвращайтесь в «Чат» — пишите запросы, отправляйте Enter.

«ИИ без ограничений»: что это значит на практике

Без облака и подписок. Никаких аккаунтов и сторонних серверов — данные остаются у вас.
Свои правила. Вы формулируете поведение ассистента в rules.txt. Хотите минимум рамок? Сделайте подсказку короткой и нейтральной.
Свои модели. Подключайте именно те .gguf, которые подходят по качеству и ресурсам — от лёгких до продвинутых.
Свои параметры. В config.json можно поднять контекст (llm_n_ctx), длину ответа (gen_max_tokens) и т.д.

Советы по производительности на 16 ГБ RAM/CPU

Выбирайте Q4_K_M квантизацию (лучшее соотношение «качество/память»).
В config.json установите:
```
"llm_n_threads": 4,
"gen_max_tokens": 768,
"gen_temperature": 0.6
```
(Если ответы обрываются — повышайте gen_max_tokens.)
Если нужно быстрее — попробуйте Mistral-7B-Instruct вместо более «тяжёлых» вариантов.
По мере необходимости можно обновить llama-cpp-python до сборки с GPU-оффлоадом и подключить CUDA-версию.

Частые вопросы

Чат «молчит».
Проверьте, что загружен конкретный файл .gguf (в статусе — путь к файлу, а не к папке). Кнопка «Загрузить активную модель» должна показать «Модель загружена».

Голос просит скачать Vosk, хотя скачивал.
В свежей версии путь к модели Vosk хранится в %APPDATA%\\HelpfulAI\\vosk_models и подтягивается автоматически при старте прослушивания. Если что — перезапустите приложение и нажмите «Скачать Vosk RU 0.22» ещё раз (займёт секунды: проверка/обновление пути).

Как «ослабить» рамки модели?
Сократите текст в «Правилах», используйте не-инструкт (base) модели или увеличьте длину ответа. Помните про ответственное использование.

Планы развития

Автообновления и «канал» стабильных сборок.
Аппаратное ускорение (CUDA/OpenCL) и более удобные пресеты под GPU.
Темы оформления и расширенные настройки генерации в GUI.

Итог

HelpfulAI — это действительно «ИИ без ограничений» облака и подписок: приватный, настраиваемый, офлайн-ассистент для каждодневной работы. Выбираете модели и правила — получаете нужный стиль и качество, не передавая данные за пределы своего ПК.

Готовы попробовать? Скачайте архив, выберите папку для моделей, подключите .gguf — и откройте для себя комфорт локального ИИ.