ИИ без ограничений: HelpfulAI — локальный офлайн-ассистент для Windows
HelpfulAI — это настольное приложение для Windows, которое запускает большие языковые модели у вас на компьютере, без учётных записей, подписок и телеметрии. Главная идея — «ИИ без ограничений» подключений к облаку: все ответы генерируются локально, а вы сами выбираете модели, правила и параметры работы.
Что умеет HelpfulAI
- Локальный LLM (GGUF + llama.cpp)
Работает с моделями в формате .gguf черезllama-cpp-python
. Можно подключать любой файл модели: от лёгких 3B до мощных 7–13B и выше (в пределах ваших ресурсов). - Голосовой интерфейс офлайн
TTS наpyttsx3
(синтез речи) и STT наVosk
(распознавание речи без интернета). Кнопки: «Сказать тест», «Включить/Выключить прослушивание». - Правила общения (system prompt)
Отдельная вкладка «Правила» с редактором. Любой текст изrules.txt
автоматически подмешивается к запросу — вы задаёте стиль и рамки ассистента. Тут можно прописать любые ограничения, ну или удалить их.Ваш собственный помощник - Управление моделями
Вкладка «Модели»: выбор папки хранения, скачивание популярных моделей по кнопке, подключение собственного.gguf
, вставка пути из буфера, статус активной модели. - Удобный чат
Вкладка «Чат»: диалог, отправка по Enter, правый клик (копировать/вставить), масштабирование шрифта (A-/A+, Ctrl±, Ctrl0), корректный вид на HiDPI-экранах. - Полный офлайн после первичной загрузки
Интернет нужен только для скачивания моделей и русской речи Vosk. Дальше — полностью локальная работа.
Кому пригодится
- разработчикам и DevOps — код-подсказки, разбор логов, генерация скриптов;
- инженерам и аналитикам — суммаризация текстов, черновики документов;
- специалистам по кибербезопасности — в рамках разрешённых и безопасных задач: обучение, разбор отчётов, моделирование защитных сценариев;
- студентам и авторам — структуры статей, пояснения, примеры.
Мы выступаем за ответственное использование. HelpfulAI не предназначен для противоправных действий — вы контролируете правила и сценарии в пределах закона и этики.
Поддерживаемые модели (примеры)
Готовые пресеты во вкладке «Модели» + возможность подключить любой .gguf
.
- Qwen-2.5-7B-Instruct (Q4_K_M) — оптимальный баланс для 16 ГБ RAM/CPU.
- Mistral-7B-Instruct v0.2 (Q4_K_M) — быстрый, «универсальный» собеседник.
- Также доступны лёгкие варианты: Phi-3-mini, Qwen-2.5-3B, StableLM-3B; для кода — DeepSeek-Coder-1.3B.
- При наличии ресурсов можно подключать более крупные модели (Mixtral, Llama-3.x, Qwen-32B/72B и др.).
Системные требования
- Минимум: CPU x86_64 (4 ядра), 8–16 ГБ RAM (для 7B-моделей в Q4_K_M), SSD с 10–15 ГБ под модели.
- Рекомендуется: 16–32 ГБ RAM.
- ОС: Windows 10/11.
Установка и запуск
- Скачайте архив приложения и распакуйте в удобную папку.
- Запустите
MakeItWork_311.bat
— создаст виртуальное окружение, поставит зависимости и соберёт EXE.
Альтернатива для разработки:run_dev.bat
(запуск из исходников). - Откройте приложение.
Первая остановка — вкладка «Модели»:- Выберите папку для моделей (куда будут скачиваться
.gguf
). - Скачайте одну из предложенных моделей или подключите свой
.gguf
(есть кнопка «Вставить путь .gguf» из буфера). - Нажмите «Загрузить активную модель».
- Выберите папку для моделей (куда будут скачиваться
- Вкладка «Голос» → «Скачать Vosk RU 0.22» (для STT).
Кнопка «Сказать тест» проверяет TTS; «Включить прослушивание» — офлайн-распознавание. - Вкладка «Правила» — настройте стиль и ограничения (
rules.txt
) под свои задачи. - Возвращайтесь в «Чат» — пишите запросы, отправляйте Enter.
«ИИ без ограничений»: что это значит на практике
- Без облака и подписок. Никаких аккаунтов и сторонних серверов — данные остаются у вас.
- Свои правила. Вы формулируете поведение ассистента в
rules.txt
. Хотите минимум рамок? Сделайте подсказку короткой и нейтральной. - Свои модели. Подключайте именно те
.gguf
, которые подходят по качеству и ресурсам — от лёгких до продвинутых. - Свои параметры. В
config.json
можно поднять контекст (llm_n_ctx
), длину ответа (gen_max_tokens
) и т.д.
Советы по производительности на 16 ГБ RAM/CPU
- Выбирайте Q4_K_M квантизацию (лучшее соотношение «качество/память»).
- В
config.json
установите:"llm_n_threads": 4, "gen_max_tokens": 768, "gen_temperature": 0.6
(Если ответы обрываются — повышайте
gen_max_tokens
.) - Если нужно быстрее — попробуйте Mistral-7B-Instruct вместо более «тяжёлых» вариантов.
- По мере необходимости можно обновить
llama-cpp-python
до сборки с GPU-оффлоадом и подключить CUDA-версию.
Частые вопросы
Чат «молчит».
Проверьте, что загружен конкретный файл .gguf
(в статусе — путь к файлу, а не к папке). Кнопка «Загрузить активную модель» должна показать «Модель загружена».
Голос просит скачать Vosk, хотя скачивал.
В свежей версии путь к модели Vosk хранится в %APPDATA%\\HelpfulAI\\vosk_models
и подтягивается автоматически при старте прослушивания. Если что — перезапустите приложение и нажмите «Скачать Vosk RU 0.22» ещё раз (займёт секунды: проверка/обновление пути).
Как «ослабить» рамки модели?
Сократите текст в «Правилах», используйте не-инструкт (base) модели или увеличьте длину ответа. Помните про ответственное использование.
Планы развития
- Автообновления и «канал» стабильных сборок.
- Аппаратное ускорение (CUDA/OpenCL) и более удобные пресеты под GPU.
- Темы оформления и расширенные настройки генерации в GUI.
Итог
HelpfulAI — это действительно «ИИ без ограничений» облака и подписок: приватный, настраиваемый, офлайн-ассистент для каждодневной работы. Выбираете модели и правила — получаете нужный стиль и качество, не передавая данные за пределы своего ПК.
Готовы попробовать? Скачайте архив, выберите папку для моделей, подключите .gguf
— и откройте для себя комфорт локального ИИ.