Нейросетка на 24 гиговой видеокарте
https://github.com/tloen/alpaca-lora
Например на такой
https://aliexpress.ru/item/1005003573435869.html
Но ей нужна продувка воздухом, в ней вентиляторв нет
Обожаю когда сравнивают возможности моделей 13B и 175B (GPT 3.5). Аналог чата GPT локально запустить пока что вообще не получится. Во первых из за того что все опенсорсные модели базируются на открытой GPT 2 и слитой версии нейронки от Фейсбука, на основе которой получилась Lama, эти модели просто дообучают для каких-то определённых целей, датасета уровня GPT3 и выше у рукоделов просто нет. Во вторых из за необходимого размера памяти, максимальный размер опенсорсных моделей на данный момент 65B, и для локального запуска таких тебе понадобится от 64Гб памяти. Чтобы запустить это дело на видеокарте, нужен будет целый серверный стенд, так что обычно их грузят в ОЗУ и выполняют на процессоре, оочень медленно. (хотя я бы глянул видос про запуск Альпаки 65В на видеокартах)
Насчёт того почему угабога выдаёт ошибку при загрузке модели 30B, возможно просто не хватает памяти. Попробуй добавить флаги --auto-devices и --gpu-memory 23
Опционально ещё можно --disk
У меня 30B Alpaca занимает где-то 28 Гб оперативки.
Алсо можно попробовать запустить через Kobold.cpp, он сейчас активно развивается и вроде бы даже может в видеокарты, а багов и траблов с запуском там значительно меньше, чем в угабоге.
Mautoz Tech
1. Очевидно, что люди называют опенсорсные модели аналогами ChatGPT, потому что все остальные знают про ChatGPT, а названия опенсорсных моделей видят впервые. Да и в она является аналогом ChatGPT в плане функционала, пусть и не дотягивает по качеству. Тем не менее, многие задачи она решать способна.
2. В угабоге я багов не встретил. Работает адекватно, хотя сам интерфейс мне не сильно нравится.
3. Тут в комментах человек предлагал на видеоядре Райзена запускать модели которые весят больше 24 гб, но мне пока больше интересно автоматизировать перевод видео на англ, да и Ryzen 5600G я продал
Хотелось бы написать по поводу запуска 30b нейросети. Сообщение планирую сделать большим, поэтому если кратко - нужен файл подкачки порядка 100 гб. Теперь подробнее. Сам недавно сталкивался с проблемой запуска 30b нейросети, долго не мог понять, в чем проблема. Как оказалось позже, она все это время была в оперативной памяти. Тут правда многое зависит от того, через какую библиотеку загружать GPTQ модель (лучший, на мой взгляд, способ - ExLLama, там и оперативной памяти задействовалось если не изменяет память 43 гб, и скорость генерации лично у меня выше чем в случае с GPTQ-For-LLama в 2 раза). AutoGPTQ и GPTQ-For-LLama задействовали как раз около 100 гб оперативной памяти. Вообще там история с ошибками и AutoGPTQ довольно интересная - когда оперативной памяти не хватает сильно (16 гб, файл подкачки отсутвовал), практически сразу вылетает Failed To Allocate CPU Memory (помню я тогда еще удивлялся и думал, что это он на CPU запускать планирует). Потом (16 гб RAM + 65 гб файл подкачки) ошибка пропала, но весь скрипт спустя какое-то время загрузки просто вылетал без каких-либо сообщений об ошибке. И наконец когда был выставлен размер файла подкачки 150 гб, нейросеть успешно загрузилась. Использовал я Wizard-Vicuna-30B-gptq, no groupsize (ей вроде бы приписывается 97% качества ChatGPT, хотя думаю квантование до 4 бит эти ее возможности несколько понизило). Она вроде бы сейчас лучшее, что возможно запустить на 24 гб видеопамяти (расход видеопамяти - чуть меньше 20 гб через GPTQ-For-LLama и 20,8 гб через ExLLama). LLaMa-2 34B еще не вышла в открытый доступ, а в возможности LLaMa-2 13B противостоять 30B модели я не особо верю (хотя в два раза увеличенный размер контекста - очень весомый аргумент).
Сейчас этот раздел просматривают: 1 гость