Но можете ли вы представить себе, что хедж-фонд с Уолл-стрит решит сжечь миллиарды, чтобы построитьобщий искусственный интеллект? Именно это он и сделал Высокопоставленный, китайский количественный фонд, который превратил весь свой отдел исследований и разработок в ДипСик в 2023 году. Имея гору графических процессоров, накопленных до санкций США, основатель Лян Вэньфэн сделал ставку на исследователей моложе 30 лет и экстремальную оптимизацию.
«Мы ищем не сиюминутную прибыль, а ответы на самые сложные вопросы мира», сказал Лян.
Результатом этой философии является ДипСик-Р1, модель с открытым исходным кодом, которая превосходит OpenAI o1 в математике и логике, используя 1/10 ресурсов от Ламы 3.1. Секрет? «Делать добродетель из необходимости»он объясняет Марина Чжан о 'Университет Сиднея. Не имея доступа к самым передовым чипам Nvidia, DeepSeek произвел революцию в архитектуре моделей, создав алгоритмы которые общаются как джазовый оркестр: мало инструментов, максимум гармонии. И теперь они заставляют богатых (и дорогих тоже) дрожать с точки зрения энергоресурсов) мир западного ИИ.
Молодые гении и патриотизм: секретный (и немного анархический) рецепт
В то время как Google и Мета они нанимают ветеранов (и таланты из-за границы), DeepSeek фокусируется на недавние выпускники Пекина и Цинхуа: мозги жаждут академической славы, а не золотых зарплат. «Мы берем на работу тех, кто завоевал международные награды, даже с нулевым производственным опытом», - признается Лян. Подход, который окупается: команда разработала Многоголовое скрытое внимание, техника что снижает потребление памяти на 40%.
«Они как стартапы 70-х: мало денег, много творчества», — говорит он. Венди Чанг, аналитик компании Институт Меркатора. «Они объединили инженерные приемы: специальные схемы связи, сжатие данных… Известные вещи, но никогда не используемые таким образом».
И есть дополнительный ингредиент: технологический патриотизм. «Это поколение хочет показать, что Китай может внедрять инновации, несмотря на санкции», добавляет Чжан. Образ мышления (более или менее спонтанный), который превращает ограничения в трамплины.
MLA и смесь экспертов: секретное оружие DeepSeek для победы над OpenAI
Что делает DeepSeek-R1 таким эффективным? Три основных фактора:
- Многоголовое скрытое внимание (MLA): сокращает количество избыточных вычислений, концентрируя внимание на ключевых закономерностях.
- Смесь экспертов: активирует только определенные части нейронной сети в зависимости от задачи, как механик, используя только необходимые инструменты.
- Это с открытым исходным кодомПо крайней мере пока. «Это единственный способ догнать Запад», - объясняет Чанг. «Вы привлекаете участников со всего мира, улучшаете модель, создаете экосистему». Победная стратегия: за 2 месяца 20.000 XNUMX разработчиков предоставили код.
Это как двигатель Феррари, который потребляет как Панда.. Обучение DeepSeek-R1 стоит денег Миллион долларов США против i Миллион долларов США из Меты. Разрыв, который заставляет дрожать Силиконовую долину.
Санкции США? Бумеранг (возможно)
Когда США заблокировали экспорт передовых чипов в 2022 году, многие предсказывали крах китайского ИИ. На данный момент DeepSeek доказывает, что изобретательность превосходит оборудование. «Оценки того, что Китай может сделать со своими ресурсами, необходимо пересмотреть», предупреждает Чанг.
Китайская модель? Экстремальная оптимизация + открытый исходный код + технологический национализм. «Если последуют другие, санкции потеряют смысл», - заключает Чжан. Между тем, коды могут быть с открытым исходным кодом, но DeepSeek не отвечает на электронные письма Wired (не говоря уже о наших).
Мы обязательно об этом услышим.