Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

0

Оглавление

  • Архитектурные особенности
  • Архитектура вычислительных ядер
  • Исполнительные блоки INT и FP
  • Подсистема кэша и памяти
  • Пропускная способность кэша и памяти
  • Тестирование производительности
  • Тестовые системы и условия
  • Синтетические тесты
  • Рендеринг
  • Работа с медиаданными
  • Обработка изображений
  • Криптографические тесты
  • Сжатие и распаковка
  • Компиляция и разработка
  • Высокопроизводительные вычисления
  • Молекулярная динамика
  • Машинное обучение
  • Энергопотребление
  • Выводы

Пожалуй, это самое необычное тестирование процессора на нашем сайте если не за всё время, то уж точно за последние несколько лет. Мы все давно привыкли к настольным ПК и ноутбукам на основе архитектуры x86, а ведь существуют и другие вычислительные архитектуры для универсальных процессоров — можно вспомнить ту же ARM в исполнении Huawei, да и компания Qualcomm совсем недавно в очередной раз выпустила свои решения, причем даже на основе операционной системы Windows, к которым мы еще вернемся по возможности. А еще раньше была распространена архитектура MIPS, хотя и совсем не так широко, как x86, завоевавшая в итоге бо́льшую часть рынка настольных и мобильных ПК.

В последнее время появляется всё больше процессоров с другими архитектурами, и этому есть несколько причин. Во-первых, ARM постепенно доросла до возможностей и мощности, которые требуются для создания полноценных современных настольных ПК и мощных мобильных решений вроде ноутбуков. Но еще важнее то, что китайские компании в последние несколько лет заметно продвинулись в разработке и выпуске собственной микроэлектроники, включая и универсальные и графические процессоры. И один из наиболее интересных универсальных процессоров китайского производства — Loongson 3A6000, который мы и рассмотрим сегодня.

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

Для начала стоит пояснить, почему у Китая вдруг возникла такая необходимость, почему бы им просто не покупать популярные во всем мире процессоры, выпускаемые AMD и Intel? Всё просто: сейчас всё большее значение приобретают вычислительные возможности, это важнейшая сфера современной экономики во всем мире. И у какой из стран больше таких возможностей и мощностей, та имеет определенные преимущества в разработке прогрессивных методов в различных сферах деятельности человека. Вычислительные возможности используются буквально везде, как в серверных, так и на столах и в ваших карманах. И для того чтобы не зависеть от других стран, крайне желательно иметь собственные возможности по проектированию и производству достаточно мощных и продвинутых микрочипов для их применения в своей же экономике.

Особенно это важно, когда другие мощные силы в мире сопротивляются тому, чтобы твоя страна получила как можно больше таких возможностей. В частности это касается и Китая, который давно вкладывает значительные средства в собственные компании по проектированию и производству процессоров, универсальных и специализированных. Мы уже писали о графических процессорах Moore Threads китайской разработки, настало время и универсальных вычислителей, на которых основаны ноутбуки, настольные ПК и серверы. Одним из таких примеров, созданных в Китае, является продукция Loongson — лидирующей компании этой сферы в стране. Существуют и другие китайские процессоры — основанные на архитектуре ARM решения Phytium и Huawei, о которых мы поговорим позднее.

В последние годы приоритетом для Китая является снижение зависимости от западных полупроводников, а в идеале — полная технологическая автономия и самодостаточность. К этому они стали стремиться во многом из-за наложенных на страну санкций США, которые запрещают продажу китайцам не только передовых микрочипов, но и технологий их производства, и даже само производство на западных фабриках (той же TSMC) было ограничено. Еще несколько лет назад США стали с опаской относиться к растущей технологической мощи Китая, которая была подкреплена ростом экономики, поэтому американцы ввели торговые ограничения для микроэлектронной промышленности, фактически запретив сотрудничество с Китаем. Естественно, азиаты восприняли экспортные ограничения в качестве угрозы своему экономическому развитию и росту мирового влияния и начали действовать.

Сейчас китайским компаниям запрещен доступ к новейшим западным технологиям, что замедляет разработку и производство их собственных микрочипов. Крупнейший поставщик инструментов для производства микроэлектроники — компания ASML — имеет экономические связи и с США, и с Китаем, и экспортные ограничения западной стороны напрямую влияют на глобальную полупроводниковую промышленность и экономику. Но Китай может найти (и уже находит) альтернативные варианты для развития технологий, также они инвестируют большие средства в собственные исследования и разработки по производству микроэлектроники. И хотя китайские фабрики еще очень далеки по возможностям от лидеров мировой индустрии, вроде тайваньской TSMC, дистанция между ними постепенно сокращается, и полупроводниковая война между США и Китаем может продлиться десятилетия.

Китай постепенно переходит на собственные технологии по производству микроэлектроники, открывая возможности для полностью местных производителей, таких как Loongson. Этот проект является частью новой политики страны по снижению зависимости от иностранных технологий, это один из лидеров китайской процессорной индустрии. В прошлом году они выпустили долгожданный процессор Loongson 3A6000, который, по мнению китайцев, примерно соответствует по количеству исполняемых инструкций за такт (IPC) решениям архитектуры AMD Zen 3, а также соответствующим процессорам компании Intel. Так это или нет — мы сегодня проверим, но выбора у Китая нет, им приходится развивать собственную промышленность.

Китайское правительство планирует постепенно заменить процессоры Intel и AMD отечественными аналогами в государственных учреждениях — министерство промышленности и информационных технологий Китая запланировало полную замену чипов иностранного производства в сетях и инфраструктуре китайских телекоммуникационных операторов к 2027 году. Крупнейшие телекоммуникационные компании Китая (China Mobile, China Telecom и China Unicom) находятся под государственным управлением и имеют тысячи иностранных процессоров в своих центрах обработки данных — со временем все они должны быть заменены на полностью отечественные разработки.

Таким образом, Китай постепенно отказывается от иностранных чипов в правительственных учреждениях, заменяя их китайскими. Китайские компании и правительство закупают тысячи ПК на базе отечественных процессоров для школ и рабочих применений. Компьютеры на основе процессоров Loongson и другие разработки не только используют собственное аппаратное обеспечение, но и работают под управлением отечественных операционных систем — UOS и Loongnix, основанных на Linux. В комплекте с системами поставляется и набор программного обеспечения для различных нужд, включая офисные приложения и специализированное ПО для образовательных учреждений. Кроме поставки аппаратного обеспечения, Loongson участвует и в разработке обучающих программ для китайских школ.

Компания Loongson Science and Technology, поддерживаемая Китайской академией наук, была создана более десяти лет назад и выпустила уже несколько серий процессоров, в том числе Loongson нескольких поколений. Она была известна и ранее, предыдущие процессоры получили определенное распространение, но не такое широкое, поскольку влияние санкций еще не было существенным. В 2022 году у них появились серверные модели Godson 3C5000 и 3C6000 с 16 ядрами, а позже вышел 32-ядерный 3D6000, включающий сразу два кристалла 3C6000 на одной подложке. Затем компания анонсировала более современный 3A6000, который отличается большим скачком в производительности на такт по сравнению с прямым предшественником 3A5000, уже обеспечивавшим весьма неплохую производительность на такт, но всё же недостаточно продвинутым и производительным для конкуренции с лучшими процессорами.

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

Так что потребовалась разработка более мощного процессора Loongson 3A6000, наиболее производительного решения компании для настольных ПК. Еще в начале прошлого августа китайский производитель сообщил, что четырехъядерный процессор нового поколения Loongson 3A6000 успешно производится, а в ноябре 2023 года он был представлен официально — как процессор, предназначенный для выполнения различных задач, включая типичные домашние и офисные. Это полностью самостоятельная разработка с набором инструкций и 64-разрядной микроархитектурой на основе MIPS64, но доработанной китайскими инженерами под собственные нужды. Также CPU имеет модуль аппаратного шифрования TPM и двухканальный контроллер оперативной памяти с поддержкой памяти DDR4-3200.

В день запуска процессора Loongson 3A6000 сразу более 50 партнеров компании анонсировали выход компьютеров, ноутбуков, плат, устройств хранения данных, оборудования сетевой безопасности и других продуктов на основе нового CPU. А с недавнего времени на китайских торговых площадках стало возможно купить Loongson 3A6000 в составе готовой системы или установленным на системную плату в двух вариантах. Первый вариант — плата с припаянным 3A6000, без установленной памяти и возможности разгона, а второй — плата известной компании Asus с некоторыми возможностями для разгона, о которых мы расскажем во второй части этого материала, посвященной практическим особенностям работы процессора. Мы решили разделить чисто тестовую часть и обзор тонкостей работы с Loongson с общими размышлениями на тему.

Тут же нам остается поговорить об ожидаемой производительности Loongson 3A6000. Производителем сразу было заявлено, что производительность их процессора сопоставима со скоростью вычислений четырехъядерного процессора Intel Core 10-го поколения, выпущенного в 2020 году — Core i3-10100. И действительно, судя по некоторым тестам (первая оговорка), процессор Loongson 3A6000 по производительности на такт (вторая оговорка) может соперничать с аналогичными четырехъядерными процессорами Intel и AMD. Так, в однопоточном тесте SPECint CPU 2006, процессор 3A6000 набрал 43,1 балла, а в SPECfp CPU 2006 — 54,6 балла. Это примерно такая же производительность, как у процессоров Intel Core предыдущих поколений, но лишь при равной тактовой частоте 2,5 ГГц. Равная тактовая частота позволяет сравнить показатели IPC, так как SPEC CPU универсален, в нем 3A6000 особенно хорош в целочисленном тесте, хотя в тесте с плавающей запятой впереди процессоры Intel. В тесте SPEC CPU 2017 результаты 3A6000 сравнительно неплохие даже с учетом отставания по тактовой частоте:

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

Как видим, отставание от процессоров Intel и AMD сохраняется даже по оценкам самой компании-производителя, хотя ожидалось, что по скорости вычислений на такт этот процессор достигнет уровня Core 11-го поколения и Zen 3, но реальность оказалась несколько хуже. 3A6000, работающий на частоте 2,5 ГГц, лишь в выборочных тестах может быть чуть быстрее модели Core i3-10100, работающей на частоте 3,6 ГГц, но список таких тестов невелик. В любом случае, если сравнивать Loongson 3A6000 с предшествующей моделью 3A5000, однопоточная производительность нового CPU увеличилась на 60%, а многопоточная еще больше, и это впечатляет, но всё же во многом обусловлено эффектом низкой базы. А главное — это всего лишь некоторые из тестов производительности, пусть и из списка общепризнанных. Мы же захотели проверить Loongson и в других тестах — в том числе куда менее распространенных.

Если китайцы действительно достигли уровня IPC, аналогичного пусть и не самым новым, но достаточно современным решениям Intel и AMD, то это уже впечатляющее достижение, ведь спроектировать эффективную архитектуру не так уж просто, нужно всё правильно реализовать. Отдельно отметим, что IPC — это лишь половина дела, также многое решает тактовая частота, и предел в 2,5 ГГц не слишком впечатляет по современным меркам. Максимальная тактовая частота 3A6000 — это даже не половина от турбо-частот, на которых могут работать современные ядра решений конкурентов, и поэтому реальным соперником для китайского CPU действительно является что-то вроде Core i3-10100 — но даже он имеет тактовую частоту в 4,3 ГГц и нередко оказывается быстрее. А увеличить частоту китайцам мешает не только сама архитектура, но и технологическое отставание китайских полупроводниковых производств, и тут сама Loongson поделать ничего не может, к сожалению. Но давайте посмотрим, чего они добились в разработке собственных процессоров.

Архитектурные особенности

Итак, процессор Loongson 3A6000 — это улучшенная версия более раннего процессора 3A5000. Если 3A5000 имеет четыре ядра и четыре потока и работает на частоте 2,5 ГГц, потребляет до 35 Вт и поддерживает память DDR4-3200, то более новая версия отличается поддержкой многопоточности и повышенным максимальным энергопотреблением, хотя и сохраняет ту же рабочую тактовую частоту — довольно скромную по современным меркам.

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

Как и процессор 3A5000, выпущенный еще три года назад, модель 3A6000 производится по техпроцессу 12 нм, тут никаких изменений не произошло. Размер самого кристалла, по данным коллег, составляет порядка 116 мм² (11,6×10 мм) — что даже меньше, чем у 3A5000 с его 142 мм². При этом новый CPU содержит вдвое больше кэша первого уровня, а L2-кэш имеет тот же объем 4 МБ в пересчете на каждое ядро.

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

Рассматриваемый нами сегодня процессор основан на собственной архитектуре LoongArch — последнем поколении архитектуры Godson, появившейся в 2022 году, а перед этим компания выпустила несколько процессоров на основе архитектуры MIPS — сначала не совсем легально, как это нередко бывает в азиатской стране, но несколько лет назад китайский институт официально купил лицензии на использование MIPS32 и MIPS64 у MIPS Technologies. Еще в начале века вышел первый процессор Loongson с 32-битной архитектурой MIPS32, затем было несколько 64-разрядных процессоров, включая многоядерные модели с архитектурными расширениями и даже двоичной трансляцией x86-кода.

В расширениях были собственные наборы инструкций общего назначения, расширения виртуализации, инструкции для ускорения двоичной трансляции x86 и ARM, а также векторные расширения для 128-битных SIMD. Всё это привело к появлению уже собственной микроархитектуры LoongArch в 2021 году — вместе с выходом процессоров Loongson 3 серии 5000. Сами разработчики описывают ее как RISC-архитектуру, похожую на MIPS и RISC-V. То есть это 64-разрядная микроархитектура на основе MIPS64, но доработанная китайскими инженерами под собственные нужды при помощи добавления собственных инструкций. Техническая документация не слишком подробная, из нее следует, что разработчики убрали устаревшие инструкции, чтобы получить более эффективное устройство, а дополнительно к базовому набору добавили инструкции 128-битной расширенной векторной обработки LSX, 256-битные инструкции расширенной векторной обработки LASX и инструкции расширения виртуализации LVZ, а также инструкции для двоичной трансляции LBT.

Loongson 3A6000 использует более новые ядра LA664 по сравнению с LA464 в 3A5000. Новые вычислительные ядра были серьезно переделаны, хотя архитектура осталась прежней. LA664 отличается более глубоким конвейером с бо́льшим количеством исполнительных блоков и поддержкой многопоточного исполнения (SMT), что дополнительно повышает производительность в современных многопоточных задачах при довольно небольших затратах на проектирование. В итоге рассматриваемый четырехъядерный процессор основан на четырех вычислительных ядрах LA664 с поддержкой технологии многопоточности — как и современные модели AMD и Intel, он поддерживает вдвое больше вычислительных потоков (логических ядер): восемь штук на процессор. Добиться правильной работы SMT не так уж просто, те же AMD и Intel не сразу пришли к достаточно эффективным технологиям, а работу китайской компании можно оценить по тому, что по сравнению с предшественником 3A5000 однопоточная производительность модели 3A6000 увеличилась на 32%, а многопоточная — на 84%.

64-битное суперскалярное процессорное ядро LA664 поддерживает 128/256-битные векторные инструкции, внеочередное выполнение инструкций, имеет четыре целочисленных блока и четыре векторных блока. Каждое ядро процессора содержит 64 КБ кэша инструкций и 64 КБ кэша данных первого уровня, а также 256 КБ кэша второго уровня. Все ядра процессора используют общий для них кэш третьего уровня объемом 16 МБ.

Архитектура вычислительных ядер

LA664 — ядро с возможностью внеочередного исполнения (out-of-order) команд и достаточно широкими возможностями переупорядочивания инструкций, и в этом оно если не на равных, то вполне конкурентоспособно на фоне ядер Intel и AMD недавнего прошлого. Хотя ядро LA664 и основано на предыдущем ядре LA464, которое применялось в модели Loongson 3A5000, оно может одновременно исполнять большее количество инструкций и имеет многочисленные важные доработки.

Блок предсказания ветвлений в 3A6000 имеет неплохие возможности по их распознаванию и является лучшим для китайских процессоров — он точно намного лучше, чем в 3A5000, и недалек по своим возможностям от процессоров Intel и AMD пары поколений назад. Хотя Loongson еще не может соревноваться с Zen 3 и более новыми решениями, но китайская компания добилась значительного прогресса по сравнению с предсказателем ветвлений в 3A5000, и улучшение этих возможностей в рассматриваемом процессоре Loongson во многом и привело к росту производительности по сравнению с его предшественником.

Судя по результатам тестов, предсказатель ветвлений 3A6000 неплохо справляется с работой даже в таких непростых случаях, как сжатие информации — не хуже уровня Zen 1 как минимум, а скорее даже примерно как Zen 2. Конечно, новейшая архитектура Zen 4 еще намного лучше, но прогресс в Loongson 3A6000 по сравнению с 3A5000 очевиден. Как только предсказатель инструкций определяет, в каком направлении движется дело, в работу вступает кэш инструкций, чтобы прокормить ядро данными. Как и у предшественника, в 3A6000 есть достаточно большой кэш инструкций первого уровня 64 КБ, что весьма неплохо при сравнении с лишь 32 КБ аналогичного кэша у конкурентов AMD и Intel. Этот кэш кормит данными декодер в полтора раза более производительный по сравнению с 3A5000.

В процессе внеочередного исполнения инструкций на этапе переименования и выделения находятся слоты в очередях и буферах для отслеживания состояния инструкций, и более сложные структуры позволяют ядру предсказывать поток инструкций дальше, что скрывает задержки и улучшает поиск параллелизма на уровне инструкций, и в этом Loongson 3A6000 достаточно хорош, обеспечивая заметный шаг вперед по сравнению с 3A5000. Также в более новом CPU увеличили регистровые файлы и очереди памяти — на четверть и более. В LA464 был недостаточный по объему буфер ветвления, что было исправлено в LA664.

Большие буферы внеочередного исполнения очень важны для повышения производительности в однопоточном режиме, но еще важнее хорошо настроенная технология одновременной многопоточности (SMT), которая распределяет имеющиеся ресурсы CPU между несколькими потоками — в случае Loongson это два потока на ядро, как и у AMD с Intel. Китайские разработчики выбрали консервативный вариант реализации SMT со статически разделенными ресурсами — регистровыми файлами, очередями загрузки и хранения. Поскольку 3A6000 — первый процессор компании с поддержкой SMT, это вполне логичный вариант.

Исполнительные блоки INT и FP

По сравнению с предыдущей моделью блоки целочисленного исполнения 3A6000 почти не изменились, разве что вполовину выросла производительность планировщика, что приводит к более эффективному использованию исполнительных блоков ALU. 3А6000 имеет те же четыре канала ALU, способные выполнять распространенные инструкции, два из них могут обрабатывать ветвления, а два — целочисленные умножения. По организации это похоже на Zen 2, но у Loongson два канала для целочисленных умножений по сравнению с одним в решении AMD, который, однако, имеет больше возможностей планирования.

Loongson 3A5000 уже имел 256-битные векторные возможности при помощи расширения LASX, но лишь в простой реализации с двумя 256-битными конвейерами. В модели 3А6000 была проведена глобальная модернизация этих блоков: у нее есть четыре конвейера, каждый из которых может обрабатывать 256-битные упакованные сложения, что обеспечивает высокую производительность операций с плавающей запятой, ведь x86-процессоры обычно могут выполнять только два 256-битных упакованных сложения с плавающей запятой за цикл.

Но хотя Loongson добавили дополнительные каналы, пиковая пропускная способность операций умножения-сложения с однократным округлением (FMA) осталась неизменной, и LA664, как и LA464, может выполнить лишь одну операцию FMA за цикл, что дает вдвое меньшую пропускную способность по сравнению с Zen 2 или Skylake. Как и в случае с целочисленными блоками, возможности планировщика увеличилась на 50%, что должно обеспечить прирост производительности операций с плавающей запятой, и вместе с дополнительными каналами исполнения это делает 3A6000 весьма производительным процессором в векторных нагрузках и операциях с плавающей запятой.

Подсистема кэша и памяти

Грамотно спроектированная иерархия кэша и памяти жизненно важна для обеспечения данными современного высокопроизводительного процессора, и хотя в 3A6000 сохранилась иерархия кэша из предыдущей модели, небольшие улучшения китайцы всё же сделали, снизив задержки и сократив этапы конвейера доступа к данным в кэше. Так, задержка доступа к данным из кэш-памяти первого уровня снизилась с четырех до трех циклов — это особенно полезно при не слишком высокой частоте Loongson по сравнению с куда более высокочастотными западными процессорами.

В современных CPU есть кэш второго уровня (L2), который используется для того, чтобы изолировать промахи кэша первого уровня от высокой задержки кэша третьего уровня. В 3A6000 используют L2-кэш объемом 256 КБ, как в старых архитектурах Intel, хотя в более новых процессорах AMD и Intel применяют L2-кэши уже большего размера: в Zen 4 он имеет объем 1 МБ, а в Raptor Lake — 2 МБ. И хотя в 3A6000 не реализовали более крупный L2-кэш по сравнению с предшественником, для него также получилось снизить задержку — с 14 до 12 циклов. Что касается кэша третьего уровня, то 3A6000 и 3A5000 имеют довольно большой L3-кэш объемом в 16 МБ, общий для всех четырех ядер — как и в Zen 2, к примеру. В 3A6000 также снизилась задержка L3-кэша на пару циклов — возможно, из-за ускорения проверки L2-кэша.

В 3A5000 был далеко не лучший контроллер памяти DDR4 с большими задержками, в 3A6000 он был значительно улучшен, так что задержка доступа к оперативной памяти снизилась со 144 нс до 104 нс, хотя даже это не слишком хорошо по современным меркам. Фактические значения задержки получаются высокими, так как Loongson работает на вдвое более низкой тактовой частоте по сравнению с современными процессорами AMD и Intel, и для конкурентоспособности LA664 это плохо. В итоге китайский CPU получается медленнее на каждом уровне кэша и поэтому в реальных применениях проигрывает даже старенькому Zen 2, несмотря на то что имеет отличные возможности по переупорядочиванию команд и в целом более высокий показатель количества исполняемых за такт инструкций.

Пропускная способность кэша и памяти

Помимо задержек, важна и пропускная способность памяти, которая также влияет на производительность, особенно в случае современных многопоточных приложений. Модель 3A6000 во многом унаследовала иерархию памяти своего предшественника, хотя и с некоторыми улучшениями. 3A5000 уже имел пропускную способность для кэша первого уровня на цикл как у Skylake или Zen 2, а 3A6000 улучшил возможности при помощи удвоения пропускной способности при записи — L1-кэш для данных обслуживает два 256-битных доступа за цикл при операциях чтения или записи, и в результате 3A6000 имеет отличный показатель пропускной способности даже несмотря на низкую тактовую частоту CPU. В этом смысле сравнить с LA664 можно ядро Golden Cove, также имеющее пропускную способность L1 в 512 байт на цикл.

Кэш второго уровня в LA664 объемом 256 КБ слабо отличается от того, что было у предшественника: полоса пропускания при чтении и записи равна 21-22 байта на цикл, и по этому параметру 3A6000 имеет меньшую пропускную способность L2 за цикл по сравнению с современными западными процессорами, особенно если сравнивать с процессорами Intel, имеющими 64 байт за цикл. А вот пропускную способность L3-кэша увеличили на треть — до 18 байт за цикл, что позволяет относительно свежему Loongson конкурировать со старыми процессорами Intel, хотя в процессорах AMD реализация кэш-памяти третьего уровня еще лучше.

Мы уже писали, что Loongson 3A5000 имел плохой DDR4-контроллер, и в 3A6000 он намного лучше. Заявлена поддержка DDR4-3200, но на практике нам удалось добиться стабильной работы с такой скоростью памяти лишь в одноканальном режиме, а при работе с двумя каналами 3A6000 обеспечивал лишь режим DDR4-1800/DDR4-1866. Впрочем, у других исследователей память в двухканальном режиме работала и на частоте 2133 МГц, так что это скорее вопрос совместимости с конкретными модулями, а настроек работы с памятью в BIOS Setup просто нет. Так или иначе, по современным меркам процессор 3A6000 имеет довольно посредственную производительность работы с памятью.

И всё же модель 3A6000 оказалась примерно на 38% производительнее предшественника в однопоточном режиме, а в многопоточных нагрузках разница между 3A6000 и 3A5000 еще больше — ведь старый CPU не поддерживает SMT. Подобные технологии нужны для того, чтобы более полно загружать конвейер и имеющиеся исполнительные блоки CPU. И в многопоточном режиме SMT обеспечивает 3A6000 ускорение примерно на 20%-30% по сравнению с вариантом без SMT, хотя у конкурентов прирост от аналогичных технологий может достигать 40%, так что китайцам еще есть над чем поработать. Если не учитывать разницу в рабочей частоте, то Loongson выступает почти на равных с пусть и не самыми новыми, но всё же довольно производительными решениями AMD и Intel. Но такой результат достигается лишь в отдельных тестах, проведенных специалистами самой компании, а что бывает в более широком наборе ПО, мы сегодня проверим.

На мероприятии по запуску процессора Loongson было объявлено о доступности трех моделей процессора, рассчитанных на разные сферы применения: модель LS3A6000-HV ориентирована на серверный рынок и высокопроизводительные системы, LS3A6000-LL — на рынок настольных ПК, а LS3A6000M — на рынок мобильных устройств, но в физическом воплощении все эти чипы одинаковы и имеют одинаковые FCBGA-корпуса 35×35 мм при 1190 контактах. Тактовая частота составляет от 2,0 ГГц до 2,5 ГГц в зависимости от модели, также отличаются напряжение и максимальное энергопотребление: от 30 до 80 Вт.

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

Контроллер памяти Loongson 3A6000 поддерживает два канала DDR4-3200 и коррекцию ошибок ECC. Для ввода-вывода в CPU есть контроллер HyperTransport 3.0 с максимальной скоростью 6,4 Гбит/с, совместимый со стандартами HT 1.0 и HT 3.0 с рабочими частотами 200—800 МГц и 1000—3200 МГц соответственно. Для управления энергопотреблением процессор поддерживает динамическое отключение тактового сигнала основного модуля, динамическое преобразование частоты основного тактового сигнала, динамическое регулирование напряжения основного домена. Для упрощения интерфейса ввода-вывода процессор 3A6000 может работать только в однопроцессорной конфигурации, физическая ширина адреса шины Loongson 3A6000 ограничена 44 битами.

В паре с процессором работает чипсет 7A2000, который содержит графическое ядро LG110 с поддержкой разрешения 1920×1080 при частоте в 120 Гц или до 4K при 30 Гц — по HDMI и VGA, также есть поддержка OpenGL 2.1 и OpenGL ES 2.0. Поддерживается 32 канала PCIe 3.0, четыре порта SATA600, четыре USB 3.0 и восемь USB 2.0. Вполне достаточные для ПК начального уровня возможности расширения и вывода информации на экран.

Тестирование производительности

Тестовые системы и условия

При тестировании мы использовали как готовый китайский ПК, собранный на основе процессора Loongson 3A6000, который содержит перечисленный ниже набор аппаратного обеспечения, так и системную плату компании Asus с напаянным на нее процессором, комплектным воздушным кулером и дополнительным набором комплектующих.

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности
Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

  • Процессор: Loongson 3A6000 (4 ядра/8 потоков, 2,5 ГГц)
  • Система охлаждения: малогабаритные воздушные кулеры
  • Системные платы:
    • PNXC PN-L530A (чипсет 7A2000)
    • Asus XC-LS3A6M (чипсет 7A2000)
  • Оперативная память:
    • 16 ГБ (2×8 ГБ) DDR4-3200 CL16
    • 16 ГБ (1×16 ГБ) DDR4-3200 CL22
  • Видеокарты: встроенная в чипсет LG110 и внешняя AMD Radeon RX 480 (8 ГБ)
  • Накопитель: SSD Kimtigo TP3000 512 ГБ

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

Китайский процессор поддерживает установку памяти стандарта DDR4-3200, как и его предшественник — четырехъядерный и четырехпоточный Loongson 3A5000. Поддерживается двухканальный режим, но имеющиеся у нас комплекты DDR4-памяти в паре заработали только в режиме DDR4-1800/1866 и не более, поэтому большого прироста от конфигурации с двухканальной памятью можно не ждать, хотя мы протестировали и ее, чтобы понять, насколько сильно система упирается в ПСП. Это нужно учитывать, так как в готовой системе PNXC установлен лишь один модуль, работающий в одноканальном режиме, но зато на полной скорости DDR4-3200.

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности
Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

К сожалению, никаких настроек частоты и таймингов памяти в настройках BIOS Setup нет совсем, системная плата самостоятельно выставляет их все, не давая ни регулировать, ни выбрать имеющиеся XMP-профили — это просто не поддерживается сравнительно молодой платформой. Кроме встроенной в чипсет видеокарты самой Loongson, мы использовали также и единственную подходящую модель компании AMD — Radeon RX 480, но лишь для дополнительных тестов из второй части статьи. Почему именно эту видеокарту — также объясним в практической части.

Выбрать конкурентов для Loongson 3A6000 было непросто, решений вроде Core i3-10100 у нас уже нет в наличии, поэтому мы взяли минимальную конфигурацию из имеющихся у нас систем на основе процессоров Intel и AMD: Core i3-12100 с памятью DDR5, а также «Ryzen 5 1500X» — мы «эмулировали» данную модель при помощи процессора Ryzen 7 1700, выставив в BIOS Setup режим 2+2 ядра, ведь в четырехъядерном процессоре Ryzen 5 1500X заблокирована как раз половина ядер, да не в одном блоке CCX, а отключены по паре ядер в каждом из них, что позволило процессору сохранить весь объем в 16 МБ L3-кэша, зато оставило узкое место в виде сниженной скорости передачи данных между ними по Infinity Fabric. Также для полноценной имитации четырехъядерного Ryzen первой серии мы выставили соответствующий лимит энергопотребления, и у нас получился почти полноценный Ryzen 5 1500X.

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности
Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

Для процессоров Ryzen и Core мы использовали имеющиеся тестовые системные платы и типичную для них память с настройками из XMP-профилей, а ограничения процессоров по потреблению энергии — в соответствии с их спецификациями. Также мы решили протестировать Core i3-12100 еще и при постоянной частоте 2,5 ГГц — отключив все технологии повышения частоты вроде Turbo Boost и Thermal Velocity Boost, а также выставив лимит потребления ниже. То же самое сделали и с имитированным нами Ryzen 5 1500X, изменив его множитель для работы на постоянной частоте в 2,5 ГГц и отключив технологии повышения частоты, вроде Precision Boost Overdrive (см. скриншот).

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности
Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

В итоге получились точно такие же CPU, но ядра которых всегда работают на частоте 2,5 ГГц — как у китайского процессора. С помощью пары Core и Ryzen со сниженными до уровня Loongson частотами мы поймем, насколько хорошей получилась архитектура китайского процессора и насколько он близок к пусть и не самым новым CPU Intel и AMD, но всё же достаточно производительным решениям не такого уж давнего прошлого при равной тактовой частоте. Это позволит сравнить так называемый показатель IPC — производительность на такт, или количество исполняемых за такт инструкций.

Если говорить о программной стороне вопроса, то пока что выпущены две полноценные версии операционных систем с официальной поддержкой архитектуры LoongArch: Loongnix и UOS. Но уже есть тестовые сборки российской ALT Linux, а со временем поддерживаемых систем станет еще больше. Попавший к нам готовый ПК имел предустановленную операционную систему UOS на базе Linux, но мы также использовали в тестах и Loongnix — на второй системе, основанной на плате Asus. Чтобы все процессоры были в более-менее равных условиях, мы тестировали Ryzen 5 и Core i3 под управлением x86-совместимой версии UOS. Возможно, другие версии Linux и/или Windows дали бы лучшие результаты для x86-процессоров, эту вероятность тоже нужно учитывать.

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

А вот выбрать тестовое ПО оказалось совсем непросто. Привычные для нас тесты и методики мы использовать не могли по понятным причинам — Loongson в принципе не работает под управлением Windows за неимением поддерживаемой версии, а привычного ПО нет уже под Linux. Поэтому для такого разового тестирования мы решили использовать пакет Phoronix Test Suite, использовав как можно большее количество тестов из него, в принципе работоспособных на LoongArch64.

Это также было очень непросто, потому что какие-то тестовые пакеты вообще не предназначены для этой архитектуры и попросту не работоспособны на ней, другие используют библиотеки и другие оптимизации исключительно архитектуры x86-64, и не собираются на других CPU. И даже если в коде нет жесткой привязки к архитектуре, то могут возникнуть проблемы со сборкой, и даже если их решить, то выбранное ПО может не работать корректно, не выдавая результатов вовсе или завершая работу теста с ошибкой. Так что имеем то, что имеем — лишь те тесты из пакета, которые запустились на системе с Loongson в принципе. К слову, часть из них может использовать двоичную трансляцию x86-кода, а не родной код, но определить это сходу не так уж просто.

Синтетические тесты

Производительность памяти и системы кэширования

Для начала посмотрим, насколько эффективным получился контроллер памяти и система кэширования данных у китайских инженеров. К сожалению, для всех процессоров использовались разные условия, ведь к единым их привести сложно, да в этом и нет особого смысла, так как процессор Intel поддерживает память DDR5, а AMD и Loongson — лишь DDR4, причем китайский процессор ни в какую не захотел работать в двухканальном режиме DDR4-3200 с имеющимися у нас наборами такой памяти. А вот с одной планкой в этом режиме он вполне нормально работал, хотя разница между одноканальной DDR4-3200 и двухканальной DDR4-1866 далека от двукратной.

CacheBench

  Read, MB/s Write, MB/s Read/Modify/Write, MB/s
Loongson 3A6000 DDR4-3200×1 6351 38036 62670
Loongson 3A6000 DDR4-1866×2 6355 38074 62898
Core i3-12100 3.3 GHz 16368 82602 128042
Core i3-12100 2.5 GHz 9520 48036 74466
Ryzen 5 1500X 3.5 GHz 9254 44095 83291
Ryzen 5 1500X 2.5 GHz 6360 31470 59445

Первым будет тест пропускной способности подсистемы кэширования и оперативной памяти CacheBench — часть пакета LLCbench, которая измеряет пропускную способность при чтении, записи и в смешанном режиме чтения, изменения данных и их записи. Судя по всему, на результат больше влияет пропускная способность кэшей, чем оперативной памяти, так как разницы между одноканальным и двухканальным режимом Loongson не обнаружено.

Хорошо видно преимущество процессора Intel во всех режимах, что неудивительно — он самый новый и с применением даже не самой быстрой памяти DDR5-5200 оказался примерно вдвое быстрее по работе с кэшем и памятью по сравнению с китайским Loongson, да и Ryzen был чуть ли не в полтора раза быстрее китайского CPU в этом тесте — у него то с двухканальным режимом памяти проблем нет.

Но столь заметная разница отмечается лишь в режиме полной частоты Core i3-12100 и Ryzen 5 1500X, а с приведением ее к общему знаменателю в 2,5 ГГц, китаец не просто сравнился с процессором AMD, но и опередил его — получается, что он работает с кэшем лучше устаревшего Zen 1 с таким же количеством ядер. А вот догнать приведенный к постоянной частоте в 2,5 ГГц процессор Core i3 не получилось, он оказался примерно на уровне полноскоростного Zen 1. Но в целом пока что результаты у Loongson не самые плохие.

MBW

  Copy 128 MiB, MiB/s Copy 4096 MiB, MiB/s Copy Fixed 128 MiB, MiB/s Copy Fixed 4096 MiB, MiB/s
Loongson 3A6000 DDR4-3200×1 8065 8506 7765 8449
Loongson 3A6000 DDR4-1866×2 8655 9861 8406 9726
Core i3-12100 3.3 GHz 16395 16313 11764 11662
Core i3-12100 2.5 GHz 12633 12692 9340 9289
Ryzen 5 1500X 3.5 GHz 14394 14797 7433 8795
Ryzen 5 1500X 2.5 GHz 13582 13872 6916 8173

Второй бенчмарк Memory BandWidth (MBW) — довольно простой тест пропускной способности оперативной памяти для операций копирования, в нем есть несколько режимов, отличающихся объемом данных и режимом копирования — мы выбрали объем в 128 МБ и 4 ГБ. В этом случае уже больше должна сказываться именно пропускная способность оперативной памяти, а не кэша, так как двухканальный режим даже с DDR4-1866 имеет преимущество перед одноканальным DDR4-3200, пусть и не слишком большое из-за сниженной частоты памяти в первом случае.

Что касается сравнения с условными конкурентами давно ушедших лет, то и тут Core i3-12100 снова быстрейший, что объясняется во многом применением DDR5-памяти, но и Ryzen 5 1500X оказался явно быстрее китайского процессора — но лишь в первом режиме копирования, а с фиксированным размером блока Loongson в двухканальном режиме даже побыстрее процессора семейства Zen 1 — и это очень неплохой результат с учетом памяти всего лишь DDR4-1866.

RAMspeed

  Average Integer, MB/s Average Float, MB/s
Loongson 3A6000 DDR4-3200×1 11716 11549
Loongson 3A6000 DDR4-1866×2 13321 13171
Core i3-12100 3.3 GHz 37662 37899
Core i3-12100 2.5 GHz 34653 34778
Ryzen 5 1500X 3.5 GHz 22705 24916
Ryzen 5 1500X 2.5 GHz 21895 24184

RAMspeed — это тест производительности оперативной памяти, мы использовали два режима средней скорости передачи данных в двух форматах: целочисленном и с плавающей запятой. В этом тесте также важнее пропускная способность именно оперативной памяти, потому что разница между режимами с одним и двумя каналами оказалась довольно ощутимой — в пользу второго варианта, естественно, хоть и со сниженной частотой памяти.

Это не помогло Loongson 3A6000 в этом тесте даже просто приблизиться к любому из пары представленных в сравнении решений западных компаний многолетней давности — и Core i3-12100 и Ryzen 5 1500X оказались значительно быстрее китайского процессора даже при условии приведения их частоты к 2,5 ГГц, максимально доступным для Loongson. Последний оказался вдвое-втрое медленнее своих условных конкурентов в этом тесте ПСП.

Stream

  Copy, MB/s Scale, MB/s Triad, MB/s Add, MB/s
Loongson 3A6000 DDR4-3200×1 15901 19408 17950 17872
Loongson 3A6000 DDR4-1866×2 19699 22436 21708 21914
Core i3-12100 3.3 GHz 58831 58440 58246 58203
Core i3-12100 2.5 GHz 57357 54315 53573 53588
Ryzen 5 1500X 3.5 GHz 38177 24664 28568 28719
Ryzen 5 1500X 2.5 GHz 38147 24612 28518 28640

Ну и последний тест в этом разделе называется Stream — это еще один популярный бенчмарк для тестирования оперативной памяти, предлагающий четыре различных варианта измерения пропускной способности. Причем именно ОЗУ, как показали результаты Loongson в двух режимах с разным количеством каналов памяти.

И тут мы снова ничего особенно хорошего для китайского CPU отметить не можем — разве что во втором режиме он приблизился к Ryzen 5 1500X, но в остальных весьма далек и от процессора AMD и от более мощного решения Intel с памятью DDR5, который и стал быстрейшим в сравнении по понятным причинам. А китайский CPU всё же пока не догнал устаревшие западные процессоры по эффективности контроллера памяти.

Синтетические и общие тесты

Чисто синтетические тесты производительности из различных пакетов могут быть интересны для оценки низкоуровневой производительности в специализированных задачах, хотя некоторые из них претендуют и на определенную универсальность. Эта группа тестов показывает относительную производительность CPU в разных применениях и сценариях.

Core latency

  Min core latency, ns Average core latency, ns Max core latency, ns
Loongson 3A6000 DDR4-3200×1 31,24 97,88 107,61
Loongson 3A6000 DDR4-1866×2 31,22 95,78 108,29
Core i3-12100 3.3 GHz 21,27 74,72 101,53
Core i3-12100 2.5 GHz 74,88 120,13 192,61
Ryzen 5 1500X 3.5 GHz 47,13 167,7 274,33
Ryzen 5 1500X 2.5 GHz 65,94 190,81 300,1

Core-Latency — тест для измерения задержек между всеми комбинациями ядер процессора, показывает минимальное, среднее и максимальные значения. Больше всего интересны его результаты при чиплетной организации ядер или группировке ядер в блоки, а также в многопроцессорных системах, когда задержки между ядрами очень сильно отличаются.

Понятно, что в двухканальном и одноканальном режимах работы DDR4-памяти результаты практически не отличаются. По ним хорошо видно, что кристалл Loongson 3A6000 монолитный, и отличия по задержкам между ядрами не слишком велики — почти как у монолитного же Core i3-12100, хотя и несколько хуже — но в случае приведенного к 2,5 ГГц частоте преимущество уже за китайским CPU. Процессор Ryzen 5 1500X тут явно в отстающих — его подводит чиплетная организация, и мы уже говорили выше, что активные ядра в этой модели размещены в двух разных чиплетах, а не в одном, поэтому и задержки так велики, особенно средняя и максимальная.

EEMBC CoreMark

  it/s
Loongson 3A6000 DDR4-3200×1 113258
Loongson 3A6000 DDR4-1866×2 114771
Core i3-12100 3.3 GHz 212087
Core i3-12100 2.5 GHz 129218
Ryzen 5 1500X 3.5 GHz 139047
Ryzen 5 1500X 2.5 GHz 99400

EEMBC CoreMark — это набор синтетических тестов для измерения производительности процессоров и микроконтроллеров, он был создан для замены старого известного теста Dhrystone. Содержит реализации алгоритмов поиска и сортировки данных, матричные операции, подсчет контрольной суммы и др. Результат отображается в виде единственного значения в количестве повторений за секунду, удобного для сравнения разных систем.

От скорости памяти результат зависит слабо, и Loongson в этом тесте не так уж далек от Ryzen 5 1500X, работающего даже на полной частоте в 3,5 ГГц. А уж если ее для процессора AMD снизить до уровня китайского процессора — 2,5 ГГц, то Loongson справляется с задачей явно эффективнее процессора поколения Zen 1. Core i3-12100 также быстрее 3A6000 даже на частоте в 2,5 ГГц, а ведь его нормальная частота выше — 3,3 ГГц, что ставит китайский CPU в совсем уж неловкое положение с его почти вдвое более худшим результатом.

Swet

  Mops/s
Loongson 3A6000 DDR4-3200×1 327,6
Loongson 3A6000 DDR4-1866×2 321,8
Core i3-12100 3.3 GHz 1119,7
Core i3-12100 2.5 GHz 661,4
Ryzen 5 1500X 3.5 GHz 625,3
Ryzen 5 1500X 2.5 GHz 473,2

Swet — еще один синтетический тест производительности центральных процессоров и оперативной памяти, включая многоядерные и многопроцессорные системы. Результат выводится в виде количества операций в секунду. Несмотря на заявленное влияние скорости ОЗУ, между двухканальным и одноканальным режимом памяти в случае Loongson 3A6000 мы не заметили разницы.

А если сравнивать разные процессоры, то китайский CPU выглядит тут весьма слабо — вдвое хуже полноскоростного Ryzen 5 1500X и чуть ли не вчетверо медленнее Core i3-12100, работающего на номинальной частоте! И приведение ее к 2,5 ГГц для западных процессоров не дает возможности догнать даже Ryzen, не говоря уж про быстрейший в сравнении процессор Intel. Похоже, что этот тест не очень хорошо подходит для китайского процессора по каким-то причинам — возможно, он плохо оптимизирован под их архитектуру или выполняется через двоичный транслятор. Компания-разработчик CPU уж точно не возьмет подобные результаты для своих красивых слайдов.

HardInfo

  Blowfish, sec CryptoHash, GiB/s Fibonacci, sec N-Queens, sec Zlib, Himarks FFT, sec Raytracing, sec
Loongson 16GBx1 2,16 0,79 0,64 3,58 1,39 0,87 1,22
Loongson 8GBx2 2,06 1,08 0,63 3,55 1,43 0,83 1,17
Core i3-12100 3.3 GHz 0,65 1,82 0,36 7,90 2,25 0,41 1,14
Core i3-12100 2.5 GHz 1,07 1,04 0,62 12,95 1,36 0,68 1,90
Ryzen 5 1500X 3.5 GHz 1,52 1,17 0,64 5,45 1,37 0,85 1,90
Ryzen 5 1500X 2.5 GHz 2,14 0,80 0,93 7,82 1,01 1,26 2,79

HardInfo — встроенная просмотра информации о системе и оборудовании, а также мониторинга, в которую также входит несколько небольших тестов производительности, охватывающих широкий спектр задач, от трассировки лучей до криптографии. Некоторые результаты даны по времени исполнения, а другие приводятся в неких очках.

Вот тут китайцам есть чему порадоваться, некоторые результаты весьма впечатляют. Отметим, к примеру, трассировку лучей, в которой китайский процессор показал результат лучше полноскоростного Ryzen 5 1500X и фактически на уровне Core i3-12100, работающего на номинальной частоте. Не говоря уже о тесте N-Queens — известная задача по расстановке фигур на шахматной доске, в которой Loongson оказался быстрее всех, а Core i3 наоборот был самым медленным. Возможно, это детали конкретной реализации, впрочем.

Неплохой результат Loongson показал и в тестах CryptoHash (в нем также хорошо видно пользу от двухканального режима памяти), Zlib и Fibonacci — примерно на уровне Ryzen 5 в номинале и как Core i3 на сниженной до 2,5 ГГц частоте. Да и в FFT (вычисление дискретного преобразования Фурье) китайский процессор выступает неплохо — на уровне Ryzen 5 1500X на номинальной частоте 3,5 ГГц, хоть и похуже Core i3-12100 даже при 2,5 ГГц. То есть в среднем Loongson 3A6000 близок к уровню Ryzen 5 1500X на его нормальных частотах, если судить по различным тестам из этого пакета, а вот Core i3-12100 всё же явно побыстрее.

Java SciMark 2

  Composite, Mflops Monte Carlo, Mflops FFT, Mflops Sparse Matrix Multiply, Mflops Dense LU Matrix Factorization, Mflops Jacobi Successive Over-relaxation, Mflops
Loongson 3A6000 DDR4-3200×1 1945 988 268 1259 6296 913
Loongson 3A6000 DDR4-1866×2 2024 989 304 1414 6498 915
Core i3-12100 3.3 GHz 2574 1117 628 3166 5860 2100
Core i3-12100 2.5 GHz 1577 653 355 2190 3467 1220
Ryzen 5 1500X 3.5 GHz 2073 1320 274 2077 5372 1367
Ryzen 5 1500X 2.5 GHz 1584 942 226 1519 4254 980

Это Java-версия тестового пакета научных вычислений SciMark 2.0, который включает различные тестовые алгоритмы, включая метод Монте-Карло, быстрое преобразование Фурье, метод последовательной сверхрелаксации Якоби, операции умножения над разреженными матрицами и LU-разложение матрицы. В этих тестах наблюдается некоторое влияние увеличенной ПСП для двухканального режима, но не для всех алгоритмов.

Настольный вариант Loongson 3A6000 выступил сравнительно неплохо, если сравнивать с замедленными до 2,5 ГГц процессорами AMD и Intel, что говорит о неплохом достигнутом показателе количества исполняемых инструкций за такт, но до полноскоростных версий Ryzen 5 1500X и Core i3-12100 китайскому процессору всё же далековато. Но многое зависит от самих подтестов — в первом из них Loongson вполне достиг уровня Ryzen на номинальной частоте, как и в других.

В методе последовательной сверхрелаксации Якоби и операциях умножения над разреженными матрицами, китайский CPU уступил даже замедленному Ryzen 5 1500X, но в тесте быстрого преобразования Фурье опередил его же при номинальной частоте, а в LU-разложении матрицы вообще стал быстрейшим CPU из тройки протестированных, так что многое зависит от задачи и оптимизации приложения. Главный вывод — по показателю IPC китайский процессор пока что действительно близок как минимум к представителю семейства Zen 1.

Бенчмарк Stress-NG

Это специализированная утилита для проведения комплексного нагрузочного тестирования аппаратного обеспечения большим количеством различных тестов. Так как тестов в этом пакете очень много, мы решили представить эти результаты в более удобном табличном виде, включив только те из них, которые отработали на всех системах:

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

Кстати, в этом тесте мы включили также и результаты Loongson, работающего под управлением другой операционной системы Loongnix (также в двухканальном режиме памяти) — как видите, разница в результатах есть и местами она довольно заметная — вплоть до полуторакратной в отдельных тестах. Вы можете проанализировать таблицу самостоятельно, мы отметим лишь некоторые моменты, сравнив Loongson 3A6000 с парой процессоров западных производителей.

Что сразу бросилось в глаза — очень часто Loongson не уступает Ryzen 5 1500X в режиме сниженной до 2,5 ГГц тактовой частоты и довольно близок к Core i3-12100 в этом же режиме, хотя и чуть проигрывает более современному процессору Intel в среднем. Больше всего проигрышей получилось в задачах, активно использующих матричные вычисления, где требуется использование специализированных SIMD-инструкций для достижения высокой производительности. Скорее всего, этот тест просто не оптимизирован под соответствующие наборы инструкций Loongson, поэтому и результаты китайского процессора в отдельных подтестах порадовать не могут.

Рендеринг

Тесты рендеринга являются одними из самых сложных для современных процессоров из-за многопоточного характера нагрузки при трассировке лучей — современные процессоры при этом стараются поддерживать максимально возможную частоту, потребляют максимум энергии и сильно нагреваются. Производители CPU нередко используют тесты рендеринга для сравнения производительности своих процессоров с решениями конкурента — подобные нагрузки при рендеринге лучше исполняются при большем количестве ядер и потоков.

Rendering

  AOBench, sec C-Ray, sec POV-Ray, sec Smallpt, sec
Loongson 3A6000 DDR4-3200×1 46,2 191,9 125,9 35,1
Loongson 3A6000 DDR4-1866×2 46,0 190,8 124,8 34,9
Core i3-12100 3.3 GHz 25,2 109,1 67,5 16,3
Core i3-12100 2.5 GHz 43,3 179,2 110,9 26,8
Ryzen 5 1500X 3.5 GHz 41,8 149,6 115,1 25,7
Ryzen 5 1500X 2.5 GHz 59,2 210,1 161,3 36,0

Мы решили поместить на одну диаграмму результаты сразу четырех бенчмарков для измерения скорости рендеринга:

  1. AOBench — легковесный рендерер с использованием ambient occlusion, использующий разрешение 2048×2048 пикселей.
  2. C-Ray — простой многопоточный трассировщик лучей для тестирования производительности вычислений с плавающей запятой.
  3. POV-Ray — трассировщик лучей Persistence of Vision.
  4. Smallpt — небольшой рендерер с расчетом глобального освещения методом трассировки пути Монте-Карло, использующий многопоточность при помощи библиотеки OpenMP.

Пропускная способность памяти на результатах не сказалась, скорость рендеринга в режимах с разным количеством каналов памяти почти не отличается. Зато можно сразу отметить, что результаты процессора Loongson 3A6000 в тестах рендеринга оказались довольно впечатляющими — он не только практически не проиграл конкурентам при равной частоте в 2,5 ГГц, что снова показывает действительно хороший показатель количества инструкций, исполняемых за такт, но в части тестов рендеринга был близок и к Ryzen 5 1500X, работающему при номинальной частоте в 3,5 ГГц.

Неудивительно, что Core i3-12100 оказался далеко впереди обоих соперников в нормальном режиме работы при 3,3 ГГц, но даже при снижении частоты до 2,5 ГГц он был всегда быстрее китайского процессора, уступив полноскоростному AMD совсем немного. В любом случае, подобные результаты Loongson 3A6000 можно считать удачными для него, ведь как минимум по показателю IPC он не сильно хуже пусть и уже устаревших, но не таких уж древних процессоров именитых компаний. Мы ожидали худшего, хотя всё еще впереди — у нас будет еще много разнообразных тестов.

Работа с медиаданными

Очередной тестовый раздел рассматривает сразу несколько тестов по обработке медиаданных — фотографий и видеороликов. В основном это вполне практические задачи, вроде кодирования аудио- и видеоданных в специализированные форматы, а также более узкоспециализированные тесты синтеза речи. Подобными задачами нередко занимается большое количество пользователей, так что практические результаты этого раздела довольно важны.

Audio Encoding

  APE, sec FLAC, sec WavPack, sec
Loongson 3A6000 DDR4-3200×1 54,5 71,1 62,8
Loongson 3A6000 DDR4-1866×2 55,2 69,9 62,6
Core i3-12100 3.3 GHz 10,6 16,4 11,3
Core i3-12100 2.5 GHz 18,4 26,8 18,1
Ryzen 5 1500X 3.5 GHz 16,6 29,6 10,9
Ryzen 5 1500X 2.5 GHz 23,3 40,8 15,1

Для начала мы протестировали сжатие аудиоданных в разные форматы: APE, FLAC и WavPack — все форматы специализируются в сжатии звука и подразумевают сжатие данных без потерь. Влияния пропускной способности оперативной памяти на результаты не отмечено, явная зависимость от скорости ОЗУ отсутствует.

Увы, в тестах аудиокодирования Loongson 3A6000 оказался не очень хорош: во всех трех форматах китайский процессор проиграл процессорам AMD и Intel не только на номинальных частотах, но и в замедленных до 2,5 ГГц вариантах. Мало того, отставание от западных процессоров, работающих на той же частоте, было около двух-трех раз, а иногда доходило и до четырехкратного! Вот что значит отсутствие специфических оптимизаций под слабо распространенные процессоры LoongArch. Кто-то скажет, что кодирование аудио — это далеко не самые востребованные задачи в современном мире, и всё равно процесс происходит довольно быстро. Давайте тогда посмотрим другие тесты, связанные с обработкой звука.

Speech Synth

  SynthMark, voices eSpeak, sec
Loongson 3A6000 DDR4-3200×1 552,4 48,3
Loongson 3A6000 DDR4-1866×2 554,0 47,9
Core i3-12100 3.3 GHz 938,4 27,2
Core i3-12100 2.5 GHz 548,1 42,7
Ryzen 5 1500X 3.5 GHz 571,2 39,5
Ryzen 5 1500X 2.5 GHz 411,1 54,9

На этой диаграмме — результаты двух тестов, связанных с синтезом речи и обработкой звука. Google SynthMark — кроссплатформенный тест для измерения производительности CPU в различных нагрузках при обработке аудио в реальном времени. Тест использует модель полифонического синтезатора и измеряет задержку, джиттер и вычислительную пропускную способность. Во втором тесте eSpeak определяется время, необходимое для синтеза речи книги «The Outline of Science» при помощи улучшенного движка eSpeak-NG с выводом аудио в формате WAV.

Разница между двух- и одноканальным режимами памяти отсутствует, поэтому сразу смотрим на сравнительные результаты процессоров. Первый тест показывает очень неплохую форму Loongson 3A6000 — в тесте обработки аудиоданных в реальном времени он оказался на уровне процессора Core i3-12100, работающего на сниженной до 2,5 ГГц частоте и почти достал Ryzen 5 1500X в номинале — это очень хороший результат.

В тесте синтеза речи дела похуже, но всё равно довольно неплохи: китайский процессор быстрее замедленного до 2,5 ГГц Ryzen 5 1500X и чуть медленнее такого же Core i3-12100 — то есть с показателем количества исполняемых за такт инструкций у Loongson действительно всё хорошо, но лишь тогда, когда под эту вычислительную архитектуру сделаны дополнительные оптимизации и используются специализированные инструкции для ускорения потоковой обработки. Если учитывать номинальные частоты западных CPU, то картина снова заметно менее приятная — Core i3 становится уже почти вдвое быстрее.

dAV1d

  Summer Nature 1080p, FPS Summer Nature 4K, FPS
Loongson 3A6000 DDR4-3200×1 166,9 40,6
Loongson 3A6000 DDR4-1866×2 171,5 41,6
Core i3-12100 3.3 GHz 561,4 139,9
Core i3-12100 2.5 GHz 354,3 90,5
Ryzen 5 1500X 3.5 GHz 311,2 76,5
Ryzen 5 1500X 2.5 GHz 237,8 58,8

Dav1d — это высокоскоростной программный декодер видеоданных в формате AV1. С его помощью мы протестировали время декодирования пары видеороликов в этом формате, которые отличаются лишь разрешением изображения: Full HD и 4K. Интересно, что на результате заметно сказались режимы работы памяти — двухканальная память DDR4-1866 работает чуть быстрее одноканальной DDR4-3200.

При декодировании видео формата AV1 вскрылись всё те же проблемы, отмеченные при кодировании аудиоданных — отсутствие должной оптимизации и использования всех имеющихся специальных наборов инструкций для ускорения. В результате в пакете dAV1d скорость декодирования оказалась вдвое ниже, чем у Core i3-12100, да еще работающего на сниженной до 2,5 ГГц частоте, и в полтора раза ниже, чем у Ryzen 5 1500X также в замедленном режиме.

Увы, сравнение при полноценных номинальных частотах процессоров Intel и AMD не оставляет китайскому изделию ни одного шанса — разница между ним и западными образцами достигает уже от 2 до 3,5 раз, так что Loongson 3A6000 в этом бенчмарке ловить нечего. С другой стороны, при типичном пользовании ПК вам редко требуется одновременное декодирование нескольких 4K-роликов в формате AV1, так что типичному домашнему пользователю вполне может хватить и 40 FPS в этом режиме. Но проигрыш есть проигрыш — китайский процессор в этой задаче заметно слабее конкурентов.

x265

  Bosphorus 1080p, FPS Bosphorus 4K, FPS
Loongson 3A6000 DDR4-3200×1 5,3 1,1
Loongson 3A6000 DDR4-1866×2 5,3 1,1
Core i3-12100 3.3 GHz 48,9 10,9
Core i3-12100 2.5 GHz 30,2 6,7
Ryzen 5 1500X 3.5 GHz 24,2 5,4
Ryzen 5 1500X 2.5 GHz 18,0 4,0

Следующий тест — программное кодирование видеоданных на CPU в формат H.265 при помощи распространенного кодировщика x265. Используются также два разрешения: Full HD и 4K. При кодировании видеоданных для поддержания высокой производительности должны использоваться инструкции SIMD, вроде SSE, AVX, AVX2 и AVX-512 в случае x86-совместимых процессоров, и LSX с LASX в случае Loongson.

Вот тут уже никаких высоких показателей FPS не получается, и каждый кадр в секунду — на вес золота. Правда, нужно учитывать, что на современных системах кодированием и декодированием видеоданных чаще уже занимается графический процессор (GPU), но в случае отсутствия такой поддержки приходится отдуваться центральному процессору. Влияния скорости памяти нет, всё зависит чисто от вычислительных возможностей и качества оптимизации под вычислительные архитектуры.

И как раз с последним снова дела не очень, похоже — скорее всего, в тесте попросту отсутствуют оптимизации под архитектуру LoongArch, включая специализированные инструкции, и поэтому сегодняшний герой тут выглядит крайне бледно, уступая выбранным нами для тестов Core i3-12100 и Ryzen 5 1500X очень много — даже при их притормаживании до 2,5 ГГц разница доходит до 5-6 раз, если говорить о процессоре Intel. А уж если сравнивать китайца с западными CPU, работающими на номинальных частотах, то разница оказывается и вовсе ужасающей — 5 и 10 раз в случае процессоров AMD и Intel соответственно. К слову, даже по паре конкурентов видна разница в оптимизации, ведь процессор Intel заметно быстрее чем Ryzen в этом тесте. Но это никак не помогает Loongson, который справляется с кодированием видео крайне медленно.

VVenC

  Bosphorus 1080p Faster, FPS Bosphorus 1080p Fast, FPS
Loongson 3A6000 DDR4-3200×1 1,39 0,64
Loongson 3A6000 DDR4-1866×2 1,40 0,64
Core i3-12100 3.3 GHz 22,08 8,67
Core i3-12100 2.5 GHz 13,75 5,34
Ryzen 5 1500X 3.5 GHz 11,61 4,83
Ryzen 5 1500X 2.5 GHz 8,46 3,48

Рассмотрим еще один аналогичный тест, но еще более требовательный. VVenC — это быстрый и эффективный кодировщик видеоданных в формате H.266/VVC (Fraunhofer Versatile Video Encoder), использующий SIMD Everywhere (SIMDe) — библиотеку, обеспечивающую переносимую реализацию SIMD для различных платформ, которые изначально не поддерживаются. К сожалению, в списке поддерживаемых платформ не значится продукция китайского производителя, так что если на x86-совместимых процессорах будут использоваться все виды наборов инструкций SSE и AVX, и даже на ARM должны работать SIMD-ускоренные операции Neon, то у Loongson снова вероятны проблемы с производительностью.

Так и случилось — задача еще более сложная вычислительно, и без SIMD-инструкций тут делать просто нечего. Налицо разница между кодом, хорошо оптимизированным под x86-процессоры и… хоть как-то работающим на LoongArch. Да, хорошо, что он всё же работает, но отрыв западных моделей процессоров тут уже даже не в 10 раз, а еще больше, если сравнивать китайский процессор с Core i3-12100 на номинальной частоте, да и Ryzen 5 1500X заметно быстрее. Даже в замедленном режиме для процессора AMD разница с Loongson превышает 5-кратную — в пользу первого, разумеется. В общем, китайской компании предстоит сделать еще очень многое для появления оптимизаций под их процессоры в различном ПО, иначе будут наблюдаться вот такие провалы — это неизбежно.

Обработка изображений

Этот раздел тестов в чем-то пересекающийся с предыдущим, но мы решили его выделить. Он посвящен исключительно работе со статичными 2D-изображениями — их обработке, сжатии и распаковке в различных задачах.

G’MIC

  2D Function, sec 3D Volume, sec 3D Elevated Function, sec
Loongson 3A6000 DDR4-3200×1 171,9 35,3 65,4
Loongson 3A6000 DDR4-1866×2 168,5 34,9 64,8
Core i3-12100 3.3 GHz 70,1 15,4 44,1
Core i3-12100 2.5 GHz 116,1 26,2 75,2
Ryzen 5 1500X 3.5 GHz 123,4 28,2 103,6
Ryzen 5 1500X 2.5 GHz 172,1 39,8 145,0

G’MIC — это платформа для обработки цифровых изображений с открытым исходным кодом, предоставляющая возможности преобразования и обработки изображений в различных форматах. G’MIC предоставляет сотни алгоритмов и функций для обработки изображений, поддерживает многопоточность и может использовать OpenMP для ускорения вычислений при помощи распараллеливания нагрузки на несколько ядер.

Результаты даны в секундах, требуемых для завершения каждого из трех тестов. Зависимость от пропускной способности памяти явная, двухканальный режим даже при меньшей частоте дает лучшие результаты скорости обработки изображений. И это помогает процессору Loongson быть в первых двух тестах примерно на уровне Ryzen 5 1500X, работающего на сниженной до 2,5 ГГц частоте, что довольно неплохо. А вот Core i3-12100 при этом заметно быстрее даже в замедленном варианте. Если сравнивать все CPU на их номинальных частотах, то китайский процессор в первых двух тестах — аутсайдер.

А вот третий подтест почему-то выделяется, причем больше всего тем, что процессор Ryzen в нем сильно провалился по скорости относительно двух остальных. И Loongson оказался заметно быстрее старенького четырехъядерного процессора AMD даже при его работе на нормальной частоте. Решение Intel же в номинальном режиме оказалось быстрее чем Loongson, хотя на частоте 2,5 ГГц даже оно отстало от китайского процессора — очень неплохой результат для последнего.

RSVG

  SVG to PNG, sec
Loongson 3A6000 DDR4-3200×1 24,4
Loongson 3A6000 DDR4-1866×2 24,2
Core i3-12100 3.3 GHz 12,2
Core i3-12100 2.5 GHz 19,3
Ryzen 5 1500X 3.5 GHz 20,6
Ryzen 5 1500X 2.5 GHz 28,3

Следующий тест RSVG/librsvg — это библиотека по работе с векторной графикой в формате SVG. Бенчмарк замеряет время конвертации векторной графики в формат PNG (растеризация) — это довольно часто используемая задача в повседневной жизни, встречающаяся при просмотре современных сайтов, например. Понятно, что в тесте используется одна большая картинка, а в реальной жизни их много мелких, но суть одна.

При растеризации векторной графики процессор Loongson 3A6000 также проявил себя довольно неплохо, показав результат между Ryzen 5 1500X и Core i3-12100, работающими на такой же частоте — в 2,5 ГГц, опередив решение AMD и немного отстав от Intel. Увы, заметно более высокие частоты западных процессоров не оставляют ему шанса на победу в реальной жизни, так как на 3,3 ГГц процессор Core i3 уже вдвое быстрее, а Ryzen 5 хоть и немного, но также опережает китайский CPU. Но в целом, повторимся, результат для Loongson хороший.

RawTherapee

  Sec
Loongson 3A6000 DDR4-3200×1 163,5
Loongson 3A6000 DDR4-1866×2 159,9
Core i3-12100 3.3 GHz 61,9
Core i3-12100 2.5 GHz 99,8
Ryzen 5 1500X 3.5 GHz 97,2
Ryzen 5 1500X 2.5 GHz 132,9

Рассмотрим еще один универсальный тест работы с изображениями. RawTherapee — это кроссплатформенная программа для каталогизации и обработки изображений с цифровых фотоаппаратов в формате RAW, аналог Adobe Photoshop Lightroom и Aperture с открытым кодом. В бенчмарке замеряется время обработки и конвертации RAW-файлов — то, чем довольно часто занимаются профессиональные фотографы.

Вот тут, к большому сожалению, процессор Loongson снова подводит отсутствие должной оптимизации конкретно под его систему команд. Скорость конвертации RAW в RawTherapee оказалась очень низкой — хуже, чем у Ryzen 5 1500X на сниженной до 2,5 ГГц частоте, а тот же Core i3-12100 при номинальных параметрах более чем вдвое быстрее китайского CPU. Это не смертельно, конечно, но ситуация довольно нерадостная — если каждый кадр вместо минуты будет конвертироваться целых две, то при большом количестве фотографий вы это быстро заметите.

tjbench

  JPEG decompression, Mpix/s
Loongson 3A6000 DDR4-3200×1 72,5
Loongson 3A6000 DDR4-1866×2 72,8
Core i3-12100 3.3 GHz 242,0
Core i3-12100 2.5 GHz 140,8
Ryzen 5 1500X 3.5 GHz 147,2
Ryzen 5 1500X 2.5 GHz 105,4

Переходим к сжатию и распаковке изображений. tjbench — это бенчмарк для измерения производительности распаковки JPEG-файлов при помощи библиотеки libjpeg-turbo, оптимизированной с использованием SIMD-инструкций современных CPU-архитектур. И снова непонятно, насколько хорошо библиотека оптимизирована под Loongson, хотя добавление поддержки их собственных SIMD-инструкций вроде как было сделано, судя по описанию программы.

Но результаты снова нерадостные для китайского процессора, он и в этот раз отстает от замедленного до 2,5 ГГц процессора AMD, не говоря уже о Core i3-12100. Даже Ryzen 5 1500X на номинальной частоте работает вдвое быстрее Loongson 3A6000, а уж процессор Intel делает работу и вовсе в 3,3 раза быстрее. Вряд ли вам в жизни встретится задача пакетной конвертации большого количества JPEG-файлов, но факт есть факт — китайский процессор и в этой задаче откровенно медленный. Возможно, сказывается недостаток программной оптимизации — главный бич слабо распространенных решений.

OpenJPEG

  JPEG2000 encode, sec
Loongson 3A6000 DDR4-3200×1 78,9
Loongson 3A6000 DDR4-1866×2 78,7
Core i3-12100 3.3 GHz 58,6
Core i3-12100 2.5 GHz 96,0
Ryzen 5 1500X 3.5 GHz 72,9
Ryzen 5 1500X 2.5 GHz 101,3

Переходим к тестам кодирования изображений, которые заметно более требовательны. OpenJPEG — кодек для изображений формата JPEG 2000, и в одноименном тесте используется большое панорамное изображение в виде TIFF-файла объемом 717 МБ, которое конвертируется в формат JPEG2000. Время конвертации приведено на диаграмме в миллисекундах.

А вот тут мы видим уже куда более позитивный результат для Loongson 3A6000. Вероятно, более новое ПО лучше оптимизировано под его набор инструкций, и китайский процессор в этом тесте почти догнал Ryzen 5 1500X, работающий при его нормальной частоте в 3,5 ГГц, а на равных частотах Loongson сильнее. Ну а Core i3-12100 еще быстрее их обоих в номинальном режиме, а вот с приведением его к 2,5 ГГц, снова выигрывает китайский процессор — получается, что по IPC в этом тесте он даже лучше устаревших процессоров AMD и Intel. Довольно неожиданно, но посмотрим на результаты при других форматах сжатия.

Google libwebp

  Default, Mpix/s Quality 100, Mpix/s Quality 100 Lossless Highest, Mpix/s
Loongson 3A6000 DDR4-3200×1 4,5 3,0 0,35
Loongson 3A6000 DDR4-1866×2 4,6 3,0 0,35
Core i3-12100 3.3 GHz 18,8 12,2 0,65
Core i3-12100 2.5 GHz 11,0 7,1 0,39
Ryzen 5 1500X 3.5 GHz 13,3 8,4 0,45
Ryzen 5 1500X 2.5 GHz 9,5 6,0 0,32

Еще один тест сжатия изображений. Этот бенчмарк использует библиотеку Google libwebp для перекодирования изображения в формат WebP при помощи утилиты кодирования cwebp. На вход подается JPEG-файл с разрешением 6000×4000 пикселей и замеряется производительность его перекодирования в WebP — в мегапикселях за секунду.

Похоже, мы снова погрузили Loongson в не самые приятные условия не лучшей оптимизации ПО под его аппаратные возможности. Чем-то другим объяснить абсолютно невыдающиеся результаты китайского CPU в этом тесте не получится. В первых двух подтестах он проигрывает не только Core i3-12100 и Ryzen 5 1500X в полноценных режимах, но и при их замедлении до 2,5 ГГц, и довольно много — до двух раз в лучшем случае.

Да, в подтесте сжатия без потерь результат близок к приведенным к единой частоте процессорам AMD и Intel, но вряд ли это может быть утешением при таком сильном отставании в первых двух подтестах. Ryzen 5 в номинале оказался быстрее китайского процессора в 2,8 раза, а Core i3 — вчетверо! Печальный результат, который может только усугубиться в следующем бенчмарке.

Google libwebp2

  Default, Mpix/s Quality 100 Effort 5, Mpix/s
Loongson 3A6000 DDR4-3200×1 1,56 0,81
Loongson 3A6000 DDR4-1866×2 1,57 0,82
Core i3-12100 3.3 GHz 4,22 2,03
Core i3-12100 2.5 GHz 2,58 1,24
Ryzen 5 1500X 3.5 GHz 2,87 1,35
Ryzen 5 1500X 2.5 GHz 2,06 0,96

Еще один тест, схожий с предыдущим — он использует библиотеку Google libwebp2 для кодирования изображения в формат WebP2, аналогично WebP из предыдущего теста, да и входной файл используется тот же. WebP2 — это экспериментальный формат, который находится в стадии разработки, он поддерживает 10-битный HDR-формат, более эффективное сжатие с потерями и улучшенное сжатие без потерь, а также полноценную поддержку многопоточности.

Собственно, ничего нового можно было и не ждать, и в этом тесте Loongson 3A6000 также показал сравнительно низкие результаты. Но, к нашему удивлению, отставание тут поменьше — если брать номинальные частоты, то Core i3-12100 быстрее в 2,5-2,7 раза, а Ryzen 5 1500X — менее чем вдвое. Но это тоже весьма приличное отставание, и на частоте в 2,5 ГГц рассматриваемый процессор Loongson приближается разве что к старенькому уже решению компании AMD.

Etcpak

  DXT1 (1T), Mpix/s DXT1 (MT), Mpix/s ETC2 (1T), Mpix/s ETC2 (MT), Mpix/s
Loongson 3A6000 DDR4-3200×1 12,1 58,8 12,0 58,6
Loongson 3A6000 DDR4-1866×2 12,1 59,3 12,1 59,2
Core i3-12100 3.3 GHz 266,7 1259,0 264,2 1254,0
Core i3-12100 2.5 GHz 156,3 768,4 154,9 766,1
Ryzen 5 1500X 3.5 GHz 155,3 735,9 153,4 735,7
Ryzen 5 1500X 2.5 GHz 111,3 528,7 110,2 526,6

Ну и последний тест этого раздела — Etcpak — «самый быстрый компрессор ETC на планете», как заявляют его авторы, он максимально быстро сжимает текстуры в форматы ETC и S3. В качестве входного изображения используется текстура с разрешением 8K×8K, она сжимается при помощи одного вычислительного потока и в многопоточном формате.

Сказать, что результаты нас удивили — ничего не сказать. Мы несколько раз их перепроверяли и ничего не изменилось — сжатие текстур этим пакетом на Loongson 3A6000 крайне медленное — более чем на десятичный порядок медленнее по сравнению с процессорами AMD и Intel, с которыми его сравниваем. Вот к чему приводит полное отсутствие оптимизации под определенную вычислительную архитектуру, судя по всему. Разница в скорости составляет порядка 13 и 22 раз, если сравнивать героя статьи с Ryzen 5 1500X и Core i3-12100 соответственно. Остается лишь надеяться, что подобное неоптимизированное ПО будет встречаться пользователям китайских CPU как можно реже, но случай этот запомним для подведения выводов.

Криптографические тесты

Еще один важный раздел тестирования производительности процессоров — криптографические задачи. Современные CPU умеют осуществлять шифрование больших объемов информации на лету, и некоторые из них имеют поддержку специальных инструкций для наиболее распространенных алгоритмов шифрования, таких как AES.

Aircrack-ng

  k/s
Loongson 3A6000 DDR4-3200×1 1810
Loongson 3A6000 DDR4-1866×2 1818
Core i3-12100 3.3 GHz 16163
Core i3-12100 2.5 GHz 9965
Ryzen 5 1500X 3.5 GHz 6622
Ryzen 5 1500X 2.5 GHz 4725

Aircrack-ng — набор утилит, предназначенных для обнаружения WiFi-сетей, перехвата передаваемого через них трафика, а для нас интереснее всего, что и для проверки стойкости ключей шифрования WEP и WPA/WPA2 (иными словами — перебора и взлома соответствующих ключей). В таких тестах важны количество вычислительных ядер и высокопроизводительная архитектура с максимальной тактовой частотой, а не кэш и быстрая память.

Судя по всему, с оптимизацией под LoongArch и в этом случае дела не очень — результаты Loongson 3A6000 оказались более чем втрое хуже, чем у Ryzen 5 1500X и более чем в 8 раз медленнее, чем Core i3-12100, если все процессоры сравнивать на их номинальных частотах. Интересно, что процессор Intel оказался заметно быстрее решения AMD — более чем вдвое, так что и в этой парочке разница ощутима. Ну а китайский CPU в 2,5 раза медленнее даже придушенного Ryzen. Возможно, в других тестах раздела будут иные результаты.

Bork

  sec
Loongson 3A6000 DDR4-3200×1 10,1
Loongson 3A6000 DDR4-1866×2 9,9
Core i3-12100 3.3 GHz 6,3
Core i3-12100 2.5 GHz 10,3
Ryzen 5 1500X 3.5 GHz 10,9
Ryzen 5 1500X 2.5 GHz 15,2

Bork — маленькая кроссплатформенная утилита для шифрования файлов, написанная на Java. Тест измеряет количество времени, затрачиваемое на шифрование файла-примера. Не очень понятен метод шифрования, но аппаратное ускорение шифрования на поддерживающих эту возможность CPU не поддерживается, судя по всему.

И вот в этом случае дела Loongson не столь печальны — возможно, бенчмарк не слишком хорошо оптимизирован ни под одну из вычислительных архитектур. Результат для Loongson очень неплохой, китайский процессор оказался примерно на уровне Core i3-12100, работающего на частоте в 2,5 ГГц, и чуть быстрее процессора Ryzen 5 1500X на его полноценной частоте. В номинале процессор Intel быстрее, конечно же, но Loongson в этот раз показал достойный результат.

Crypto++

  All algo, MiB/s
Loongson 3A6000 DDR4-3200×1 534,8
Loongson 3A6000 DDR4-1866×2 537,1
Core i3-12100 3.3 GHz 2025,5
Core i3-12100 2.5 GHz 1182,7
Ryzen 5 1500X 3.5 GHz 1296,1
Ryzen 5 1500X 2.5 GHz 929,6

Crypto++ — библиотека с открытым исходным кодом для C++, предназначенная для работы с различными криптоалгоритмами. Поддерживается большое количество алгоритмов, также в случае x86-процессоров поддерживается расширение AES-NI. А вот для Loongson вряд ли были сделаны дополнительные оптимизации, так что китайский процессор должен быть в числе отстающих, скорее всего. Мы использовали один общий результат для всех поддерживаемых тестовым ПО алгоритмов.

Увы, но отсутствие оптимизации не могло сказаться иначе — Loongson 3A6000 снова в отстающих. Да, всё не так плохо, как в первом тесте, но порадоваться и тут нечему — китайский CPU в этом тесте почти вдвое медленнее Ryzen 5 1500X, приторможенного до 2,5 ГГц, а Core i3-12100 еще немногим быстрее. Полноценные же версии этих процессоров быстрее примерно в 2,5 и 4 раза соответственно. Так что гордиться китайцам и тут нечем, очередной тест криптографии Loongson провалил.

OpenSSL benchmark

  RSA4096, sign/s SHA512, MB/s
Loongson 3A6000 DDR4-3200×1 361,9 998,5
Loongson 3A6000 DDR4-1866×2 364,3 1006,4
Core i3-12100 3.3 GHz 1408,2 2063,1
Core i3-12100 2.5 GHz 867,4 1256,1
Ryzen 5 1500X 3.5 GHz 750,8 1397,5
Ryzen 5 1500X 2.5 GHz 536,1 999,3

Остался последний шанс в виде OpenSSL — криптографической библиотеки с открытым исходным кодом, хорошо известной из-за расширения SSL/TLS, используемого в веб-протоколе HTTPS. Она поддерживает большинство алгоритмов хеширования, шифрования и популярных криптографических стандартов, мы использовали два варианта: RSA4096 и SHA512, скорость в которых измеряется по-разному — в первом случае в количестве подписей в секунду, во втором — МБ/с.

И в этом случае сравнительная производительность китайского CPU уже повыше. Хотя в первом подтесте рассматриваемая модель Loongson снова оказалась явно медленнее всех, но отставание от конкурентов поменьше — 2 и 3,8 раза от Ryzen 5 1500X и Core i3-12100, работающих на номинальной частоте, соответственно. Снижение частоты процессора AMD до 2,5 ГГц привело к достижению полуторакратной разницы между ним и Loongson 3A6000.

А вот результаты во втором подтесте куда лучше: китайский CPU выступил на уровне замедленного до такой же частоты в 2,5 ГГц процессора Ryzen 5 1500X — то есть хотя бы в этом тесте по показателю IPC он оказался близок к семейству Zen 1. Но Core i3-12100 в очередной раз быстрее их обоих, и в номинальном режиме разница превышает двукратную. И всё же, OpenSSL-бенчмарк можно назвать сравнительно удачным для китайского CPU, особенно на фоне других тестов раздела.

Сжатие и распаковка

Сжатие и распаковка данных в архивах известна большинству пользователей, как и наиболее яркие представители современных архиваторов. Мы воспользовались тестами некоторых из них, в том числе наиболее распространенными на системах Unix/Linux.

Gzip

  Compression, sec
Loongson 3A6000 DDR4-3200×1 55,1
Loongson 3A6000 DDR4-1866×2 55,1
Core i3-12100 3.3 GHz 29,8
Core i3-12100 2.5 GHz 51,1
Ryzen 5 1500X 3.5 GHz 44,7
Ryzen 5 1500X 2.5 GHz 63,0

Gzip — популярный в Unix-системах формат сжатия без потерь методом Deflate (комбинация алгоритмов LZ77 и Хаффмана). Тест измеряет время сжатия двух копий исходных кодов ядра Linux 4.13. Судя по результатам, влияния пропускной способности памяти нет вообще, одноканальный и двухканальный режим показали идентичное время сжатия.

Надо сказать, что Loongson 3A6000 справился с работой очень неплохо — если сравнивать с процессорами AMD и Intel на сниженной до 2,5 ГГц частоте, по крайней мере. В таком режиме китайский CPU оказался несколько быстрее Ryzen 5 1500X и почти достал до Core i3-12100, так что с показателем IPC у Loongson в очередной раз всё довольно неплохо, с учетом его сравнения с уже устаревшими западными CPU, конечно же. Но если позволить конкурентам работать на их номинальных частотах, то Loongson становится уже почти вдвое медленнее процессора Intel, но при этом он всего на 23% медленнее Ryzen 5 1500X — это неплохой результат.

7-Zip

  Compression, MIPS Decompression, MIPS
Loongson 3A6000 DDR4-3200×1 22279 20251
Loongson 3A6000 DDR4-1866×2 23849 20697
Core i3-12100 3.3 GHz 44880 27073
Core i3-12100 2.5 GHz 29177 16620
Ryzen 5 1500X 3.5 GHz 27300 23159
Ryzen 5 1500X 2.5 GHz 21261 16495

Архиватор 7-zip весьма популярен на разных системах и интересен довольно эффективным и требовательным к вычислительной мощности методом сжатия. Еще он любопытен тем, что тест кроссплатформенный и его результаты вполне можно сравнивать и при использовании разных операционных систем. Отметим сразу, что при сжатии есть некоторый прирост в скорости от использования двухканального режима DDR4, так что от ПСП зависимость есть, а при распаковке она гораздо ниже.

В этом тесте результаты рассматриваемого сегодня процессора Loongson смогли удивить. Если говорить о сжатии, то китайский CPU справляется с работой до двух раз хуже, чем полноскоростной Core i3-12100 (и даже его притормаживание до 2,5 ГГц не спасает от проигрыша), но он куда ближе к Ryzen 5 1500X даже при номинальной частоте последнего, а по показателю IPC в этот раз Loongson даже быстрее процессора AMD.

Несколько интереснее распаковка — в этом деле Loongson 3A6000 оказался явно быстрее процессоров AMD и Intel при их работе на сниженной до 2,5 ГГц частоте. То есть показатель количества исполняемых за такт инструкций у китайского CPU чуть выше. Но при этом заметно ниже его рабочая частота, поэтому в нормальном для себя режиме Core i3 и Ryzen 5 оказались быстрее, но уже всего на 30% и 12% соответственно.

LZ4 (L9)

  Compression, MB/s Decompression, GB/s
Loongson 3A6000 DDR4-3200×1 24,6 2,19
Loongson 3A6000 DDR4-1866×2 25,1 2,11
Core i3-12100 3.3 GHz 40,4 4,38
Core i3-12100 2.5 GHz 23,5 2,59
Ryzen 5 1500X 3.5 GHz 27,2 3,21
Ryzen 5 1500X 2.5 GHz 19,4 2,34

Очередной тест сжатия измеряет время сжатия и распаковки образцового файла silesia.tar при помощи алгоритма сжатия LZ4, который относится к семейству методов сжатия LZ77 — это сжатие данных без потерь, ориентированное на высокую скорость сжатия и распаковки. Он сжимает с меньшей степенью сжатия, чем классический gzip, зато по скорости гораздо быстрее. Мы использовали в своих тестах уровень сжатия Level 9, сравнивая скорость сжатия и распаковки.

По скорости сжатия Loongson оказался быстрее Core i3-12100 и Ryzen 5 1500X, работающих на приведенной к 2,5 ГГц частоте, так что с показателем количества инструкций, исполняемых за такт, у китайского CPU всё в порядке. Но из-за меньшей рабочей частоты он снова проиграл конкурентам, работающим в номинальном режиме, хотя отставание от процессора AMD оказалось сравнительно небольшим (при этом Core i3 сразу на 60% быстрее).

Распаковка происходит значительно быстрее, и не зависит от пропускной способности ОЗУ, в отличие от сжатия, и Loongson тут проиграл своим соперникам даже при одинаковой частоте для всех CPU. Неудивительно, что при номинальной частоте Core i3 вдвое быстрее распаковал файл, а Ryzen 5 был быстрее китайского CPU почти в полтора раза.

Zstandard (L19 Long)

  Compression, MB/s Decompression, GB/s
Loongson 3A6000 DDR4-3200×1 4,96 0,707
Loongson 3A6000 DDR4-1866×2 4,87 0,689
Core i3-12100 3.3 GHz 7,26 1,423
Core i3-12100 2.5 GHz 5,08 0,842
Ryzen 5 1500X 3.5 GHz 5,96 0,887
Ryzen 5 1500X 2.5 GHz 4,67 0,645

Очередной тест сжатия измеряет время для сжатия и распаковки всё того же файла-примера silesia.tar при помощи метода Zstd (Zstandard) — это алгоритм сжатия данных без потерь, разрабатываемый при поддержке Facebook, он сочетает словарный алгоритм сжатия данных типа LZ77 и эффективное энтропийное кодирование типа ANS, сходное с кодом Хаффмана. Для тестов мы использовали уровень сжатия Level 19 Long.

Рассматриваемый сегодня Loongson показал производительность сжатия этого формата на уровне между Core i3-12100 и Ryzen 5 1500X, работающими на той же частоте в 2,5 ГГц, так что с IPC всё неплохо и в этот раз. Но так как рабочая частота у конкурентов выше, то они выигрывают — процессор Intel в полтора раза быстрее. С распаковкой всё примерно так же, на приравненной частоте Loongson 3A6000 находится где-то между приторможенными решениями AMD и Intel, а в номинальном режиме соперники быстрее — Ryzen на четверть, а Core — примерно вдвое.

BZIP2

  Compression, sec Decompression, sec
Loongson 3A6000 DDR4-3200×1 31,9 13,6
Loongson 3A6000 DDR4-1866×2 30,8 13,3
Core i3-12100 3.3 GHz 14,0 8,1
Core i3-12100 2.5 GHz 23,3 13,9
Ryzen 5 1500X 3.5 GHz 20,3 12,7
Ryzen 5 1500X 2.5 GHz 27,8 17,8

Еще один известный формат сжатия — многопоточная реализация bzip2, реализация алгоритма Барроуза — Уилера. Сжимает большинство файлов эффективнее, но медленнее по сравнению с традиционными gzip и zip, а для нас важнее всего, что он работает с существенной нагрузкой на CPU и распараллелен в случае современной версии. Бенчмарк измеряет время сжатия и распаковки файла FreeBSD-13.0-RELEASE-amd64-memstick.img методом Parallel BZIP2.

Есть явное влияние ПСП на скорость сжатия, да и производительность распаковки немного от нее зависит. Тут уже дела Loongson похуже, даже при работе всех процессоров на частоте в 2,5 ГГц, китайский процессор проигрывает обоим конкурентам, не говоря уже о полноскоростной работе, когда Core i3-12100 более чем вдвое быстрее сжал файл, а Ryzen 5 1500X оказался в полтора раза быстрее.

С распаковкой повеселее — китайский CPU явно быстрее Ryzen 5 1500X при работе последнего на частоте 2,5 ГГц и даже близок к нему в номинальном режиме, что очень неплохо. И даже процессор Intel в замедленном режиме хоть и совсем немного, но всё же проиграл китайскому Loongson, а вот обычная для него частота приносит уже 64% преимущества. В любом случае, с распаковкой данных у рассматриваемого сегодня процессора всё намного лучше, чем при сжатии.

Unpacking Firefox

  Sec
Loongson 3A6000 DDR4-3200×1 29,29
Loongson 3A6000 DDR4-1866×2 29,01
Core i3-12100 3.3 GHz 18,59
Core i3-12100 2.5 GHz 30,66
Ryzen 5 1500X 3.5 GHz 28,78
Ryzen 5 1500X 2.5 GHz 39,90

Последним тестом раздела будет просто время распаковки архива .tar.xz установочных файлов веб-браузера Mozilla Firefox 84.0. Небольшое влияние пропускной способности памяти на результат есть — около 10%, так что сравниваем конкурентов с работой Loongson в двухканальном режиме.

Firefox распаковывается на китайском CPU значительно быстрее, чем на Ryzen 5 1500X и чуть быстрее, чем на Core i3-12100 — но лишь при их работе на частоте 2,5 ГГц — такой же, как и номинальная для Loongson 3A6000. Так что по показателю количества инструкций, исполняемых за такт, в этом тесте китаец оказался быстрее обоих процессоров AMD и Intel, пусть и довольно старых. Но самое интересное — Loongson оказался на уровне протестированной модели Ryzen в ее номинальном режиме при работе на 3,5 ГГц. А вот Core i3 в полтора раза быстрее обоих соперников, как более новый и продвинутый CPU с поддержкой DDR5-памяти.

Компиляция и разработка

Раздел пусть и не слишком объемный, и даже не самый востребованный — вряд ли среди наших читателей велика доля разработчиков программного обеспечения, но всё же довольно интересный. Ведь Loongson и LoongArch — сравнительно свежие решения и определенный интерес к разработке ПО для них наверняка есть. Проверяем, как у китайского CPU дела с компиляцией кода, сборкой приложений и другими задачами по теме разработки ПО.

Build2

  sec
Loongson 3A6000 DDR4-3200×1 453,8
Loongson 3A6000 DDR4-1866×2 453,4
Core i3-12100 3.3 GHz 187,9
Core i3-12100 2.5 GHz 292,7
Ryzen 5 1500X 3.5 GHz 310,1
Ryzen 5 1500X 2.5 GHz 413,2

Build2 — это кроссплатформенный набор инструментов для сборки кода C/C++. Первый тест раздела измеряет время установки набора инструментов для сборки Bulid2 из исходного кода. Интересно, что влияния пропускной способности на результаты нет, двухканальный режим работы DDR4-памяти не помог в этом случае.

Увы, Loongson 3A6000 хвастать пока особо нечем, и даже если замедлить его соперников до его уровня в 2,5 ГГц, то китайский CPU проигрывает обоим конкурентам. В данном случае показатель IPC явно не на высоте. Разница ожидаемо увеличивается при работе Core i3-12100 и Ryzen 5 1500X в их номинальных режимах, процессор Intel быстрее более чем вдвое, а решение AMD выигрывает у китайского CPU почти полтора раза.

PyBench

  ms
Loongson 3A6000 DDR4-3200×1 1875
Loongson 3A6000 DDR4-1866×2 1874
Core i3-12100 3.3 GHz 611
Core i3-12100 2.5 GHz 1054
Ryzen 5 1500X 3.5 GHz 1338
Ryzen 5 1500X 2.5 GHz 1867

PyBench — тест общей производительности, вызывающий различные функции, реализованные с использованием Python. Подсчитывается общее время результатов теста для таких функций, как BuildinginFunctionCalls и NestedForLoops — общий результат дает приблизительную оценку средней производительности Python в системе.

Вот тут сравнительная скорость Loongson 3A6000 уже чуть получше, хотя смотря с чем сравнивать — китайский процессор показал скорость ровно на уровне замедленного до его частоты Ryzen 5 1500X, так что по IPC они с Zen 1 примерно равны, но ведь этой архитектуре AMD уже много лет. Более свежий Core i3-12100 явно быстрее, даже на частоте 2,5 ГГц сразу на 77%, а в обычном режиме вообще втрое! Процессор AMD не столь шустрый, он «всего лишь» на 40% быстрее, чем Loongson.

Compilation time

  Eigen, sec Erlang, sec
Loongson 3A6000 DDR4-3200×1 115,5 229,8
Loongson 3A6000 DDR4-1866×2 114,8 228,4
Core i3-12100 3.3 GHz 47,3 122,2
Core i3-12100 2.5 GHz 77,6 192,7
Ryzen 5 1500X 3.5 GHz 84,5 185,5
Ryzen 5 1500X 2.5 GHz 115,8 251,2

Завершают этот небольшой раздел сразу два теста времени компиляции: всех примеров из Eigen — библиотеки линейной алгебры C++ и Erlang — языка программирования и среды выполнения для масштабируемых программных систем реального времени. В этих бенчмарках просто замеряется время компиляции указанных проектов, оно выдается в секундах. Влияние ПСП тут хоть и присутствует, но оно невелико и им можно пренебречь.

Процессор Loongson по скорости компиляции двух проектов снова оказался на уровне замедленной до 2,5 ГГц версии Ryzen 5 1500X — это неплохо само по себе и говорит о том, что китайские инженеры догнали по возможностям архитектуру Zen 1. Есть две проблемы — она уже довольно старая, и при этом даже она позволяет CPU работать на куда более высокой частоте. При которой процессор AMD будет на 25%—30% быстрее китайского. Про Core i3 и не говорим, он в 1,9—2,4 раза быстрее в номинальном режиме и на 20%—50% — на приведенной к 2,5 ГГц частоте, так что до современного уровня производительности китайцам еще работать и работать.

Высокопроизводительные вычисления

Наверное, это один из самых неоднозначных разделов тестирования. С одной стороны, именно высокопроизводительные вычисления и предъявляют больше всего требований к мощи процессоров, ну а с другой — вряд ли кто-то всерьез будет использовать процессор, предназначенный для настольных ПК начального уровня, в подобных задачах. Но ведь по скорости Loongson 3A6000 в них вполне можно прикинуть и производительность серверных CPU этой же архитектуры с большим количеством ядер. Мы ведь смотрим в том числе и на то, что в принципе может дать вычислительная архитектура LoongArch, а не конкретный CPU для настольных ПК.

AMG

  Figure of Merit
Loongson 3A6000 DDR4-3200×1 108237133
Loongson 3A6000 DDR4-1866×2 121316367
Core i3-12100 3.3 GHz 370135400
Core i3-12100 2.5 GHz 329665000
Ryzen 5 1500X 3.5 GHz 265814650
Ryzen 5 1500X 2.5 GHz 260647750

Первый тест раздела Algebraic Multi-Grid (AMG) — параллельный алгебраический многосеточный решатель для линейных систем на неструктурированных сетках. На выходе тест дает некое значение, указывающее на итоговую производительность, и чем оно выше — тем выше скорость вычислений. Как и ожидалось от бенчмарков научных вычислений, заметно влияет пропускная способность памяти — у двухканального режима есть явное преимущество, несмотря на сниженную тактовую частоту памяти.

Но увы, даже при двухканальном режиме работы памяти Loongson 3A6000 показывает скорость более чем вдвое ниже по сравнению с замедленным до 2,5 ГГц процессором Ryzen 5 1500X — увы, китайскому изделию по показателю количества выполняемых инструкций за такт в этом тесте похвастать нечем. Правда, Ryzen 5 при работе на частоте 3,5 ГГц не особенно и быстрее, как и скорость Core i3-12100 не сильно отличается при разных частотах — скорее всего, наблюдается упор в скорость работы с памятью. И тут процессор Intel втрое быстрее китайского Loongson.

HPCG

  104 104 104 runtime 60, GFLOP/s
Loongson 3A6000 DDR4-3200×1 1,44
Loongson 3A6000 DDR4-1866×2 1,59
Core i3-12100 3.3 GHz 6,93
Core i3-12100 2.5 GHz 6,12
Ryzen 5 1500X 3.5 GHz 5,29
Ryzen 5 1500X 2.5 GHz 5,06

Тест High Performance Conjugate Gradient (HPCG) решает систему линейных алгебраических уравнений с разреженной квадратной матрицей большой размерности методом сопряженных градиентов с предобуславливателем Гаусса-Зейделя. Реализация алгоритма выполнена с использованием MPI и OpenMP, так что многоядерные CPU поддерживаются.

Наблюдаем заметное влияние ПСП, двухканальный режим работы памяти дал значимый прирост в скорости работы китайской системы. Да и процессоры AMD и Intel при разной тактовой частоте дают слабо отличающиеся показатели производительности — снова налицо упор в пропускную способность памяти. Вот и во втором бенчмарке раздела Loongson нас откровенно не радует — его скорость в 3,3 раза ниже производительности Ryzen 5 1500X и более чем вчетверо он отстает от Core i3-12100!

Himeno

  MFLOPs
Loongson 3A6000 DDR4-3200×1 3169
Loongson 3A6000 DDR4-1866×2 3272
Core i3-12100 3.3 GHz 7660
Core i3-12100 2.5 GHz 4506
Ryzen 5 1500X 3.5 GHz 3782
Ryzen 5 1500X 2.5 GHz 2812

Возможно, в менее требовательных тестах Loongson покажет лучшие результаты. Бенчмарк Himeno — линейный решатель давления Пуассона, использующий точечный метод Якоби. Выдает результирующую производительность в мегафлопах. Налицо явное влияние пропускной способности памяти, но упора в нее нет — процессоры AMD и Intel при разной частоте показывают сильно отличающиеся результаты.

В этот раз Loongson 3A6000 смог оказаться почти на уровне полноскоростного Ryzen 5 1500X, опередив его же в варианте работы на частоте 2,5 ГГц. Так что по сравнению с семейством Zen 1 китайская архитектура в этот раз сработала неплохо. Но если мы берем более новый Core i3-12100 с памятью DDR5, то шансов у китайского CPU не остается, он медленнее соперника, работающего на номинальной частоте, более чем вдвое.

Mocassin

  Dust2D, sec Gas, sec
Loongson 3A6000 DDR4-3200×1 308,9 46,5
Loongson 3A6000 DDR4-1866×2 303,0 44,7
Core i3-12100 3.3 GHz 218,7 23,7
Core i3-12100 2.5 GHz 348,6 38,0
Ryzen 5 1500X 3.5 GHz 337,8 36,8
Ryzen 5 1500X 2.5 GHz 459,0 50,9

Mocassin (Monte Carlo Simulations of Ionised Nebulae) — тест моделирования ионизированных туманностей методом Монте-Карло. Мы используем два варианта теста, один из которых сложнее и дольше выполняется, в результате получая время решения в секундах. Влияние ПСП есть, но не такое большое, как в предыдущих тестах.

Рассматриваемый сегодня процессор китайской компании показал очень хороший результат в этом тесте, выдав скорость быстрее чем Ryzen 5 1500X на частоте 3,5 ГГц в первом случае (более сложном вычислительно) и оказавшись быстрее чем он же на частоте 2,5 ГГц во втором. Так что по показателю IPC Loongson снова неплох, если сравнивать с Zen 1. Более того, даже Core i3-12100 при частоте 2,5 ГГц в подтесте Dust2D оказался чуть медленнее Loongson 3A6000, так что с IPC у китайца действительно всё неплохо, хотя во втором подтесте дела заметно лучше уже у процессора Intel. Ну а его родная частота в 3,3 ГГц не оставляет шансов Loongson, процессор Core i3 всегда быстрее в этом случае, а во втором подтесте — почти вдвое.

NAS Parallel Benchmarks

  3D FFT, Mop/s Embarassingly Parallel, Mop/s
Loongson 3A6000 DDR4-3200×1 2015 100,4
Loongson 3A6000 DDR4-1866×2 2108 100,9
Core i3-12100 3.3 GHz 13960 269,2
Core i3-12100 2.5 GHz 9883 164,1
Ryzen 5 1500X 3.5 GHz 8990 146,0
Ryzen 5 1500X 2.5 GHz 7631 111,5

NAS Parallel Benchmarks (NPB) — тест, разработанный NASA для высокопроизводительных компьютерных систем, который использует несколько различных задач разной сложности и размера. Мы выбрали два варианта из предлагаемых бенчмарком, его результаты выдаются в виде количества операций в секунду (миллионов в секунду). Явное влияние ПСП есть только в первом подтесте.

Процессор Loongson в 3D-варианте быстрого преобразования Фурье (3D FFT) показал очень низкую производительность, указывающую на плохую или отсутствующую оптимизацию под китайскую вычислительную архитектуру. В этом случае 3A6000 оказался вчетверо медленнее Ryzen 5 1500X и более чем в шесть раз медленнее, чем Core i3-12100 — при их работе на своей родной частоте. А вот со вторым тестом китайский CPU справился заметно лучше, показав скорость почти как у Ryzen 5 на частоте 2,5 ГГц — так что по IPC он не слишком хуже Zen 1, но лишь во втором случае. А Core i3 более чем в полтора раза быстрее на пониженной частоте и более чем в 2,6 раза — при номинальной.

Parboil

  CUTCP, sec MRI Gridding, sec Stencil, sec LBM, sec
Loongson 3A6000 DDR4-3200×1 17,5 36,1 58,2 235,6
Loongson 3A6000 DDR4-1866×2 17,1 35,9 46,3 197,2
Core i3-12100 3.3 GHz 7,6 38,9 13,8 62,4
Core i3-12100 2.5 GHz 12,4 65,7 15,0 73,8
Ryzen 5 1500X 3.5 GHz 7,1 65,5 17,0 117,3
Ryzen 5 1500X 2.5 GHz 9,9 83,7 18,4 123,1

Parboil — набор тестов от исследовательской группы Университета Иллинойса для измерения производительности вычислительных архитектур, сценарии Parboil поддерживают многопроцессорные среды OpenMP, OpenCL и CUDA — естественно, мы использовали только OpenMP-вариант в четырех подтестах. Везде подсчитывается время, потраченное на исполнение задачи.

Влияние ПСП есть не во всех подтестах, но в двух последних оно значительное — двухканальный режим работы памяти дает весомый прирост производительности процессора Loongson. Но хватает ли ее для соперничества с условными конкурентами AMD и Intel? Нет, в большинстве тестов ее откровенно мало: подтесты 1, 3 и 4 показывают, что Loongson 3A6000 примерно в 2,5-3 раза медленнее процессоров Ryzen 5 1500X и Core i3-12100. И даже снижение их частоты до 2,5 ГГц не смогло приблизить их скоростные показатели к скорости китайского CPU.

Но мы пропустили второй подтест — MRI Gridding, при вычислении которого Loongson оказался даже быстрее чем Core i3-12100 при работе на его полной рабочей частоте в 3,3 ГГц! И рассматриваемый сегодня китайский процессор в этом случае был чуть ли не вдвое быстрее Ryzen 5 1500X, работающего при номинальной частоте. Возможно, тест некорректно исполняется на Loongson, но вполне может быть, что в нем что-то чудесным образом подошло для быстрого исполнения именно этого алгоритма.

Rodinia

  CFD Solver, sec LavaMD, sec Streamcluster, sec HotSpot3D, sec
Loongson 3A6000 DDR4-3200×1 57,3 811,3 96,6 750,8
Loongson 3A6000 DDR4-1866×2 51,7 806,8 79,4 746,5
Core i3-12100 3.3 GHz 24,9 385,8 15,5 67,2
Core i3-12100 2.5 GHz 38,8 639,7 19,3 113,8
Ryzen 5 1500X 3.5 GHz 43,6 676,0 25,2 118,1
Ryzen 5 1500X 2.5 GHz 56,8 948,1 29,8 164,4

Rodinia — пакет для ускорения ресурсоемких приложений при помощи CUDA, OpenMP и OpenCL. Как и в предыдущем тесте, мы использовали только OpenMP-вариант — из-за принципиального отсутствия возможности ускорения вычислений на GPU. Результат четырех подтестов выводится в секундах, чем меньше время исполнения, тем лучше. Явное влияние ПСП на результаты наблюдалось в половине подтестов — первом и третьем.

Что касается сравнительной скорости Loongson 3A6000 по отношению к его условным конкурентам в виде Core i3-12100 и Ryzen 5 1500X, то в первом и втором подтестах китайский CPU показал скорость чуть быстрее Ryzen при сниженной до 2,5 ГГц частоте, но уступил полноскоростному Core i3 более чем вдвое. То есть при неплохом показателе IPC сегодняшнему герою явно не хватает частоты, как и всегда.

В третьем подтесте китаец был в 5 раз медленнее Core i3-12100 на полной частоте и в более чем втрое уступил Ryzen 5 1500X в номинале. А в последнем отставание Loongson увеличилось до 11 и 6 раз соответственно — это очень большой недостаток производительности, явно указывающий на большие проблемы программной оптимизации под сравнительно новую вычислительную архитектуру.

Молекулярная динамика

В целом, эти тесты также относятся к высокопроизводительным вычислениям, которые мы уже рассмотрели в предыдущем пункте (да и вычислительная гидродинамика частично и там тоже была), но мы решили вынести их в отдельный подраздел, так как их получилось довольно много.

CloverLeaf

  clover_bm, sec
Loongson 3A6000 DDR4-3200×1 376,9
Loongson 3A6000 DDR4-1866×2 328,7
Core i3-12100 3.3 GHz 97,9
Core i3-12100 2.5 GHz 123,8
Ryzen 5 1500X 3.5 GHz 163,7
Ryzen 5 1500X 2.5 GHz 186,9

CloverLeaf — это тест гидродинамики по методу Лагранжа-Эйлера, используется версия OpenMP для многопоточных процессоров. Мы взяли самый простой расчет clover_bm, в результате работы теста выдается время на его исполнение в секундах. Влияние ПСП на результат ощутимое, добавление второй планки DDR4 заметно повысило производительность даже при не лучшем контроллере памяти в Loongson.

Собственно, продолжается история из предыдущего раздела — Loongson 3A6000 обычно не очень хорошо показывает себя в вычислительно сложных задачах, по крайней мере пока — сказывается недостаток оптимизации ПО под его особенности. В итоге китайский CPU оказался на 75% медленнее придушенного до 2,5 ГГц процессора Ryzen 5 1500X, а уж полноскоростная версия решения AMD и вовсе вдвое быстрее. Процессор Core i3-12100 же сразу в 3,3 раза производительнее рассматриваемой модели китайского производства.

Dolfyn

  sec
Loongson 3A6000 DDR4-3200×1 31,7
Loongson 3A6000 DDR4-1866×2 31,3
Core i3-12100 3.3 GHz 13,6
Core i3-12100 2.5 GHz 23,5
Ryzen 5 1500X 3.5 GHz 22,2
Ryzen 5 1500X 2.5 GHz 31,1

Dolfyn — бенчмарк современных методов численного моделирования вычислительной гидродинамики (CFD). Тест измеряет время выполнения демонстрационных программ вычислительной гидродинамики, поставляемых в комплекте — выводится время, потраченное на расчеты. Влияние ПСП в этом тесте небольшое, а вот частота CPU заметно сказывается на результатах.

В этом тесте Loongson неплох, и если сравнивать все CPU на одной частоте в 2,5 ГГц, то он показал производительность на уровне Ryzen 5 1500X — показатель количества исполняемых за такт инструкций примерно на равных с Zen 1. Но снова подводит максимальная частота, ведь Ryzen в номинале уже на 40% быстрее. А вот Core i3-12100 при своей родной частоте и вовсе в 2,3 раза производительнее Loongson 3A6000, так что китайским инженерам есть еще над чем поработать.

LAMMPS

  Rhodopsin Protein, ns/day
Loongson 3A6000 DDR4-3200×1 2,30
Loongson 3A6000 DDR4-1866×2 2,35
Core i3-12100 3.3 GHz 4,46
Core i3-12100 2.5 GHz 2,75
Ryzen 5 1500X 3.5 GHz 2,60
Ryzen 5 1500X 2.5 GHz 1,83

Large-scale Atomic/Molecular Massively Parallel Simulator (LAMMPS) — пакет для классической молекулярной динамики, применяемый для сложных расчетов. На многопроцессорных системах используется интерфейс MPI. Для наших тестов мы выбрали модель Rhodopsin Protein. Влияние пропускной способности памяти в этом бенчмарке невелико, судя по результатам.

Удивительно, но процессор Loongson показывает очень приличный результат в этом тесте — он опередил Ryzen 5 1500X на равных частотах и даже приблизился к Core i3-12100 на той же частоте в 2,5 ГГц. Так что с показателем IPC у него тут всё прекрасно (со всеми оговорками на то, что мы сравниваем китайский CPU с процессорами AMD и Intel довольно древних поколений). И даже с полноскоростным Ryzen 5 процессор Loongson 3A6000 почти сравнялся, а вот Core i3 далеко впереди — вдвое быстрее с учетом его более высокой частоты.

LULESH

  z/s
Loongson 3A6000 DDR4-3200×1 935
Loongson 3A6000 DDR4-1866×2 934
Core i3-12100 3.3 GHz 2048
Core i3-12100 2.5 GHz 1279
Ryzen 5 1500X 3.5 GHz 1165
Ryzen 5 1500X 2.5 GHz 897

Livermore Unstructured Lagrangian Explicit Shock Hydrodynamics (LULESH) — трехмерное неструктурированное гидродинамическое моделирование Лагранжа для решения стандартной аналитической задачи Седова. ПСП почти не сказывается на производительности, ее влиянием можно пренебречь.

Китайский процессор снова оказался относительно неплох — чуть быстрее Ryzen 5 1500X при условии его работы на частоте 2,5 ГГц, а вот Core i3-12100 в таком же режиме явно производительнее — на 37%. Но Loongson снова не хватает более высокой рабочей частоты, ведь Ryzen и Core в полночастотных режимах быстрее него на четверть и в 2,2 раза соответственно — процессор Intel более новый и поддерживает память DDR5, поэтому и значительно производительнее в т. ч. и чем Ryzen. Но конкретно по показателю количества инструкций за такт Loongson и в этом случае не так уж плох.

Pennant

  sedovbig, sec leblancbig, sec
Loongson 3A6000 DDR4-3200×1 220,2 171,1
Loongson 3A6000 DDR4-1866×2 207,1 160,4
Core i3-12100 3.3 GHz 99,3 51,6
Core i3-12100 2.5 GHz 154,4 75,7
Ryzen 5 1500X 3.5 GHz 136,3 100,4
Ryzen 5 1500X 2.5 GHz 172,8 124,9

Pennant — еще одно приложение для расчета гидродинамики неструктурированных сеток в двумерном представлении. Содержит два разных подтеста, выдает время их расчета в секундах. Вот в этом случае влияние пропускной способности памяти на результаты уже есть, причем двухканальный режим принес улучшение показателей в обоих подтестах.

Но это не дало Loongson показать производительность даже на уровне приторможенного до 2,5 ГГц процессора Ryzen 5 1500X — китайский CPU всегда был медленнее даже его. Полноскоростные же варианты процессоров Ryzen и Core i3-12100 оказались быстрее в полтора и 2-3 раза соответственно. Так что в этом конкретном тесте китайский процессор снова оказался среди отстающих, а уж виноват ли в том недостаток оптимизации или какие-то его проблемы — определить непросто.

incompact3d

  129 Cells, sec
Loongson 3A6000 DDR4-3200×1 74,0
Loongson 3A6000 DDR4-1866×2 65,3
Core i3-12100 3.3 GHz 29,4
Core i3-12100 2.5 GHz 37,0
Ryzen 5 1500X 3.5 GHz 49,8
Ryzen 5 1500X 2.5 GHz 55,7

Рассмотрим последний бенчмарк раздела. Incompact3d — высокопроизводительный код на основе Fortran-MPI для решения системы уравнений Навье-Стокса для несжимаемой жидкости. Используем самый простой вариант со 129 ячейками на направление, результат выводится в потраченных на расчет секундах. Влияние ПСП достаточно велико, лучше использовать двухканальный режим памяти даже при меньшей ее рабочей частоте.

Еще один тест с не лучшими результатами Loongson. Китайский процессор оказался более чем вдвое медленнее полноскоростной версии Core i3-12100 и более 30% уступил Ryzen 5 1500X, работающему на номинальной частоте. При этом, 3A6000 лишь на 17% медленнее процессора AMD, работающего на одинаковой с ним частоте в 2,5 ГГц, так что по IPC отставание не столь велико. Но не нужно забывать, что процессоры Zen 1 появились еще семь лет назад и вот-вот выйдет уже пятое их поколение — китайским инженерам придется поднапрячься.

Машинное обучение

Мы не могли обойти и модную в наше время тему весьма ресурсоемких вычислений, связанных с машинным обучением. Теста в этом разделе будет всего два, но они интересны даже несмотря на то, что для подобных вычислений всё чаще используют куда эффективнее работающие в таких условиях графические процессоры, но и универсальные CPU находят свое применение.

NumPy

  Score
Loongson 3A6000 DDR4-3200×1 166,2
Loongson 3A6000 DDR4-1866×2 162,6
Core i3-12100 3.3 GHz 478,2
Core i3-12100 2.5 GHz 299,9
Ryzen 5 1500X 3.5 GHz 273,5
Ryzen 5 1500X 2.5 GHz 210,8

NumPy (Numerical Python) — математическая библиотека с открытым исходным кодом для языка программирования Python. Она поддерживает многомерные массивы, включая матрицы, а также высокоуровневые математические функции по работе с многомерными массивами.

Результаты в этом тесте не самые радужные для Loongson 3A6000, ведь китайский процессор уступил даже Ryzen 5 1500X, работающему на сниженной до 2,5 ГГц частоте. Пусть разница и не в разы, но она есть. Полноскоростной процессор AMD в 1,7 раза быстрее китайского CPU, а Core i3-12100 при его 3,3 ГГц быстрее уже почти втрое. Так что процессор Intel явно лучше справляется с матричными вычислениями по сравнению с представленными в сравнении решениями AMD и Loongson.

TNN

  MobileNet v2, ms SqueezeNet v2, ms
Loongson 3A6000 DDR4-3200×1 539,5 106,4
Loongson 3A6000 DDR4-1866×2 538,4 106,1
Core i3-12100 3.3 GHz 197,1 44,2
Core i3-12100 2.5 GHz 327,6 76,2
Ryzen 5 1500X 3.5 GHz 324,2 83,6
Ryzen 5 1500X 2.5 GHz 454,5 116,1

Это несколько лучше подходящий для раздела тест. TNN — высокопроизводительная кроссплатформенная платформа глубокого обучения с открытым кодом, созданная Tencent. Она хорошо масштабируется от мобильных устройств до мощных систем и серверов на основе GPU. Для простоты мы использовали лишь две модели из предлагаемых в бенчмарке четырех.

На наше удивление, Loongson в этом тесте показал себя довольно неплохо — почти на уровне Ryzen 5 1500X со сниженной до 2,5 ГГц частотой. Так что по уровню количества исполняемых за такт инструкций и в этом тесте китайские специалисты снова практически догнали Zen 1. Чего нельзя сказать о Core i3-12100, который явно быстрее, чем Loongson 3A6000 — и при номинальной частоте и на сниженной до его уровня. Но отставание в 2,5 раза от Intel в худшем для китайского CPU случае не так уж и плохо на фоне некоторых других тестов.

Энергопотребление

Оценка энергопотребления для Loongson 3A6000 носит скорее чисто ознакомительный и номинальный характер. Это ведь не топовый CPU с максимальным уровнем потребления в сотни ватт, из которых выжимают всё до капли, а довольно простой процессор начального уровня. Но и в его случае по максимальному установленному уровню расчетной тепловой мощности (TDP) сложно что-то сказать о практическом потреблении. Пиковое энергопотребление модификации 3A6000-HV, которая использовалась в наших тестах, установлено на уровне 80 Вт, но в реальности до таких показателей было довольно далеко.

Если в случае топовых моделей Intel и AMD (в меньшей степени) значения TDP оказываются ниже пикового энергопотребления CPU из-за функций повышения частоты и рабочего напряжения, которые позволяют выходить за пределы номинального энергопотребления на время, то простые модели процессоров даже до максимального уровня TDP зачастую не добираются. Многое зависит от пределов пиковой частоты, температурных характеристик и других параметров. Да еще и производители системных плат стараются повысить пределы потребления и напряжения, чтобы их решение было хоть на 2%-3%, но всё же быстрее конкурирующих.

В случае с Loongson всё сильно проще, наши практические тесты показали, что частота процессора всегда соответствует заявленным параметрам: не превосходит, но и не снижается ниже 2,5 ГГц при любой нагрузке — в этом также есть отличие от современных процессоров AMD и Intel, которые в однопоточном режиме работают на более высокой частоте, а при полной нагрузке на все ядра она снижается. У китайского же процессора всё заметно проще и без особых затей.

Энергопотребление

  Простой Видео Нагрузка
Loongson 3A6000 UOS 28 46 74
Loongson 3A6000 Loongnix 31 64 77
Core i3-12100 36 60 86

Сравним данные тестов энергопотребления систем, включающих указанные в таблице процессоры, целиком в трех разных сценариях — в простое, при просмотре видеороликов высокого разрешения, а также в режиме максимального потребления, в котором для создания нагрузки использовались ресурсоемкие приложения из тестового набора — математические задачи. В режиме просмотра видео запускался встроенный медиапроигрыватель с роликом разрешения 1920×1080 пикселей в распространенном формате H.264, что может нагружать как видеокарту, так и центральный процессор системы. Причем мы отметили некоторую разницу в потреблении при работе двух поддерживаемых операционных систем, поэтому приводим данные для обеих ОС.

Сравниваем мы Loongson по энергопотреблению только с системой на базе Core i3-12100, так как Ryzen 5 1500X не содержит встроенного видеоядра, а применение любой внешней видеокарты сразу же приводит к значительному приросту общего энергопотребления системы, которое мы измеряем. В режиме простоя ПК на базе китайского процессора потребляет несколько меньше системы с процессором Intel — разница не так уж велика, но хорошо уже то, что китайцы неплохо справились с самым экономичным режимом. Режим максимального энергопотребления при научных вычислениях между двумя Linux-системами показал несколько отличающиеся результаты, и UOS по какой-то причине всегда была чуть более экономичной. Итоговые 74-77 Вт общего потребления системы оказались хоть и не в разы, но всё же явно меньше 86 Вт у ПК на основе процессора Intel — но ведь тот и значительно быстрее.

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

Интереснее всего оказался режим просмотра видеоролика. Из-за разной поддержки аппаратных особенностей процессора Loongson система UOS куда лучше справилась с декодированием видеоданных — напомним, мы использовали устанавливаемый вместе с ОС медиаплеер без установки дополнительного ПО. Из-за разной оптимизации встроенных плееров система Loongnix использует по большей части программное декодирование и загружает работой вычислительные ядра процессора, тогда как плеер UOS, судя по всему, часть работы выполняет на выделенных блоках работы с видеоданными. Поэтому система с Loongnix потребляла заметно больше энергии — до 64 Вт по сравнению с 46 Вт в случае UOS и по сравнению с 60 Вт у системы на базе процессора Core i3. Так что и тут китайскому процессору требуется хорошая программная поддержка, чтобы добиться достаточно высокой энергоэффективности.

В целом же можно сказать, что Loongson 3A6000 потребляет чуть меньше энергии по сравнению с Core i3-12100, но процессор Intel обычно оказывается и более производительным во всех задачах, зачастую в 1,5-2 раза, а то и больше, так что особой энергоэффективностью Loongson 3A6000 не блещет. Скорее всего, при сравнении с каким-нибудь Core i3-10100 мы бы отметили несколько меньшее энергопотреблении китайского процессора при схожей производительности, но разница между ними вряд ли получится заметной.

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

Что касается температурного режима, то ждать особого нагрева от системы явно не с предельными характеристиками и использующей такую простую (а по современным меркам даже минималистичную) систему охлаждения было бы странно. На практике процессор Loongson 3A6000 нагревался не более чем до 60 градусов, если верить встроенному датчику и системе мониторинга, так что на этот параметр можно вообще не отвлекаться — перегрев рассматриваемому китайскому CPU грозит только в случае отсутствия системы охлаждения, и даже самый простой воздушный кулер отлично справляется с охлаждением Loongson 3A6000.

Выводы

Исходя из результатов тестов, можно сказать, что инженеры китайской компании Loongson проделали огромную работу и сделали ее неплохо. Конечно, у них получился далеко не идеальный продукт, он находится даже не на уровне процессоров предыдущих поколений AMD и Intel, но было бы странно, если бы у кого-то сразу же получилось не хуже лучших представителей современных CPU. Похоже, что в 3A6000 что-то сделано хорошо, а что-то похуже. Предсказатель ветвлений в 3A6000 находится примерно на уровне Zen 2, то же самое касается и технологии одновременной многопоточности SMT — сделать ее сразу на уровне западных конкурентов было непросто, но у китайских инженеров Loongson почти получилось. И даже контроллер DDR4-памяти, который в 3A5000 был откровенно неудачным, они смогли улучшить — результат пока всё равно не дотягивает до решений AMD и Intel еще предыдущих поколений, а современные уже имеют поддержку DDR5, но и это приличный шаг вперед.

Все улучшения 3A6000 по сравнению с предыдущей моделью дали значительный прирост производительности, и ядро LA664 по эффективности и количеству исполняемых инструкций за такт примерно сравнялось с Zen первого поколения — китайский процессор почти всегда был близок к Ryzen 5 1500X, работающему на частоте 2,5 ГГц. Конечно, есть еще над чем работать, как показали наши тесты, но многие вещи вполне решаемы в будущем при помощи аппаратных и программных улучшений. Самое главное, что Loongson 3A6000 — большой шаг Китая в сторону снижения зависимости их экономики от западной микроэлектроники. Производительности и возможностей этого полностью китайского процессора вполне достаточно для большинства несложных задач, ведь те же процессоры Zen первого поколения и сейчас вполне работоспособны и применяются во многих системах, где не требуется сверхпроизводительность.

Большинство китайских потребителей, которым пришлось переходить на процессоры собственного производства, уже сделали или сделают этот шаг без особых усилий — производительности 3A6000 для простых повседневных задач вроде браузера, почты и офиса будет вполне достаточно. Более того, на данный момент программная часть оказывает куда большее влияние на принципиальную возможность использования ПК на основе Loongson, чем сам по себе процессор и его пиковая производительность. И если исправить все существующие по сей день шероховатости в виде недостатка родных версий некоторого ПО под архитектуру LoongArch, то системы на основе этих китайских CPU станут еще более удобными в использовании. Производительности и технических возможностей Loongson 3A6000 уже сейчас достаточно для подавляющей части пользователей ПК.

Но не нужно и лишних иллюзий: на деле Loongson 3A6000 отстает по производительности даже от первого поколения Ryzen, если учитывать работу последнего на куда более высокой частоте, не говоря уже о более новых CPU западных компаний. И так получается даже при схожем техпроцессе произаводства протестированных решений. Если же сравнивать китайский CPU с самыми современными процессорами AMD и Intel на сегодня, то отставание будет наблюдаться и по количеству исполняемых инструкций за такт, и уж тем более с учетом более чем вдвое большей тактовой частоты у западных изделий.

Хотя Loongson 3A6000 уже сейчас показывает неплохие результаты в некоторых тестах и приложениях, но даже до CPU, которым исполнилось несколько лет, ему довольно далеко, не говоря о новейших предложениях AMD и Intel, которые вот-вот выйдут на рынок. Например, по производительности операций с плавающей запятой Loongson заметно отстает даже не от самых лучших CPU лидирующих западных компаний. 3A6000 сдерживают низкие тактовые частоты и небольшое количество ядер — максимальная частота процессора лишь 2,5 ГГц, а ядер там всего четыре, больше в несерверных CPU быть не может. Поэтому 3A6000 просто не в состоянии конкурировать с мощными процессорами AMD и Intel, имеющими до 16 ядер и более, да еще работающими на частоте уже под 6 ГГц.

А хуже всего дела обстоят в не слишком распространенном ПО — во многом из-за отсутствия специфических оптимизаций под LoongArch. Например, не все программы используют SIMD-наборы инструкций на китайском процессоре, что требуется для достижения высокой производительности. Хуже всего то, что такое будет наблюдаться не только в бенчмарках, но и в повседневной работе, и даже если вы найдете ПО, которое в принципе работоспособно на китайском процессоре, то далеко не факт, что оно будет работать на нем хотя бы столь же быстро, как на близких (казалось бы) по мощности процессорах AMD и Intel. А что-то вообще придется запускать в режиме двоичной трансляции x86-кода, что еще больше снизит производительность систем на основе китайского CPU.

Особой энергоэффективностью Loongson 3A6000 также похвастать не может, максимальный уровень потребления для разных его модификаций отличается, но может достигать 50—80 Вт для протестированной модели — не меньше, чем у прямых соперников, вроде того же Core i3-10100 и его последователей. Просто так повысить частоту, судя по всему, китайцы не могут, а ведь вместе с этим вырастет и без того немалое энергопотребление. Сейчас у них еще есть запас по возможному улучшению IPC по сравнению с Core и Ryzen, но вопрос максимальной частоты остается одним из главных, а ее не так просто повысить, не ухудшив другие показатели — вспомните историю Pentium 4, к примеру. AMD и Intel долго работали над своими архитектурами для повышения частоты, и это еще только предстоит сделать китайцам.

Более того, им нужно не просто улучшать архитектуру, но и совершенствовать технологии производства, чтобы увеличить тактовую частоту, количество ядер и объем кэш-памяти. Текущие ограничения во многом обусловлены использованием устаревшего техпроцесса 12 нм, хотя и не им одним: тот же Ryzen 5 1500X выполнен по техпроцессу 14 нм, однако производительнее китайца. И если китайская компания хочет не просто занять большую часть внутреннего рынка, но и стать производителем процессоров мирового класса, конкурируя с западными компаниями (Intel и AMD, а с недавнего времени и Qualcomm), то им еще предстоит сделать очень многое, ведь Zen 1 был хорош во время своего выхода, но не сейчас. И производительность на его уровне кажется хорошим началом для китайской компании, сравнительно недавно вышедшей на рынок, но дальше им при помощи собственной архитектуры придется конкурировать с самыми мощными игроками. При этом однопоточная производительность того же Zen 1 даже во время его выхода была не самой сильной стороной процессора AMD, он конкурировал с Intel в основном за счет доступности многоядерных (6- и 8-ядерных) процессоров, а у 3A6000 этих ядер лишь четыре — этого достаточно во многих задачах, но не для конкуренции с лучшими представителями современного рынка настольных CPU.

Неудивительно, что сама компания Loongson сравнивает свой 3A6000 чаще не с решениями AMD, а с Intel Core i3-10100 — четырехъядерным процессором с кодовым именем Skylake, который имеет 6 МБ кэш-памяти и тактовую частоту 4,3 ГГц. Но ведь в той линейке это один из самых простых продуктов, а, например, Core i5-10600K и i7-10700K имели больше вычислительных ядер и более высокую тактовую частоту. И 3А6000, который является вершиной возможностей китайской компании, просто не может конкурировать даже с этими устаревшими процессорами. То же самое касается и решений Zen 2 из той же эпохи. Во многих наших тестах даже Ryzen 5 1500X справлялся с некоторыми задачами явно лучше, чем 3A6000, даже если привести их к единой частоте (а уравнивание по частоте — это большой штраф для процессора AMD). Отрыв от Loongson лишь увеличится, если взять в сравнение хотя бы Zen 2 с более чем четырьмя ядрами.

Поэтому, хотя Loongson 3A6000 является наиболее мощным и многообещающим процессором китайской разработки и производства, предназначенным для настольных ПК, на сегодняшний день современные процессоры Intel и AMD всё еще имеют очень большое преимущество над ним. 3A6000 — хороший процессор, явно догоняющий западных конкурентов, но еще далеко не такой продвинутый, чтобы конкурировать с ними. Да, у китайцев есть и другие процессоры собственной разработки, но они чаще используют архитектуру ARM, и это в целом не так интересно, как собственная архитектура, пусть и основанная на MIPS. Инженерам компании Loongson предстоит еще очень много работы для достижения самого высокого уровня, но можно надеяться, что их отставание будет сокращаться и дальше.

Правда, сами разработчики архитектуры и процессора влияют не на всё. Очень многое зависит от возможностей полупроводникового производства, и когда Запад условно «дружил» с Китаем, у них были открыты возможности производства на самых передовых фабриках, вроде TSMC. Но теперь, когда США наложили множество санкций на китайские компании, им приходится переориентироваться на возможности внутреннего китайского производства — а они у SMIC не такие уж широкие на данный момент. Есть шанс на улучшение в будущем, но именно сейчас настал период некоторого застоя, из-за которого китайские разработчики, скорее всего, немного потеряют ход. Им придется умерить свои аппетиты по техпроцессам, так как улучшить продукты за счет самых продвинутых техпроцессов пока что не получится. Тем интереснее будет посмотреть, чего они смогут достичь в таких условиях. Планов-то у них немало:

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

Как видно, на слайде есть не только серверные процессоры с большим количеством ядер и потоков, но и будущие модели процессоров для настольных ПК — на основе других ядер с повышенными частотами и даже новые встроенные видеоядра. Всё это интересно в том числе потому, что китайский производитель процессоров Loongson планирует начать переход на техпроцесс 7 нм еще в этом году. Дело это небыстрое, такая продукция вряд ли появится раньше следующего года. Но это должно обеспечить повышение производительности даже аналогичной модели процессора на 20%-30% как минимум. Понятно, что производство собственных CPU из-за санкций США теперь возможно лишь в Китае — на фабрике SMIC, и чипы будут не столь производительны и эффективны, как если бы они производились на TSMC, но это в любом случае лучше, чем нынешний процесс 12 нм, и для китайской полупроводниковой промышленности это весьма продвинутое производство.

И если следующее поколение процессоров Loongson действительно будет использовать техпроцесс 7 нм у SMIC, то это позволит установить более высокие тактовые частоты, а также разместить большее количество ядер в кристалле — такое решение серьезно улучшило бы конкурентоспособность решений, если даже 3A6000 достаточен для большого количества задач. Но компании еще очень многое нужно сделать, чтобы достичь уровня решений AMD и Intel хотя бы 2-3-летней давности, не говоря о более современных процессорах. Loongson 3A6000 лишь показывает потенциал китайского производителя, ведь не так уж просто сходу создать конкурентоспособный продукт в борьбе с такими признанными игроками, как Intel и AMD. Главное, чтобы прогресс продолжался и китайские процессоры развивались в конкурентной среде — это может открыть для Loongson не только большой китайский рынок, но и выход на другие рынки, включая российский.

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

Еще раз напоминаем, что это лишь первая часть материала по процессору Loongson 3A6000 и системах на его основе. Во второй статье будут затронуты темы, связанные с практическим использованием ПК на основе китайского CPU с собственной архитектурой — мы использовали как готовый компьютер PNXC, так и ПК, собранный на базе системной платы Asus. Также разберем доступные для Loongson операционные системы, тонкости и неочевидные недостатки применения этих процессоров с точки зрения пользователя, привычного к ПК на базе x86-совместимых процессоров и операционной системы Windows.

5 августа 2024 Г.

Источник: ixbt.com