Новости
Раздел: Главная > Новости >

Профессор Чжан Чжэньюэ с факультета вычислительной математики и кибернетики Университета МГУ-ППИ в Шеньчжэне опубликовал статью в авторитетном международном журнале Patterns (дочернее издание CELL Press)

Время: 2025-06-05 От:

В последние дни профессор Чжан Чжэньюэ с факультета вычислительной математики и кибернетики Университета МГУ-ППИ в Шеньчжэне добился значительного научного прогресса. Его статья под названием «Global understanding via local extraction for data clustering and visualization» («Глобальное понимание посредством локального извлечения для кластеризации и визуализации данных»), где он выступает первым автором, а университет указан в качестве первой публикующей организации, была опубликована в ведущем международном академическом журнале Patterns, входящем в издательскую группу CELL Press.

Данное исследование направлено на решение фундаментальных задач кластеризации и визуализации сложных неразмеченных данных. В нём предложена оригинальная концепция под названием GULE (Global Understanding via Local Extraction — глобальное понимание посредством локального извлечения), которая реализуется через локальное извлечение с классовой согласованностью, глобальное распространение информации и механизмы самообучения. Этот подход позволяет достигать высокой точности кластеризации (например, в задачах идентификации типов клеток на основе данных секвенирования РНК), а также обеспечивает визуализацию с сохранением топологической структуры. Методология GULE предоставляет новые инструменты для таких отраслей, как биомедицина, способствуя обнаружению закономерностей в многодисциплинарных наборах данных.

В условиях стремительного роста объёмов данных одним из важнейших научных вызовов становится извлечение скрытых закономерностей из сложных, часто неструктурированных данных. Независимо от того, идет ли речь о классификации клеток в биомедицине или анализе пользовательского поведения в социальных сетях, традиционные методы кластеризации, как правило, основаны на жёстких предположениях о структуре или распределении данных. Однако реальные данные часто характеризуются высокой сложностью и отсутствием чётких распределительных закономерностей, что существенно ограничивает точность и устойчивость существующих алгоритмов. В связи с этим особенно актуальным становится вопрос: как можно извлекать скрытые категории, не опираясь на предварительные допущения, а используя лишь локальные взаимосвязи в исходных данных?

Рисунок 1: Схематическое представление архитектуры GULE

Фреймворк GULE (Global Understanding via Local Extraction) основан на ключевом принципе «локальное извлечение согласованности — глобальное распространение», который реализуется посредством двухуровневой самообучающейся нейросетевой архитектуры для извлечения скрытой структуры данных по категориям.

Метод GULE состоит из двух основных этапов:

1.Локальное извлечение — осуществляется выявление классовой согласованности на основе локальных связей между данными, без необходимости предварительных предположений о глобальной структуре;

2.Глобальное распространение — обнаруженная локальная информация передаётся через глобальную нейросетевую архитектуру и дорабатывается в процессе самообучения, что в итоге позволяет получить точное и полное разбиение данных на категории.

Теоретический анализ, проведённый авторами, демонстрирует, что фреймворк GULE способен с высокой точностью восстанавливать скрытые категории в данных. Кроме того, метод эффективен при визуализации данных: в процессе понижения размерности он способен сохранять топологические отношения между категориями.

Результаты экспериментов показывают, что GULE существенно превосходит традиционные методы как по точности кластеризации, так и по надёжности визуализации, особенно в случаях с высокой сложностью данных, таких как биомедицинские исследования.

Рисунок 2: Сравнение эффективности методов кластеризации клеток мозга на наборе данных из мозга мыши

Метод GULE открывает новые возможности в обработке сложных данных благодаря внедрению трёх ключевых технологических решений: 1. Адаптивное графовое разбиение (Acut). Данный подход позволяет сбалансировать максимизацию внутриклассовых связей и минимизацию межклассовых связей за счёт настройки параметра β. Это обеспечивает высокую адаптивность метода к наборам данных с различной плотностью и структурой, что особенно важно при работе с реальными, неоднородными данными; 2. Пошаговое (прогрессивное) обучение. Метод использует двухуровневую схему проекций для поэтапной оптимизации классовой согласованности:

– на первом уровне производится обработка разреженного графа, построенного на основе исходных данных, на втором уровне — уточнение и усиление классовой структуры на основе плотного графа, сформированного в низкоразмерном пространстве.

Этот подход значительно повышает точность кластеризации за счёт поэтапной настройки представления данных; 3. Визуализация с сохранением топологической структуры. Для визуализации данных в пониженном размерном пространстве GULE интегрируется с такими методами, как t-SNE, и обеспечивает сохранение внутриклассовой топологии. Это позволяет сохранить ключевые структурные особенности данных даже после проекции. Например: на наборе данных COIL20 удаётся воспроизвести кольцевую (циклическую) структуру, на наборе PIE — линейную закономерность внутри классов.

Таким образом, GULE демонстрирует превосходные результаты как в задачах кластеризации, так и в визуализации, особенно при анализе сложных биологических данных, таких как данные клеток мозга мыши.

Рисунок 3: Усиление топологической структуры визуализированных данных на основе проекции GULE

Ключевое нововведение GULE заключается в отказе от традиционных теорий о распределении данных: вместо этого метод опирается исключительно на локальные взаимосвязи для извлечения глобальных закономерностей. Такой подход открывает принципиально новый путь к обработке неструктурированных данных, широко представленных в реальных задачах.

Данное исследование не только способствует дальнейшему развитию технологий неконтролируемого обучения, но и предлагает практичный инструмент для анализа сложных междисциплинарных данных. GULE демонстрирует высокий потенциал применения в таких направлениях, как биология и медицина, предоставляя исследователям новые возможности для понимания скрытых структур в разнообразных данных.

В перспективе, GULE может стать важнейшим методологическим фундаментом в исследованиях, основанных на анализе больших и сложных данных, и откроет новые горизонты для применения в научных и прикладных дисциплинах.

Ссылка на статью: https://www.cell.com/patterns/fulltext/S2666-3899(25)00114-X

Предыдующая: Преподаватель Российско-китайского цент...

Следующая: Преподаватель Университета МГУ-ППИ в Шень...