(Статья размещена на сервере biorxiv.org в качестве препринта в октябре 2023 г, и на данный момент не опубликована в каком-либо рецензируемом научном журнале.)
Представление об “организации речи в мозге” начало формироваться в середине XIX в. на основании посмертных исследований повреждений мозга. В течение последующих 100 лет ученые спорили о том, локализована речь в определенных областях мозга или она охватывает весь мозг. Холистический взгляд утратил свои позиции в 1960 гг., когда, благодаря Норману Гешвинду, в этом споре перевесила чаша с локализационистской моделью. Упрощенно говоря, эта модель утверждает, что левая задняя верхняя височная доля (“область Вернике”) и левая нижняя лобная извилина (“область Брока”) являются анатомическими локусами понимания языка и производства речи соответственно. Эти локализации и “локализационизм” закрепились как стандартная точка зрения по нескольким причинам. Самая главная причина в том, что, начиная с 1970 гг. вплоть до сегодняшнего дня, десятки тысяч исследований языка с помощью позитронно-эмиссионной томографии (ПЭТ) и функциональной магнитно-резонансной томографии (фМРТ) in vivo подтверждают эту точку зрения.
Однако достижения нейровизуализации лишь частично подтверждают модель Гешвинда, ставшую “классической”. В частности, современные нейробиологические модели речи исходят из того, что “речь” – это сложный процесс, который может быть разложен на подпроцессы, локализованные в нескольких областях. Все они находятся в непосредственной близости к ключевым регионам классической модели или их “гомологам” в правом полушарии, но обычно они не укладываются в старую модель. К ним относится большая часть верхней височной доли, а также передний височный полюс, средняя височная доля и премоторная кора. Этот неолокализационистский взгляд выражается в научной литературе с использованием таких фраз, как “речевые области” для описания частей мозга и “речевая сеть” для описания совместно активирующихся областей мозга. Такая концептуализация подтверждается метаанализами нейровизуализационных исследований, проводившихся с использованием широкого спектра языковых стимулов и задач.
В связи с этим возникает вопрос о том, как эти специфические анатомические области поддерживают восприятие и понимание речи, и почему их повреждение приводит к афазии. Очевидный ответ заключается в том, что эти области прилегают к тем, в которых акустическая информация от ушной улитки поступает в неокортекс. Само собой разумеется, что близлежащие регионы будут воздействовать на эту слуховую информацию и преобразовывать ее в репрезентации и процессы, которые отличают простой звук от речи. Вклад отдаленных регионов был бы неэффективным из-за временных задержек и метаболических затрат. Исследования “речевых локализаторов” предполагают, что “речевая сеть” обрабатывает только языковую информацию, тогда как более широко распределенные регионы исполняют “побочные” и “автономные” функции, не требуемые для лингвистической обработки.
Усреднение
Альтернативная модель нейробиологии речи по-другому объясняет очевидную анатомическую согласованность, которая отражается в классических и современных моделях. Все начинается с поведенческого наблюдения за тем, что “язык” не только сложен, но и неоднозначен на всех уровнях, от звуков речи до семантики, синтаксиса и дискурса. Большое количество эмпирических данных свидетельствует о том, что мозг использует контекстуальную информацию, хранящуюся внутри (например, в форме знаний и ожиданий) и получаемую извне (например, в форме ассоциированных с речью движений рта и жестов). Процессы памяти и восприятия, связанные с внутренним и внешним контекстом, распределены по всему мозгу. Эти распределенные сети предсказывают речевой ввод информации, например, в первичной слуховой коре. Поскольку контекст динамически меняется в зависимости от каждого языкового опыта, процесс обработки речи никогда не повторяется точь-в-точь. Таким образом, распределенные области, участвующие в прогнозировании речевого ввода, весьма изменчивы и динамичны.
Сторонники такой модели оказываются в незавидном положении, поскольку модель не выдерживает проверку “бритвой Оккама”. В дополнение к необходимости объяснить согласованность областей, наблюдаемую в разных исследованиях, нужно еще объяснить, почему мы, как правило, не наблюдаем распределенных по всему мозгу областей, участвующих в обработке речи. Одно из объяснений заключается в том, что увидеть эти области нам мешают существующие методологические парадигмы. Например, все исследования с использованием нейровизуализации основаны на усреднении. В нейробиологических моделях речи, учитывающих контекст, каждое слово обладает распределенными и переменными паттернами активности. Таким образом, усреднение по разным словам, будь то по отдельности или в n-граммах, предложениях или дискурсе, снизило бы активность в этих “периферийных” областях с переменными паттернами активности до низкого значения.
Вероятность того, что столь низкое значение будет замечено, уменьшается, если учитывать специфику используемого статистического анализа. Вот пример – участники могут прослушать 100 различных слов во время проведения фМРТ. Результирующие данные представляют собой четырехмерную матрицу из десятков тысяч вокселей, собранных на нескольких временных этапах. Регрессии проводятся в каждом из этих вокселей на уровне отдельных участников с использованием регрессора, который представляет собой свертку времени начала слова с “канонической” функцией гемодинамического ответа. Хотя технически это не является усреднением, в реальности происходит усреднение с сокращением различных представлений слов. Полученные коэффициенты регрессии затем используются для проведения статистического анализа на уровне группы, опять же, по каждому вокселю, что приводит к получению средних коэффициентов по участникам. Это еще один уровень сокращения различных репрезентаций, связанных с каждым словом, поскольку они могут отличаться у разных участников. Если какие-нибудь воксели превышают статистический “порог”, то говорится, что они “активированы”. Однако установление порогового значения требует чрезмерно больших поправок для множественных сравнений из-за количества выполняемых статистических тестов.
Таким образом, статистически маловероятно, что связанные периферийные воксели с допустимой, но переменной активностью для любого отдельного слова, переживут сокращение и усреднение на индивидуальном и групповом уровнях, особенно после установления порогового значения. Это создает ложное впечатление неактивности этих периферийных областей.
Распределенность
Большое количество исследований доказывает то, что распределенная контекстно-зависимая модель нейробиологии речи лучше соответствует реальности тогда, когда анализ проводится без усреднения репрезентаций разных слов. Например, обработку слов можно рассматривать как процесс в распределенном нейронном ансамбле, который включает в себя опыт, связанный с изучением слов. В рамках этого подхода глаголы активируют области мозга, в большей степени связанные с восприятием движения и движением конечностей, тогда как существительные активируют области, в большей степени связанные с восприятием объектов. Это также верно для более тонких репрезентаций, при которых лексическая обработка, вызывающая слуховые, зрительные, соматосенсорные, двигательные и эмоциональные значения, активирует области мозга, частично связанные с этими процессами, например, поперечную височную извилину, пяточную борозду, постцентральную извилину, центральную борозду и островок. Нельзя утверждать, что эти паттерны просто представляют собой постлингвистическую “концептуальную” обработку, поскольку они происходят до того, как это становится возможным, через 50-150 мс после словесного сигнала.
Из этого следует, что обработка речи распределена практически по всему мозгу и что большинство доказательств этого, полученных в результате визуализационных исследований, затемняются из-за усреднения слов из разных семантических категорий. Аналогичный вывод можно сделать в отношении других лингвистических репрезентаций. Например, привычные речевые “шаблоны”, такие как “ну, понимаете”, по-видимому, вообще не включает классические “речевые области”, что объясняет, почему они часто сохраняются после серьезных повреждений, как при глобальной афазии. Аналогичный аргумент может быть приведен не только в отношении репрезентаций, но и в отношении других лингвистических процессов. Например, синтаксическая обработка распределена, при этом разные области мозга задействованы в неодинаковых синтаксических функциях. К ним относятся области за пределами классических и современных “речевых областей”, например, базальные ганглии, предополнительная двигательная область и островок.
Проблема усложняется тем, что усреднение по всем этим лингвистическим репрезентациям и процессам обычно скрывает распределенные паттерны, связанные с индивидуальными различиями. Например, участники-левши активируют правую моторную кору больше, чем левую, при таких глаголах, как “бросать”, а правши – наоборот. Аналогичным образом, у профессиональных хоккеистов моторная кора мозга при произнесении предложений, связанных с хоккеем, активируется сильнее по сравнению с болельщиками и игроками-любителями. Более 20 лет известно, что индивидуальные различия в моделях деятельности, связанной с языком, плохо соответствуют средним показателям по группе. Групповой анализ с помощью кластеризации показывает значительную вариабельность в процессе понимания речи, при этом ни в одной группе участников не фиксируется агрегированный показатель, а отдельные участники варьируются в спектре, включающем относительный вклад множества нейронных структур, например, зрительной и сенсомоторной областей.
Хабы
Вернемся к вопросу о том, почему “речевые области” или “речевая сеть” остаются после усреднения, если стандартные методологические практики скрывают большинство участвующих областей мозга. Одно предположение основано на том факте, что в сетевой организации мозга нет ни случайности, ни единообразия. Ее топология – это топология малого мира с хабами. Хабами называют сильно централизованные регионы с большим количеством связей с другими регионами. Мы приходим к тому, что “речевые области” – это комбинация слуховых областей, активируемых при вводе звуковой информации (по крайней мере, в виде речи), и хабов, необходимых для координации обработки информации в более динамичных, изменчивых и распределенных периферийных областях.
Эмпирические данные указывают на возможность того, что области, идентифицированные в классических и современных моделях нейробиологии языка, являются узлами связи. Структурные МРТ и фМРТ-исследования “в состоянии покоя” показывают, что участки верхней и средней височных извилин и нижней лобной извилины – это хабы. Хотя известно не так много исследований хабов с использованием слуховых или речевых стимулов, но те, что известны, говорят о том, что эти области являются функциональными хабами. При этом во всех структурных исследованиях, исследованиях состояния покоя и исследованиях, основанных на задачах, расположение хабов среди областей, связанных с речью, довольно-таки вариативно. Например, хабы по-разному охватывают части передней, средней или задней верхней височной извилины и борозды, что позволяет предположить их динамический характер.
Гипотезы
Подводя итог, можно сказать, что утверждения локализационистов о “речевых областях” и “речевой сети” противоречит данным, демонстрирующим, что обработка речи происходит в широко распределенной комбинации областей мозга. Эти сети не очевидны, из-за того, что усреднение (и вычисление порогового значения) по более вариабельным и распределенным регионам оставляет только области слухового ввода и хабы, которые координируют эти распределенные периферийные регионы. Нам неизвестны работы, эмпирически демонстрирующие это, поэтому мы провели два исследования, чтобы проверить следующие четыре гипотезы.
- Усреднение: Средние значения по разрозненным лингвистическим репрезентациям и процессам локализуются в “речевых областях”.
- Распределение: Если не проводить усреднение, то можно увидеть, что определенные лингвистические репрезентации и процессы распределяются по всему мозгу.
- Хабы: “Речевые области”, которые выявляются после усреднения, – это области слухового ввода и хабы.
- Динамика: Хабы, связанные с речью, являются динамическими, а не фиксированными, и отображаются только в комплексе.
Метаанализы
Мы проверили первую гипотезу, проведя мета-анализ мета-анализов нейровизуализации – речевой “метаметаанализ”. Мы хотели найти доказательства того, что исследования, которые усредняют различные лингвистические представления и процессы, последовательно демонстрируют активность в одних и тех же “речевых областях”. Тем не менее, это не позволило бы провести различие между локализационистской точкой зрения и точкой зрения, согласно которой усреднение скрывает распределенные регионы. Для этого мы использовали второй набор мета-анализов, чтобы определить, распределяется ли обработка речи в мозге при таких лингвистических репрезентациях как глаголы и существительные. Далее мы провели мета-аналитический анализ централизованности, чтобы проверить третью гипотезу о том, что многократно активируемые “речевые области” являются хабами. Эти мета-анализы могут служить лишь приблизительной проверкой гипотез 1-3, а четвертую гипотезу нельзя легко проверить с помощью мета-аналитических методов, без независимого МРТ-исследования.
NNDb
Если мета-мета-анализ выявляет только “речевые области”, а мета-анализ исследований с глаголами и существительными выявляет распределенный паттерн, то представление о “речевых областях” невозможно получить путем усреднения данных из исследований с глаголами и существительными. Для этого, а также для определения взаимосвязи между “речевыми областями” и хабами, нужна демонстрация на живом примере. Кроме того, мета-анализ статичен и ничего не может сказать о динамике активности. Поэтому, мы использовали другой подход – анализ фМРТ во время просмотра фильмов из нашей “Базы данных натуралистической нейровизуализации” (NNDb – https://www.naturalistic-neuroimaging-database.org/). Сначала мы проверили с использованием меры центральной тенденции гипотезу о том, что обработка речи ограничена “речевыми областями” (гипотеза об усреднении), но широко распределена при более тонких сенсомоторных представлениях слов (гипотеза о распределении). Третью гипотезу мы проверили, определив степень, в которой эти усредненные области являются хабами, используя для расчетов несколько показателей воксельной централизации сети (гипотеза о хабах). Наконец, четвертая гипотеза о том, что хабы, связанные с языком, являются динамическими, а не фиксированными, была проверена с использованием базы данных NNDb.
Четвертая гипотеза вытекает из модели, учитывающей контекст. Эта модель предполагает, что формы контекста, используемые при обработке естественного языка, динамически изменяются и, следовательно, координируются хабами, варьирующимися в пространстве и во времени. Например, в один момент движения рта, связанные с речью, могут использоваться для прогнозирования предстоящих звуков речи с задействованием задних верхних височных хабов, а в другой момент знаковые жесты, сопровождающие речь, могут использоваться для предсказания предстоящих слов, с задействованием передних верхних височных хабов. В связи с этим мы предположили, что зафиксированного набора координирующих центров, активирующихся вместе при обработке речи, не существует. Вероятнее всего, то, что называют “речевыми областями” или “речевой сетью” – это виртуальный набор участков, которые активируются только совместно.
Усреднение
Результаты выявили ограниченное в пространстве распределение вокселей, активированных в одном или нескольких мета-анализах, связанных с исследованиями речи. В среднем, каждый воксель был активирован в 6,36 мета-анализах, с максимальной активацией одиночного вокселя в 45 мета-анализах (в левой дорсальной верхней височной борозде). В мета-анализах были активированы значительные области височной доли в обоих полушариях, включая поперечные височные извилины, planum polare и planum temporale, верхние височные извилины и борозды, а также задние средние височные извилины. Значительная активность в левом полушарии наблюдалась в задней нижней лобной извилине, вентральной и дорсальной прецентральной борозде и извилине, а также в медиальной верхней лобной извилине.
Распределение
Мы провели мета-анализ нейровизуализации “глаголов” и “существительных”, чтобы определить пространственное распределение языковых репрезентаций без усреднения конкретных лингвистических репрезентаций, как это обычно делается. Это помогло бы понять, являются ли “речевые области” в мета-мета-анализе результатом усреднения или нет. Глаголы и существительные производят распределенную активность в мозге, область которой не охватывается значимыми “речевыми областями” из мета-мета-анализа. Конкретно, значительная активность для глаголов включала двустороннюю активность в дорсальной прецентральной борозде и извилине, центральной борозде, постцентральной извилине, медиальной верхней лобной извилине и медиальной височной области. Напротив, существительные вызывали активность в двусторонней затылочной коре, веретенообразной извилине и нижней затылочной извилине с продолжением в нижней височной извилине.
Хабы
Мы использовали новый мета-аналитический подход к количественной оценке степени централизованности, чтобы оценить, являются ли “речевые области” в мета-мета-анализе хабами. Если это хабы, то “речевые области” в мета-мета-анализе остаются после усреднения по гетерогенным лингвистическим репрезентациям (глаголы и существительные), потому что они являются центрами, координирующими распределенные лингвистические репрезентации и процессы. Мы задействовали 165953 воксельных мета-анализа совместной активации в 14371 исследовании. Как и в случае с функциональным подключением, регулярная совместная активация двух или более регионов предполагает, что эти регионы образуют функциональные соединения или сеть.
Результаты показали, что пространственно ограниченный набор областей в мозге во время решения задачи обладает высокой централизованностью. К этим областям относятся многие области в верхней и средней височных долях, задней нижней лобной и прецентральной областях из мета-мета-анализа.
NNDb
Мета-анализ нейровизуализационных исследований говорит о том, что “речевые области” и “речевая сеть” могут быть результатом усреднения по различным представлениям слов, оставляющего только хабы. Однако это лишь предположение, поскольку ни усреднение, ни активация хабов не были продемонстрированы в каком-либо отдельном исследовании, а это означает, что наблюдаемые результаты могут быть обусловлены каким-то фактором, не связанным с нашими гипотезами.
Усреднение
Чтобы справиться с этой проблемой, мы использовали данные фМРТ исследований во время просмотра фильмов (86 участников) для усреднения гетерогенных свойств слов в мозге, предположив, что результаты будут аналогичны результатам мета-мета-анализа. Мы использовали регрессию с модуляцией длительности и амплитуды на уровне отдельных участников, моделируя слова и модулируя их в 11 сенсомоторных эмпирических измерениях, связанных со значениями этих слов (слух, нога, вкус, рука, осязание, голова, интероцептивные ощущения, рот, обоняние, туловище, зрение). В качестве модуляторов помех и регрессоров для слов без сенсомоторных оценок и сегментов фильма без слов мы также использовали звуковую энергию, контрастную яркость и частоту слов.
В соответствии с нашей гипотезой, обработка слов в мозге была пространственно ограничена. Области активности при обработке слов включали те же двусторонние области верхней и средней височных долей, что и в мета-мета-анализе. Основным различием между этими картами было общее отсутствие активности в левой нижней лобной и прецентральной извилинах и бороздах. Мы включили частоту слов в качестве регрессора, чтобы убедиться, что сенсомоторная активность не была обусловлена этим свойством (или “низкоуровневыми” слуховыми и зрительными особенностями). Однако хорошо известно, что активность нижней лобной извилины увеличивается с уменьшением частоты слов, что предполагает ее роль в отборе и/или запросах на поиск в памяти. Чтобы понять, объясняется ли наблюдаемое отсутствие активности частотой слов, мы провели еще одну регрессию с амплитудной модуляцией и исследовали групповую линейную модель смешанных эффектов, на этот раз без 11 сенсомоторных модуляторов. Прямое сопоставление звуковой энергии с частотой слов демонстрирует, что эффект частоты слов почти полностью покрывает левую нижнюю лобную и прецентральную извилины и борозды, среди прочих областей.
Затем для сравнения мы изучили сходство паттернов активности при обработке слов с результатами мета-мета-анализов. Процент вокселей слов с пороговым значением, которые также были активны в языковом мета-мета-анализе, составил 52,64 %. Если включить воксели, связанные с частотой слов, то этот процент увеличивается до 72,60 %. Напротив, процент вокселей из 11 сенсомоторных модуляторов слов, которые были также активны в языковом мета-мета-анализе, составил 7,42 %. Пространственный паттерн активности на карте слов без порогового значения коррелировал с мета-мета-анализом при r = 0,51. С другой стороны, 11 сенсомоторных модуляторов слов в среднем не коррелировали с языковым мета-мета-анализом (при среднем значении r = -0,01, SD = 0,13).
Распределение
Параллельно с мета-анализом глаголов/существительных мы проанализировали мелкомасштабные сенсомоторные свойства слов у участников, оценив региональное распределение в мозге. В этом анализе сенсомоторная обработка была распределена по большей части мозга. В общей сложности 36,47 % мозга было активировано сенсомоторными модуляторами вне вокселей, активируемых словами, причем каждый модулятор активировал в среднем 4,32 % этих вокселей. Аналогично, при рассмотрении прямых различий между модуляторами, 66,88 % мозга было активировано вне вокселей слов. Слова активировали в общей сложности около 4,57 % всего мозга. Наконец, ни пространственный паттерн активности для сенсомоторной системы без порогового значения (среднее значение r = -0,02, SD = 0,24), ни карты контрастов (среднее значение r = -0,05, SD = 0,22) в среднем не коррелировали с картой слов без порогового значения.
Хабы
Помимо совпадения языкового мета-мета-анализа и мета-аналитической оценки централизованности, мы ожидали, что области, связанные со словами, будут узлами связи, т. е. хабами. Чтобы проверить эту гипотезу, мы построили отдельные воксельные сети только в сером веществе, используя метод скользящего окна, усредняя по четырем показателям централизованности сети (степень, собственный вектор, промежуточность и близость). Мы сгруппировали значения централизованности, используя метод Варда, разделив воксели в каждом временном окне на кластеры с низкой (при заданном значении, равном единице) и высокой централизованностью (задано значение два).
Чтобы изучить хабы, агрегированные по времени, мы сначала провели усреднение по всем окнам и использовали линейную модель смешанных эффектов для анализа на уровне группы. Фиксированными эффектами были централизованность (высокая и низкая), возраст, пол и фильм в качестве случайного эффекта. Была применена коррекция для множественных сравнений с использованием коррекции размера кластера с несколькими пороговыми значениями по вокселю. Результаты показывают, что воксели с высокой централизованностью значительно более активны, чем воксели с низкой централизованностью в большей части верхней и средней височной области, а основной эффект слов накладывается на эти области. 78,26 % вокселей слов имели относительно высокую централизованность (пороговое значение α = 0,01 при минимальном значении p для отдельного вокселя ≤ 0,001). Даже при дальнейшем установлении порогового значения результатов, включающего только верхние 90 % вокселей с высокой централизованностью, все равно было перекрытие 39,00 %.
Далее мы попытались определить, образуют ли эти словесные области набор хабов, независимый от других наборов. Для этого мы выполнили групповой пространственно-независимый компонентный анализ (ICA) с использованием 100 измерений в динамических временных рядах. Затем мы использовали двойную регрессию для количественной оценки различий высокой и низкой централизованности. Наконец, мы вычислили пространственную корреляцию каждого из полученных контрастов со словами. В результате были выявлены два контраста, коррелирующих со словами. Оба они были сильнее связаны с высокой централизованностью. В совокупности эти два хаба с высокой степенью централизованности разделяли 79,94 % своих вокселей со словами и вместе были пространственно коррелированы со словами при r = 0,735.
Таким образом, как линейный смешанный эффект, так и двойной регрессионный анализ показывают что воксели, связанные со словами, образуют согласованный набор узлов связи, хабов. Мы предположили, что они появляются только в определенные периоды времени, а не существуют как единое целое на постоянной основе. То есть хабы не фиксированы, а динамичны, например, перемещаются по верхней и средней височным долям для координации распределенных и изменяющихся периферических областей. Если это так, то отдельные временные окна не должны коррелировать со словами так сильно, как при анализе ICA. Чтобы проверить это, мы провели усреднение по участникам для каждого окна при просмотре двух фильмов (“500 дней лета” и “Citizenfour. Правда Сноудена”). Мы установили пороговое значение вокселей в результирующем временном ряду на уровне 90 % (т.е. ≥ 1,8) от среднего максимального значения (т. е. 2) для выделения вокселей с высокой центральностью. Затем мы пространственно соотнесли каждое пороговое временное окно со словами. Средняя корреляция для “500 дней лета” составила r = 0,03 (SD = 0,05), причем только одно временное окно имело корреляцию ≥ 0,30 (и только 10,55 % окон с r ≥ 0,10). Значения для “Citizenfour” были сопоставимы, средняя корреляция составила r = 0,02 (SD = 0,04), при этом временные окна не имели корреляции ≥ 0,30 (только 6,08 % окон с r ≥ 0,10). Выполнение ICA с этими двумя фильмами дало результаты, аналогичные приведенным выше, с двумя сетями, коррелирующими со словами r ≥ 0,30 для каждого фильма (IC 17, r = 0,58 и IC 35, r = 0,58 для “500 дней лета” и IC 31, r = 0,49 и IC 34, r = 0,66 для “Citizenfour”).
В совокупности эти результаты показывают, что словесные хабы появляются только в определенные периоды времени и присутствуют только частично, от окна к окну, несмотря на то, что почти каждый момент фильмов содержит язык. Для дальнейшего изучения этого вопроса мы провели дополнительный анализ, чтобы изучить связь между словесными хабами и периферией в отдельные временные окна. Согласно предлагаемой модели, когда воксели слов действуют как хабы, периферийные воксели не должны действовать как хабы. Чтобы проверить это, мы вычли воксели слов из сенсомоторной карты, создав маски слов и периферии. Мы вычислили среднее распределение кластеров для каждого окна для каждого участника по вокселям в каждой из этих масок, снова используя среднее значение в 90 % (т. е. ≥ 1,8) как показатель высокой централизованности. Маска слов выступала в качестве хаба в 21,54 % (SD = 9,66) временных окон в среднем по участникам. С другой стороны, периферийная маска имела значение ≥ 90 % в среднем только для 0,07 % (SD = 0,10) временных интервалов. Когда маска слов была хабом (со значениями ≥ 91,50 % или 1,83), периферийная маска в среднем не была хабом (со значениями ≤ 86,15 % или 1,72). Когда маска слова была хабом, средняя дисперсия хаба составляла 0,12 по сравнению с 0,22 для периферийной маски.
Проведение анализа, описанного выше, для вокселей с высокой и низкой централизованностью, – это, с нашей точки зрения, консервативный подход в отношении наших гипотез. То есть более категоричный подход с большей вероятностью приведет к перекрытию и корреляции со словами в каждом временном окне. Чтобы понять, сопоставимы ли результаты, мы также провели анализ усредненных карт централизованности с пороговым значением в 90 %, чтобы определить области с высокой централизованностью для всех 86 участников. Было найдено сходство, т. е. в среднем 18,12 % (SD = 12,20) вокселей маски слов были централизованы в любом окне, в ≥ 70,10 % окон были централизованы ≤ 10 % вокселей маски слов и только в 1,78 % были централизованы ≥ 50 % вокселей. Выполнение ICA в окнах с пороговым значением 90 % дало результаты, аналогичные приведенным выше, на этот раз с пятью сетями, коррелирующими со словами при r ≥ 0,30 (IC 1, r = 0,48; IC 3, r = 0,36; IC 4, r = 0,41; IC 12, r = 0,41; IC 23, r = 0,40).
Высокоцентрализованные хабы обработки слов могут быть не подключены к сенсомоторной периферии. На этот случай мы рассчитали конкретные профили подключения для участников, где среднее кластерное распределение вокселей из маски слов составило ≥ 90 % по отношению к периферии. Этот анализ показал, что когда маска слов была хабом, у этого хаба было 43,99 % (SD = 1,33) соединений с периферийными вокселями у всех участников. Этим объясняется низкая пространственная корреляция между пороговыми окнами и картой слов, а также относительно низкий процент масок слов, действующих как хабы в любой заданный промежуток времени. То есть, когда воксели слов являются хабами в любой данный момент, они подключены к периферии, снижая корреляции с картой слов.
Обсуждение
Классические и современные модели нейробиологии речи предполагают существование небольшого количества фиксированных “речевых областей”. При этом есть свидетельства того, что обработка речи распределена по всему мозгу. Мы проверили гипотезу о том, что “речевые области” – это результат использования показателей центральной тенденции и пороговых значений для разнородных языковых репрезентаций и процессов. Такое усреднение сводит к минимуму активацию в областях с большей пространственной дисперсией, оставляя активацию в областях слухового ввода (в случае вокальных/слышимых языков) и хабах, которые координируют эти более изменчивые периферийные области.
Используя мета-анализ нейровизуализационных исследований и фМРТ во время просмотра фильмов, мы показали, что обработка речи, на первый взгляд, происходит в очень ограниченном наборе фиксированных областей мозга. Мета-анализ 85 мета-анализов различных языковых репрезентаций и процессов показывает, что активируются одни и те же верхние и средние височные, а также задние нижние лобные области. Этот же набор областей сильно перекрывался с теми, которые активировались тогда, когда 86 участников исследования слышали слова, произносимые в одном из 10 различных фильмов.
Эта согласованность в локализации исчезает, когда при анализе принимается во внимание разнородность слов. То есть, мета-анализ с учетом различия между глаголами и существительными показывает, что в обработке речи участвуют большие участки мозга. При проведении еще более тонких различий при сборе данных во время фМРТ, распределенный характер обработки становится еще более заметным. В частности, индивидуальные сенсомоторные качества слов порождают распределенные паттерны активности – в среднем около 4 % мозга на каждое из 11 сенсомоторных измерений за пределами областей обработки слов. У слов множество сенсомоторных свойств, и их совместная активность охватывает до 67 % остальной части мозга. Сюда входят области, важные для обработки действий, эмоций, интероцепции, движения, соматосенсации, зрения и др.
Таким образом, усреднение и установление пороговых значений приводят к вводящей в заблуждение минимизации активности в областях мозга, которые иногда рассматриваются как не связанные с языком. В результате остаются только области слуховой обработки, сосредоточенные вокруг первичной слуховой коры, и области с высокой связностью, которые координируют эти отдаленные области. В действительности, большинство “речевых областей” – это хабы, определяемые степенью централизованности или средним значением четырех различных показателей централизованности по данным NNDb. Дополнительный анализ показывает, что эти хабы не являются фиксированными. Для них характерна динамичность в пространстве и времени.
Локальность и распределенность
Полученные результаты указывают на необходимость пересмотра локализационистских представлений о биологии обработки речи в мозге. Неявно или открыто локализационистская теория XIX века, обновленная в новую эпоху визуализации, подтверждается тысячами нейровизуализационными исследованиями, способными вводить в заблуждение. Это отражается в широком использовании “языковых локализаторов”. Они используются по понятным причинам, несмотря на доводы против их полезности. Задача в исследованиях локализаторов обычно заключается в прослушивания понятного языка и менее понятного языка, а затем проводится анализ с усреднением множества различных видов лингвистических репрезентаций и процессов, их вычитания и установления порогового значения. Поэтому неудивительно, что исследования с использованием 45 языков и даже таких искусственных языков, как клингонский и дотракийский, многократно указывают на одни и те же участки мозга. Некритическое принятие локализионистской точки зрения отражено в современной модели, в которой обработка языка проводится лишь в небольшом числе фиксированных областей. Мы считаем, что эти модели неполны, поскольку они не учитывают все области, и ошибочны, поскольку они утверждают, что речь обрабатывается только в “речевых областях”.
Есть несколько контраргументов, которые можно выдвинуть в пользу локализационистских норм. Например, то, что распределенные результаты, которые мы наблюдаем вне “речевых областей”, 1) относятся не к обработке речи, а к какому-то другому процессу, такому как создание образов, или 2) ограничены только “сенсомоторными” репрезентациями и “семантической” или “концептуальной” обработкой. Рассмотрим эти контраргументы.
Где речь?
Скептик мог бы возразить, что “речевые области”, которые мы наблюдаем, на самом деле обрабатывают только речь, а другие области, возможно, занимаются чем-то независимым и нелингвистическим – постперцептивные образы, концептуальная обработка или мышление. Методы и стимулы, которые мы использовали в исследовании NNDb, взятые в совокупности, помогают убедиться, что это не так. В регрессионном анализе сенсомоторные свойства были включены в качестве модуляторов амплитуды отдельных слов, привязанных ко времени обработки слов, и, следовательно, вряд ли связанных с другими процессами. Модель также включала регрессоры слуховых и визуальных помех для контроля других характеристик фильмов, которые могут совпадать с этими словами. Более того, речь в фильмах непрерывна, без пауз между словами, а значит маловероятно то, что участники исследования тратили время на воображение или концептуализацию слов.
Предыдущие исследования подтверждают то, что эти более распределенные области занимаются чем-то лингвистическим. В частности, “речевые области” и сенсомоторные области формируют сети во время обработки слов и сенсомоторные области сохраняют активность в течение 50-150 мс после ввода слова. В совокупности такие результаты позволяют предположить, что сенсомоторный компонент активации неотделим от распределенного представления слов. Наши результаты подтверждают эту точку зрения в том смысле, что области, связанные со словами, соединены с большой сенсомоторной периферией. Эта точка зрения также согласуется с результатами в других областях, таких как зрение и память, показывающих, что репрезентации не ограничиваются, а поддерживаются во взаимосвязанных нейронах и областях.
Теории о “языковых локализаторах” предполагают, что “сеть множественных запросов” (MDN) не проявляет чувствительности к лингвистическим переменным. Этот аргумент порождает ложную и бесплодную дихотомию. Во-первых, MDN часто чувствителен к “лингвистической информации”, хотя и на пониженных уровнях. Во-вторых, анализ проводится путем усреднения по большим областям с различными связями и профилями цитоархитектуры, составляющими около 25 % вокселей серого вещества. Это приводит к меньшей чувствительности к “лингвистической информации”, особенно учитывая динамичный характер этого процесса. Области MDN названы соответствующим образом, поскольку они обладают одними из самых высоких показателей функционального разнообразия и “повторного использования нейронов” в человеческом мозге. Например, премоторная кора играет очевидную роль в восприятии речи и понимании языка. То, что эти предположительно неязыковые области вносят особый вклад в обработку речи, видно, когда анализ не усредняется по отдельным языковым репрезентациям и процессам.
Только сенсомоторные?
Было по-разному продемонстрировано, что весь набор распределенных областей за пределами предполагаемых “речевых областей” вовлечен во многие другие языковые репрезентации и процессы. Например, люди с глобальной афазией, у которых отсутствует вся “речевая сеть”, все еще могут произносить шаблонные фразы (или многословные выражения), из чего можно сделать вывод, что эти лингвистические репрезентации реализуются за пределами “речевых областей”. Нам известно менее чем о пяти нейровизуализационных исследованиях, которые выделяют шаблонный язык как другой тип лингвистической репрезентации. Мы показали, что новые предложения обрабатываются в “речевых областях” (при усреднении), но когда эти же самые предложения повторяются в течение 15 дней, становясь шаблонными, они обрабатываются в центральной борозде и подкорковых структурах, а не в “речевых областях”.
Можно привести еще много примеров того, что неязыковые области задействованы в речи, помимо их роли в сенсомоторных представлениях. Например, орбитофронтальная кора, среди прочих областей, играет определенную роль в понимании косвенных речевых актов. Дорсолатеральная префронтальная кора (часть предполагаемого MDN) играет множество специфических ролей в управлении дискурсом, интеграции просодии, интерпретации небуквальных значений, создании умозаключений, разрешении двусмысленности и исправлении ошибок. Дорсально-медиальные префронтальные области участвуют в понимании речевых актов, интерпретации небуквальных значений, а также в эмоционально и социально нагруженной речи. Эти области и предклинье вовлечены в различные аспекты генерации и обновления моделей языковых ситуаций. В более общем плане, эти области отвечают за разные аспекты сети пассивного режима работы головного мозга, которые непосредственно связаны с “речевыми областями”, внутренней речью и пониманием языка.
Другие области, такие как передняя поясная извилина и теменная кора, помогают реализовать необходимые адаптивные процессы языкового управления. Распределенные двигательные системы играют множество ролей в восприятии речи. Островок и лимбические структуры, такие как миндалевидное тело, участвуют в обработке аффективной просодии. Другие подкорковые структуры, такие как базальные ганглии, таламус и мозжечок, исполняют многочисленные лингвистические роли, включая обработку речи, семантику и синтаксис. Визуальные области, такие как предполагаемая “область визуальной словоформы” и область обработки лиц и движений, играют роль в слуховом восприятии речи, даже когда недоступна визуальная информация. Давно признано, что существует “базальная височная языковая область” в извилинах затылочной коры, связанная с рецептивной афазией в слуховой модальности.
Модель естественной организации языка и мозга
Сомнительным выглядит утверждение о том, что эти распределенные языковые репрезентации и процессы являются не- или экстралингвистическими или, что еще хуже, “просто” ситуативными. Такой подход угрожает свести наше понимание языка к нескольким ключевым элементам, которые сами по себе не объясняют, как человеческому мозгу удается генерировать и извлекать информацию с помощью языка. Мы считаем, что существует еще более весомая причина для отказа от лингвистических и нелингвистических дихотомий в пользу нейробиологической модели, охватывающей весь мозг. Такая модель помогает решить фундаментальную проблему восприятия речи и понимания языка, а именно, как мозг справляется с лингвистической двусмысленностью.
Языковые репрезентации и связанные с ними процессы неоднозначны на всех уровнях. Например, нет акустических признаков, однозначно отличающих фонемы (так называемая “проблема отсутствия инвариантности”). Слова не только бывают омонимичными, но большинство слов многозначны (например, у английского слова “set” более 450 значений). Предложения и дискурс тоже могут быть синтаксически и/или семантически неоднозначными. Как мозг справляется со всеми этими двусмысленностями? Мы обратились к идеям Гельмгольца о зрении (теория бессознательных умозаключений 1860 гг) и идеям Стивенса и Халле о речи (анализ через синтез, 1960 гг), и предположили, что для разрешения языковой двусмысленности требуется прогнозирование.
Мозг использует неограниченный объем внутреннего контекста (в форме воспоминаний) и внешнего или наблюдаемого контекста, доступного ему в реальном мире для того, чтобы делать прогнозы о предстоящих языковых репрезентациях. Например, наблюдаемые движения рта, связанные с речью, предшествуют соответствующей слуховой информации примерно на 100-300 мс. Они используются для предсказания акустических паттернов, впоследствии поступающих в слуховую кору, и влияют на интерпретацию фонем. Именно так работает аудиовизуальное восприятие речи, которое включает сетевые взаимодействия между зрительной, вентральной, моторной корой и задней верхней височной корой.
Поскольку язык неоднозначен и для его понимания требуется постоянное прогнозирование, основанное на контексте, а контекст всегда изменчив, те области мозга, которые участвуют в восприятии речи, обязательно будут сильно варьироваться. Эти распределенные области делают прогнозы и формируют сети связей. Единственным общим знаменателем в этих пространственно изменчивых и распределенных сетях является слуховой ввод и координирующие хабы. Отсюда вытекают два следствия:
- Во-первых, поскольку зрительная и моторная области прогнозируют предполагаемые фонемы, различие между “лингвистическим” и “нелингвистическим” как минимум нечеткое;
- Во-вторых, после усреднения по различным репрезентациям и процессам, происходящим в различных и изменчивых распределенных сетях, остаются только вышеупомянутые области слуха и хабы.
Какая сетевая архитектура может соответствовать такой модели? Классическая модульная архитектура не способна обеспечить гибкость, необходимую для адаптации к постоянно меняющимся контекстам и сетям, связанным с ними. Альтернативная архитектура включает структуры ядро-периферия, которые сочетают две сетевые динамики:
- Ядро – это набор стабильных, управляющих набором областей (периферия) хабов, которые проявляют временную изменчивость;
- Сети ядро-периферия обеспечивают высокую сложность, устойчивость к помехам, повторное установление соединений, а также восстановление после повреждений.
Наши данные вписываются в структуру ядро-периферия, где идентифицированные “речевые области” соответствуют динамическим ядрам, а остальная часть распределенной активности (которая обычно усредняется) составляет динамическую периферию.
Приведенные результаты свидетельствуют о том, что исторический неолокализационистский взгляд на нейробиологию речи нуждается в радикальном пересмотре. Скрывая распределенную и охватывающую весь мозг природу систем обработки речи, статические нейровизуализационные исследования непреднамеренно подкрепили выводы, сделанные на основе анализа повреждений мозга в XIX веке. В те времена предположили, что речевые дисфункции вызваны повреждением небольшого набора фиксированных областей в мозге. Нейровизуализационный анализ основан на усреднении по лингвистическим “яблокам и апельсинам” с вычислением порогового значения. В результате возникает ложное впечатление, что обработка речи происходит в небольшом наборе фиксированных областей мозга. Полученные нами результаты свидетельствуют о том, что как проблемы с речью, вызванные травмой, так и наблюдения локализаторов, сделанные на основе нейровизуализационных исследований, объясняются тем, что “речевые области” и “речевая сеть” на самом деле являются областями слухового ввода и хабами. Следовательно, афазия возникает в результате повреждения основных участков, где происходит координация областей, обрабатывающих речь, по всему мозгу, а не в результате повреждения предполагаемой “речевой сети”. Повреждение хабов лежит в основе различных расстройств, включая афазию. Из этого следует, необходимость создания другой нейробиологической модели языка, которая заменит современные модели, и поможет улучшить лечение афазии.
В более общем плане, наши выводы об усреднении и вычислении порогового значения могут быть распространены на каждую область, в которой психологические онтологии исследуются с помощью нейровизуализации. Трудно представить себе какое-либо нейровизуализационное исследование без стимулов, не содержащих множественные репрезентации и процессы, которые математически интегрируются перед вычислением порогового значения. Таким образом, то, что выявляется в большинстве нейровизуализационных исследований и мета-анализов, – это, скорее всего, хабы, а не полное распределение вовлеченных регионов. Выводы зависят от сложности исследуемого поведения. Например, исследования обработки визуальных объектов усредняют множество различных стимулов, сенсомоторные свойства и доступность которых сильно различаются, оставляя только основные области, участвующие в сложной визуальной обработке (например, веретенообразную извилину). С другой стороны, язык и социальный процессинг находятся на вершине человеческого функционирования и, вероятно, требуют большего количества хабов, управляющих гораздо большим количеством областей.
Перевод: Филиппов Д. С.
Источник: Sarah Aliko, Bangjie Wang, Steven L Small, Jeremy I Skipper The entire brain, more or less, is at work: ‘Language regions’ are artefacts of averaging, bioRxiv 2023.09.01.555886