Russian
| English
"Куда идет мир? Каково будущее науки? Как "объять необъятное", получая образование - высшее, среднее, начальное? Как преодолеть "пропасть двух культур" - естественнонаучной и гуманитарной? Как создать и вырастить научную школу? Какова структура нашего познания? Как управлять риском? Можно ли с единой точки зрения взглянуть на проблемы математики и экономики, физики и психологии, компьютерных наук и географии, техники и философии?"

«ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ КАК ПОЗИТИВНЫЙ И НЕГАТИВНЫЙ ФАКТОР ГЛОБАЛЬНОГО РИСКА» 
Э. Юдковский

Э. Юдковский — Singularity Institute for Artificial Intelligence Palo Alto, CA
Перевод: Алексей Валерьевич Турчин

Влияние животной или растительной жизни на материю находится бесконечно далеко за пределами любого научного исследования, направленного до настоящего времени на него. Его сила управлять перемещениями движущихся частиц, в ежедневно демонстрируемом чуде человеческой свободной воли и в росте поколений за поколением растений из одного семечка, бесконечно отличается от любого возможного результата случайной согласованности атомов

Введение.

До сих пор основной опасностью искусственного интеллекта (ИИ) было то, что люди слишком рано делали вывод, что они его понимают. Разумеется, эта проблема не ограничена ИИ. Jacques Monod пишет: «забавным аспектом теории эволюции является то, что каждый думает, что понимает её». (Monod, 1974.) Мой отец, физик, жаловался на людей, придумывавших свои собственные физические теории: «интересно знать, почему люди не придумывают свои собственные теории химии?» (Но они делают.) Тем не менее, проблема является особенно актуальной в области ИИ. Область ИИ имеет репутацию того, что она даёт огромные обещания и не исполняет их. Большинство наблюдателей считают, что ИИ труден, и это на самом деле так. Но запутанность не происходит из трудности. Трудно сделать звезду из водорода, но звездная астрофизика не имеет ужасающей репутации обещать сделать звезду и затем не смочь. Критическим выводом является не то, что ИИ труден, а то, что, по неким причинам, людям очень легко думать, что они знают об Искусственном Интеллекте гораздо больше, чем на самом деле.

В моей другой статье о рисках глобальной катастрофы «Систематические ошибки мышления, потенциально влияющие на суждения о глобальных рисках», я начинаю с замечания, что немногие люди предпочли бы нарочно уничтожить мир; сценарий же уничтожения Земли по ошибке кажется мне очень беспокоящим. Немногие люди нажмут кнопку, которая, как они точно знают, вызовет глобальную катастрофу. Но если люди склонны быть абсолютно уверены, что кнопка делает нечто, совершенно отличное от её реального действия, это действительно причина для тревоги.

Гораздо труднее писать о глобальных рисках искусственного интеллекта, чем о систематических ошибках мышления. Ошибки мышления – это твёрдо установленное знание; достаточно процитировать литературу. ИИ – это не твёрдо установленное знание; ИИ относится к передовым исследованиям, а не к учебникам. И, по причинам, объясняющимся в следующей главе, проблема глобальных рисков в связи с искусственным интеллектом фактически не обсуждается в существующей технической литературе.

Я вынужден анализировать тему со своей точки зрения, делать мои собственные выводы и делать всё, от меня зависящее, чтобы доказать их в ограниченном пространстве этой статьи.

Дело не в том, что я пренебрегаю необходимостью цитировать существующие источники на эту тему, но в том, что таких источников, несмотря на все мои попытки их найти, обнаружить не удалось (на январь 2006 года).

Соблазнительно игнорировать ИИ в этой книге, потому что это наиболее трудная тема для обсуждения. Мы не можем обратиться к статистическим данным, чтобы вычислить маленькую годовую вероятность катастрофы, как в случае астероидных ударов. Мы не можем использовать вычисления на основании точных, точно подтверждённых моделей, чтобы исключить некие события или установить бесконечно малые верхние границы их вероятности, как в случае возможных физических катастроф. Но это делает катастрофы с ИИ ещё более беспокоящими, а не менее.

Эффекты систематических ошибок мышления, как оказалось, имеют тенденцию увеличиваться при недостатке времени, занятости ума или недостатке информации. Это говорит, что чем труднее аналитическая задача, тем важнее избежать или ослабить систематическую ошибку. Поэтому я усиленно рекомендую прочесть статью «Систематические ошибки мышления, потенциально влияющие на оценку глобальных рисков» (http://www.proza.ru/texts/2007/03/08-62.html) до прочтения этой статьи.

1. Систематическая ошибка, связанная с антропоморфизмом. 

Когда нечто очень широко распространено в нашей повседневной жизни, мы принимаем это как само собой разумеющееся вплоть до того, что забываем о существовании этого. Представьте себе сложную биологическую адаптацию, состоящую из 10 необходимых частей.

Если каждый из 10 генов независим и имеет 50% частоту в наборе генов — то есть каждый ген имеется только у половины особей вида – тогда в среднем только одна особь из 1024 будет обладать полнофункциональной адаптацией. Меховая шуба не является значительным эволюционным приобретением, пока окружающая среда не начнёт подвергать организмы отбору холодом. Точно так же, если ген Б зависит от гена А, тогда ген Б не имеет значительного преимущества, пока ген А не станет надёжной частью генетического окружения. Сложное, взаимозависимое устройство должно быть у всех сексуально воспроизводящихся видов; оно не может развиться в противном случае. (Tooby и Cosmides, 1992.) Одна малиновка может иметь более гладкие перья, чем другая, но у обеих должны быть крылья. Естественный отбор, двигаемый разнообразием, сужает это разнообразие. (Sober, 1984.) В каждой известной культуре люди испытывают грусть, отвращение, ярость, страх и удивление (Brown, 1991), и передают эти эмоции одними и теми же выражениями лица. У нас у всех под капотом один и тот же мотор, хотя мы можем и быть раскрашены разными красками; этот принцип эволюционные психологи называют психическим единством человечества. (Tooby and Cosmides, 1992). Это описание и объясняется, и требуется законами эволюционной биологии.

Антрополог не будет восторженно писать о новооткрытом племени: «Они едят еду! Они дышат воздухом! Они используют инструменты! Они рассказывают друг другу истории!» Мы, люди, забываем, как мы подобны друг другу, живя в мире, который напоминает нам только о наших различиях.

Люди научились моделировать других людей, — чтобы соревноваться и кооперироваться со своими сородичами. Это было надёжным инструментом в мире наших предков, где любой сильный ум, который вам попадался, был тоже человеком. Мы развили способность понимать наших ближних путём эмпатии, помещая себя на их место; для этого то, что моделируется, должно быть похоже на моделирующего. Не удивительно, что люди часто очеловечивают, – то есть ожидают человекоподобных качеств от того, что не является человеком. В фильме «Матрица» (братья Вачовские, 1999) представитель искусственного интеллекта Агент Смит вначале кажется совершенно холодным и собранным, его лицо неподвижно и неэмоционально. Но позже, допрашивая человека Морфеуса, Агент Смит даёт выход свому отвращению к человечеству – и его лицо выражает общечеловеческое выражение отвращения. Опрашивание своего собственного ума работает хорошо, в качестве инстинкта адаптации, когда вам нужно предсказывать других людей.

Но если вы исследуете некий другой процесс оптимизации, — если вы, например, теолог 18 века William Paley – то тогда антропоморфизм – это липучка для мух для неосторожных учёных, столь липкая западня, что нужен Дарвин, чтобы из неё выбраться.

Эксперименты по исследованию антропоморфизма показали, что испытуемые часто антропоморфизируют неосознанно, вопреки своим базовым установкам. Barrett и Keil (1996) провели эксперименты на субъектах, исповедовавших веру в неантропоморфные качества Бога – что Бог может быть более чем в одном месте одновременно, или одновременно наблюдать множество вещей. Barrett and Keil предложили этим испытуемым истории, в которых Бог спасает людей от утопления. Испытуемые отвечали на вопросы об историях или пересказывали их своими словами, таким образом, что это предполагало, что Бог был только в одном месте в одно время и выполнял задачи последовательно, а не параллельно. К счастью для целей нашего исследования, Barrett и Keil в другой группе использовали в прочих отношениях аналогичные истории о суперкомпьютере по имени «Uncomp». Например, чтобы изобразить свойство всезнания, говорилось, что сенсоры Uncomp’а покрывают каждый квадратный сантиметр земли, и никакая информация не теряется. Испытуемые в этих условиях всё равно демонстрировали сильный антропоморфизм, хотя и значительно меньший, чем в «группе Бога». С нашей точки зрения, главным результатом является то, что хотя люди сознательно полагали ИИ не подобным человеку, они по-прежнему представляли себе такие сценарии, как если бы ИИ был человекоподобным (хотя и не настолько человекоподобным, как Бог).

Ошибка антропоморфизма подкрадывается незаметно: она происходит без нарочного намерения, не осознанно и вопреки очевидному знанию.

В эпоху бульварной научной фантастики обложки журналов часто изображали монструозного инопланетянина – собирательно известного как жукоглазый монстр (ЖГМ) – тащащего привлекательную полуобнажённую женщину. Может показаться, что художник верил, что негуманоидный инопланетянин, с полностью другой эволюционной историей, может сексуально желать женщину-человека. Такие ошибки происходят не из-за того, что люди явным образом рассуждают подобно следующему: «Все умы, скорее всего, возбуждаются похожим образом, и поэтому, вероятно, ЖГМ находит женщину-человека сексуально привлекательной». Скорее, художник просто не задался вопросом о том, действительно ли гигантский жук воспринимает женщин-людей привлекательными. Наоборот, полуобнажённая женщина является сексуальной – изначально, потому что это неотъемлемо присущее ей свойство.

Те, кто делают эту ошибку, не думают об уме насекомообразного существа; они концентрируются на задранных одеждах женщины. Если бы одежды не были задраны, женщина была бы менее сексуальна, но ЖГМ этого не понимает. (Это частный случай глубокой, запутывающей и чрезвычайно распространённой ошибки, которую E. T. Jaynes назвал ошибочностью, связанной с умственной проекцией (mind projection fallacy). (Jaynes and Bretthorst, 2003.) Jaynes, специалист по байесовской теории достоверности, определил «ошибочностью, связанную с умственной проекцией» как ошибку, связанную с тем, что состояния знания перепутаны со свойствами объектов. Например, фраза «мистический феномен» подразумевает, что мистичность – это свойство самого феномена. Если я неосведомлен относительно некого феномена, то это факт о моём состоянии сознания, а не о самом феномене.)

Людям нет нужды понимать, что они антропоморфизируют (или хотя бы понимать, что они вовлечены в сомнительный акт предсказания состояния чужого ума) для того, чтобы антропоморфизм повлиял на мышление. Когда мы пытаемся рассуждать о чужом сознании, каждый шаг рассуждений может быть соединён с предположениями, настолько очевидными для человеческого опыта, что мы обращаем на них внимания не больше, чем на воздух или гравитацию. Вы возражаете журнальному иллюстратору: «Не является ли более правдоподобным, что огромный жук-самец будет сексуально желать огромных жуков-самок?» Иллюстратор немного подумает и скажет: «Но даже если бы инопланетные инсектоиды начинали с любви к твёрдым экзоскелетам, после того, как инсектоид повстречает женщину-человека, он вскоре поймёт, что у неё гораздо более мягкая и нежная кожа. Если у инопланетян имеется достаточно продвинутая технология, они могут генетически изменить себя, чтобы любить мягкую кожу, а не твёрдые экзоскелеты».

Это — ошибочность-один-шаг-назад (fallacy-at-one-remove). После того, как указано на антропоморфичность мышления инопланетянина, журнальный иллюстратор делает шаг назад и пытается представить умозаключения инопланетянина как нейтральный продукт его мышления. Возможно, продвинутые инопланетяне могут перестроить себя (генетически или как-то иначе), чтобы любить мягкую кожу, но захотят ли они? Инопланетянин-инсектоид, любящий жёсткие скелеты, не будет хотеть переделать себя, чтобы любить мягкую кожу вместо этого, – кроме как в случае, если естественный отбор каким-то образом породит в нём определённо человеческое чувство метасексуальности. При использовании длинных сложных цепочек рассуждений в поддержку антропоморфических выводов, каждый шаг таких рассуждений является ещё одной возможностью, чтобы прокралась ошибка.

И ещё одной серьёзной ошибкой является начинать с вывода и искать кажущуюся нейтральной линию рассуждений, ведущую к нему; это называется рационализацией. Если первое, что приходит на ум, при вопросе на эту тему, это образ инсектоида, преследующего женщину-человека, то тогда антропоморфизм является первопричиной этого восприятия, и никакое количество рационализации не изменит этого.

Любой, кто бы хотел уменьшить систематическую ошибку антропоморфизма в себе, должен был бы изучить эволюционную биологию для практики, желательно, эволюционную биологию с математическими выкладками. Ранние биологи часто очеловечивали естественный отбор – они полагали, что эволюция будет делать тоже, что и они сами; они пытались предсказать эффекты эволюции, ставя себя на её место. В результате получался по большей части нонсенс, который начали изгонять из биологии только в поздние 1960-е годы, например, это делал Williams (1966). Эволюционная биология предлагает обучение на основе как математики, так и конкретных примеров, помогающие выбить из себя ошибку очеловечивания.

1.1: Широта пространства возможных устройств ума. (The width of mind design space). 

Эволюция жёстко сохраняет некоторые структуры. В той мере, как развитие других генов опирается на ранее существовавший ген, этот ранний ген полностью цементируется: он не может мутировать, не нарушая множество форм адаптации. Гомеотические (Homeotic) гены – гены, контролирующие развитее структуры тела эмбриона – говорят множеству других генов, когда активироваться. Мутация гомеотического гена может привести к тому, что эмбрион плодовой мушки разовьётся нормально, за исключением того, что у него не будет головы. В результате гомеотические гены столь точно сохраняются, что многие из них одни и те же у человека и плодовой мушки – они не изменились со времён последнего общего предка человека и насекомых. Молекулярные механизмы синтеза АТФ по существу одни и те же в митохондриях животных, хлоропластах растений и у бактерий; синтез АТФ не претерпел значительных изменений с развития эукариотов 2 миллиарда лет назад.

Любые два устройства ИИ могут быть менее похожи друг на друга, чем вы и садовый цветок петуния.

Термин ИИ относится к гораздо большему пространству возможностей, чем термин «Homo sapiens». Когда мы говорим о разных ИИ, мы говорим об умах вообще, или о процессах оптимизации вообще. Представьте себе карту возможных устройств ума. В одном углу маленький кружочек означает всех людей. И вся эта карта находится внутри ещё большего пространства, пространства процессов оптимизации. Естественный отбор создаёт сложные функционирующие механизмы не привлекая процесса думания; эволюция находится внутри пространства процессов оптимизации, но за пределами пространства умов.

Этот гигантский круг возможностей исключает антропоморфизм как законный способ мышления.

2: Предсказание и устройство. (Prediction and design). 

Мы не можем спрашивать наш собственный мозг о нечеловеческих процессах оптимизации – ни о насекомоглазых монстрах, ни о естественном отборе, ни об искусственном интеллекте. И как же мы будем продолжать? Как мы можем предсказать, что ИИ будет делать? Я нарочно задаю этот вопрос в форме, которая делает его труднообрабатываемым. При такой постановке проблемы невозможно предсказать, будет ли произвольная вычислительная система выполнять хоть какие-нибудь функции ввода-вывода, включая, например, простое умножение (Rice, 1953.) Так как же возможно, что компьютерные инженеры могут создавать микросхемы, которые надёжно выполняют вычисления? Потому что люди-инженеры нарочно используют те проекты, которые они могут понять.

Антропоморфизм заставляет людей верить, что они могут делать предсказания, не имея никакой другой информации, кроме как о самом факте «интеллектуальности» (intelligence) чего-то – антропоморфизм продолжает генерировать предсказания, не взирая ни на что, в то время как ваш мозг автоматически ставит себя на место этой самой «интеллектуальности». Это может быть одним из факторов вызывающей замешательство истории ИИ, которая происходит не из трудности ИИ как такового, но из загадочной лёгкости обретения ошибочной веры в то, что некий данный дизайн ИИ сработает.

Для того, чтобы сделать утверждение о том, что мост выдержит вес автомобилей в 30 тонн, гражданские инженеры имеют два оружия: выбор изначальных условий и запас прочности для безопасности. Им нет необходимости предсказывать, может ли выдержать вес в 30 тонн произвольная конструкция, но только проект данного конкретного моста, относительно которого они делают это заявление. И хотя это показывает с лучшей стороны инженера, который может вычислить точный вес, который мост может выдержать, также приемлемо вычислить, что мост выдержит автомобили не менее, чем в 30 тонн – хотя для того, чтобы доказать это расплывчатое утверждение строго, может потребоваться большая часть того теоретического понимания, которое входит в точное вычисление.

Гражданские инженеры придерживаются высоких стандартов в предсказании того, что мосты выдержат нагрузку. Алхимики прошлого придерживались гораздо более низких стандартов в предсказании того, что последовательность химических реагентов трансформирует свинец в золото. Какое количество свинца в какое количество золота? Каков причинный механизм этого процесса? Вполне понятно, почему исследователь-алхимик хотел золото больше, чем свинец, но почему данная последовательность реагентов превращает свинец в золото, а не золото в свинец или свинец в воду?

Ранние исследователи ИИ полагали, что искусственная нейронная сеть из слоёв пороговых устройств, обученная посредством обратного распространения, будет «интеллектуальной» (intelligent). Использованное при этом мышление, обусловленное результатом (wishful thinking), ближе к алхимии, чем к гражданском строительству. Магия входит в список человеческих универсалий Дональда Брауна (Brown, 1991); наука – нет. Мы инстинктивно не понимаем, что алхимия не работает. Мы инстинктивно не различаем строгие рассуждения и хорошее рассказывание историй. Мы инстинктивно не замечаем ожидание положительных результатов, висящее в воздухе. Человеческий вид возник посредством естественного отбора, функционирующего посредством неслучайного сохранения случайных мутаций.

Один из путей к глобальной катастрофе – когда кто-то нажимает кнопку, имея ошибочное представление о том, что эта кнопка делает – когда ИИ возникнет посредством подобного сращения работающих алгоритмов, с исследователем, не имеющим глубокого понимания, как вся система работает. Нет сомнения, они верят, что ИИ будет дружественным, без ясного представления о точном процессе, вовлечённом в создание дружественного поведения, или какого-либо детального понимания того, что они имеют в виду под дружественностью. Несмотря на то, что ранние исследователи ИИ имели сильно ошибочные, расплывчатые ожидания об интеллектуальности своих программ, мы можем представить, что этим исследователям ИИ удалось сконструировать интеллектуальную программу, но они имели сильно ошибочные расплывчатые ожидания относительно дружественности своих программ.

Не знание того, как сделать дружественный ИИ, не смертельно само по себе, в том случае, если вы знаете, что вы не знаете. Именно ошибочная вера в то, что ИИ будет дружественным, означает очевидный путь к глобальной катастрофе.

3: Недооценка силы интеллекта. (Underestimating the power of intelligence). 

Мы склонны видеть индивидуальные различия вместо общечеловеческих качеств. Поэтому, когда кто-то говорит слово «интеллект» (intelligence), мы думаем скорее об Эйнштейне, чем о людях. Индивидуальные различия в человеческом интеллекте имеют стандартное обозначение, известные как G-фактор Шпеермана (Spearman’s G-factor), это — спорная интерпретация твёрдых экспериментальных фактов о том, что различные тесты интеллекта высоко коррелируют друг с другом, а также с результатами в реальном мире, такими, как суммарный доход за жизнь. (Jensen, 1999.) G-фактор Шпеермана является статистической абстракцией индивидуальных различий в интеллекте между людьми, которые, как вид, гораздо более интеллектуальны, чем ящерицы. G-фактор Шпеермана выводится из миллиметровых различий в высоте среди представителей вида гигантов.

Мы не должны путать G-фактор Шпеермана с общечеловеческой интеллектуальностью, то есть нашей способностью обрабатывать широкий круг мыслительных задач, непостижимых для других видов. Общая интеллектуальность – это межвидовое различие, комплексная адаптация и общечеловеческое качество, обнаруживаемое во всех известных культурах. Возможно, ещё нет академического согласия об интеллектуальности, но нет сомнения в существовании, или силе, такой вещи, которая должна быть объяснена. Есть что-то такое в людях, что позволяет нам оставлять следы ботинок на Луне.

Но слово «интеллектуальность» обычно вызывает образы голодающего профессора с IQ в 160 единиц и миллиардера-главу компании с IQ едва ли в 120. В действительности, существуют различия в индивидуальных способностях помимо качеств из «книжек про карьеру», которые влияют на относительный успех в человеческом мире: энтузиазм, социальные навыки, музыкальные таланты, рациональность. Отметьте, что каждый из названных мною факторов является когнитивным. Социальные навыки присущи мозгу, а не печени. И – шутки в сторону – вы не обнаружите много глав компаний, ни даже профессоров академии, которые были бы шимпанзе. Вы не обнаружите много ни прославленных мыслителей, ни художников, ни поэтов, ни лидеров, ни опытных социальных работников, ни мастеров боевых искусств, ни композиторов, которые были бы мышами. Интеллектуальность – это основание человеческой силы, мощь, которая наполняет другие наши искусства.

Опасность перепутать общую интеллектуальность с g-фактором состоит в том, что это ведёт к колоссальной недооценки потенциального воздействия ИИ. (Это относится как к недооценке потенциально хороших воздействий, равно как и плохих воздействий.) Даже фраза «трансгуманистический ИИ» или «искусственный суперинтеллект» по-прежнему может создавать впечатление о «ящике с книгами как сделать карьеру»: ИИ, который реально хорош в когнитивных задачах, обычно ассоциируется с «интеллектуальностью», подобной шахматам или абстрактной математике. Но не со сверхчеловеческой убедительностью, или со способностью гораздо лучше, чем люди, предсказывать и управлять человеческими институтами, или нечеловечески умом в формулировании длительных стратегий. Так что, может, нам следует подумать не об Эйнштейне, а о политическом и дипломатическом гении 19 века Отто фон Бисмарке? Но это только малая часть ошибки. Весь спектр от деревенского идиота до Эйнштейна, или от деревенского идиота до Бисмарка, уменьшается в маленькую точку на отрезке между амёбой и человеком.

Если слово «интеллектуальность» ассоциируется с Эйнштейном, а не с людьми, то может показаться осмысленным заявление, что интеллектуальность не имеет отношения к ружьям, как если бы ружья росли на деревьях. Может показаться осмысленным заявление о том, что интеллектуальность не имеет ничего общего с деньгами, как если бы мыши использовали деньги. Человеческие существа начинали, не обладая большими активами зубов, когтей, вооружений, или каких-либо других преимуществ, которые были ежедневной валютой для других видов. Если вы взгляните на людей с точки зрения остальной экосферы, не было никакого намёка на то, что мягкие розовые твари в конце концов закроют себя в бронированные танки. Мы создали поле битвы, на котором мы победили львов и волков. Мы не сражались с ними посредством когтей и зубов; у нас было собственное представление о том, что действительно важно. Такова сила творчества.

Винж (Vinge, 1993) уместно замечает, что будущее, в котором существуют умы, превосходящие человеческие, отличается качественно. ИИ – это не удивительный блестящий дорогой гаджет, рекламируемый в свежайших выпусках технических журналов. ИИ не принадлежит к тому же графику, который показывает прогресс в медицине, производстве и энергетике. ИИ – это не то, что вы можете небрежно добавить в люмпен-футуристический сценарий будущего с небоскрёбами и летающими машинами и нанотехнологическими красными кровяными клетками, которые позволяют вам задержать дыхание на 8 часов. Достаточно высокие небоскрёбы не могут начать проектировать сами себя. Люди достигли господства на Земле не из-за того, что задерживали дыхание дольше, чем другие виды.

Катастрофический сценарий, произрастающий из недооценки силы интеллекта, заключается в том, что некто создаст кнопку, не достаточно заботясь о том, что эта кнопка делает, потому что он не думает, что эта кнопка достаточно сильна, чтобы повредить ему. Или, поскольку недооценка силы интеллекта ведёт к пропорциональной недооценке силы Искусственного Интеллекта, то (в настоящая время микроскопическая) группа озабоченных исследователей и поставщиков грантов и отдельных филантропов, занимающихся рисками существованию, не будет уделять достаточно внимания ИИ.

Или широкое поле исследований ИИ не будет уделять достаточно внимания рискам сильного ИИ, и в силу этого хорошие инструменты и твёрдые установления для Дружественности окажутся недоступными, когда возникнет возможность создавать мощные интеллекты.

И также следует заметить – поскольку это тоже влияет на глобальные риски – что ИИ может быть мощным решением для других глобальных рисков, и по ошибке мы можем игнорировать нашу лучшую надежду на выживание. Утверждение о недооценке потенциального воздействия ИИ симметрично относительно потенциально хороших и потенциально плохих воздействий. Именно поэтому название этой статьи – «Искусственный интеллект как позитивный и негативный фактор глобального риска», а не «Глобальные риски Искусственного интеллекта». Перспектива ИИ влияет на глобальные риски более сложным образом; если бы ИИ был чистой помехой, ситуация была бы проще.

4: Способности и мотивы. (Capability and motive). 

Есть один вид ошибочности, часто встречающийся в дискуссиях об ИИ, особенно об ИИ сверхчеловеческих способностей. Кто-нибудь говорит: «Когда технологии продвинутся достаточно далеко, мы будем способны создавать интеллекты, далеко превосходящие человеческие. Очевидно, что размер ватрушки, который вы можете испечь, зависит от вашего интеллекта. Суперинтеллект может создавать гигантские ватрушки – ватрушки, размером с города – боже мой, будущее будет полно гигантских ватрушек!» Вопрос в том, захочет ли суперинтеллект создавать огромные ватрушки. Видение образа ведёт прямо от возможности к реализации, без осознавания необходимого промежуточного элемента – мотива. Следующие цепочки рассуждений, рассматриваемые в изоляции без подтверждающего доказательства, все являются примером Ошибочности Гигантской Ватрушки:

  • Достаточно сильный ИИ может преодолеть любое человеческое сопротивление и истребить человечество. (И ИИ решит сделать это.) Поэтому мы не должны строить ИИ.
  • Достаточно сильный ИИ может создать новые медицинские технологии, способные спасти миллионы человеческих жизней. (И он решит сделать это.) Поэтому мы должны создать ИИ.
  • Когда компьютеры станут достаточно дёшевы, огромное большинство работ будет выполняться ИИ более легко, чем людьми. Достаточно сильный ИИ даже будет лучше нас в математике, конструировании, музыке, искусстве и во всех других работах, которые нам кажутся важными (И ИИ решит выполнять эти работы.) Таким образом, после изобретения ИИ, людям будет больше нечего делать, и мы будем голодать или смотреть телевизор.

4.1: Процессы оптимизации. (Optimization processes) 

Вышеприведенный разбор ошибочности Гигантской Ватрушки имеет органически присущий ему антропоморфизм – а именно, идею о том, что мотивы разделимы; подразумеваемое предположение о том, что, говоря о «способностях» и «мотивах», мы разрываем связность реальности. Это удобный срез, но антропоморфический.

Для того, чтобы рассмотреть проблему с более общей точки зрения, я ввёл концепцию процесса оптимизации: системы, которая поражает маленькие цели в большом пространстве поиска, чтобы порождать согласованные эффекты в реальном мире.

Процесс оптимизации направляет будущее в определённые регионы возможного. Когда я посещаю удалённый город, мой друг из местных вызывается отвезти меня в аэропорт. Я не знаю окрестностей. Когда мой друг выезжает на перекрёсток, я не могу предсказать его повороты, ни в последовательности, ни по отдельности. Но я могу предсказать результат непредсказуемых действий моего друга: мы прибудем в аэропорт. Даже если дом моего друга находится в другом месте города, так что моему другу придётся совершить совершенно другую последовательность поворотов, я могу с той же степенью уверенности предсказать, куда мы конце концов прибудем. Не странная ли эта ситуация, научно говоря? Я могу предсказать результат процесса, будучи неспособным предсказать ни один из его промежуточных этапов. Я буду называть область, в которую процесс оптимизации направляет будущее, целью оптимизации.

Рассмотрим автомобиль, например, Тойоту Кароллу. Из всех возможных комбинаций атомов, которые её составляют, только бесконечно малая часть будет работающим автомобилем. Если вы будете собирать атомы в случайном порядке, много много возрастов вселенной пройдёт, пока вам удастся собрать автомобиль. Малая доля пространства проектов описывает автомобили, которые мы могли бы признать как более быстрые, более эффективные и более безопасные, чем Королла. Таким образом, Королла не является оптимальной с точки зрения целей своего конструктора. Но Королла является, однако, оптимизированной, поскольку конструктор должен был попасть в сравнительно бесконечно малую область в пространстве возможных конструкций, только чтобы создать работающий автомобиль, не говоря уже о машине качества Короллы. Вы не можете даже построить эффективную тележку, распиливая доски случайно и сколачивая их по результатам броска монеты. Чтобы достичь такой малой цели в пространстве конфигураций, необходим мощный оптимизационный процесс.

Понятие о «процессе оптимизации» является предсказательно полезным, поскольку легче понять цель процесса оптимизации, чем его пошаговую динамику. Обсуждение Короллы выше неявно предполагает, что конструктор Короллы пытался создать «автомобиль», средство транспорта. Это предположение следует сделать явным, но оно не ошибочно и оно очень полезно для понимания Короллы.

4.2: Наведение на цель. (Aiming at the target.) 

Есть соблазн спросить, что ИИ будет хотеть, забывая о том, что пространство умов-вообще гораздо больше, чем малая человеческая точка. Следует сопротивляться соблазну распространить количественные ограничения на все возможные умы. Рассказчики историй накручивают сказки об отдалённой и экзотичной земле, называемой Будущее, говоря, каким будущее должно быть. Они делают предсказания. Они говорят: «ИИ нападёт на людей с помощью армий марширующих роботов» или «ИИ изобретёт лекарство от рака». Они не предлагают сложных отношений между изначальными условиями и результатами – так они могли бы потерять аудиторию. Но мы нуждаемся в понимании соотношений, чтобы управлять будущим, направляя его в область, приятную человечеству. Если не рулить, мы рискуем попасть туда, куда нас занесёт.

Главный вызов состоит не в том, чтобы предсказать, что ИИ атакует людей с помощью армий роботов, или, наоборот, введёт лекарство от рака. Задача состоит даже не в том, чтобы сделать это предсказание для произвольного устройства ИИ. Скорее, задача состоит в том, чтобы выбрать и создать такой процесс оптимизации, чьи позитивные эффекты могут быть твёрдо доказаны.

Я усиленно призываю своих читателей не начинать придумывать причины, почему универсальный процесс оптимизации должен быть дружественным. Естественный отбор не является дружественным, ни ненавидит вас, ни оставляет вас в одного. Эволюция не может быть так антропоморфизирована, она не работает, как вы.

Многие биологи до 1960-х годов ожидали, что естественный отбор создаст полный набор всех хороших вещей, и выдумывали всевозможные усложнённый причины, почему он должен сделать это. Они были разочарованы, поскольку естественный отбор сам по себе не начинает со знания, что от него хотят приятного человеку результата, и затем не придумывает сложные пути, чтобы создать приятные результаты, используя давление отбора. Таким образом, события в природе были результатами совершенно других по своим причинам процессов, чем те, что приходили в голову биологам до 1960-х годов, и поэтому предсказания и реальность расходились.

Мышление, привязанное к цели (wishful thinking), добавляет детали, ограничивает предсказания и таким образом отягощает невозможностью. Как насчёт инженера гражданских сооружений, который надеется, что мост не упадёт? Следует ли инженеру доказывать это тем, что мосты обычно не падают? Но природа сама по себе не предлагает разумных причин, почему мосты не должны падать. Скорее, это инженер преодоляет тяжесть недостоверности (burden of improbability) посредством специфического выбора, направляемого специфическим пониманием. Инженер начинает с намерения создать мост. Затем он использует строгую теорию, чтобы выбрать конструкцию моста, которая бы выдерживала автомобили. Затем строит реальный мост, чья структура отражает рассчитанный проект. И в результате реальная структура выдерживает автомобили. Таким образом достигается гармония предсказанных позитивных результатов и реальных позитивных результатов.

5: Дружественный ИИ. (Friendly AI). 

Было бы очень здорово, если бы человечество знало, как создать мощный оптимизационный процесс с неким частным результатом. Или, говоря более общими словами, было бы здорово, если бы мы знали, как создать хороший ИИ (nice AI).

Для того, чтобы описать область знания, необходимого, чтобы взяться за этот вызов, я предложил термин «Дружественный ИИ». Этот термин я отношу не только к самой методике, но также и к её продукту – то есть к ИИ, созданному со специфической мотивацией. Когда я использую термин Дружественный в любом из этих двух смыслов, я пишу его с большой буквы, чтобы избегать путаницы с обычным смыслом слова «дружественный».

Типичная реакция на это людей, которую я часто встречал, заключалась в немедленном заявлении, что Дружественный ИИ невозможен, потому что любой достаточно сильный ИИ сможет модифицировать свой собственный исходный код так, чтобы разорвать любые наложенные на него ограничения.

Первую логическую несообразность, которую вы тут можете отметить – это ошибочность Гиганстской Ватрушки. Любой ИИ, имеющий свободный доступ к своему исходному коду, в принципе, будет обладать способностью изменить свой код таким образом, что изменится его цель оптимизации. Но это не означает, что ИИ имеет побуждение изменить свои собственные побуждения. Я не стану сознательно глотать пилюлю, которая побудит меня наслаждаться убийствами, потому что я в настоящем предпочитаю, чтобы мои собратья — люди не умирали.

Но что если я попытаюсь изменить себя и сделаю ошибку? Когда компьютерные инженеры доказывают пригодность чипа – что есть хорошая идея, если в чипе 155 миллионов транзисторов, и вы не можете выпустить патч потом – инженеры используют руководимую человеком и проверяемую машинами формальную проверку. Замечательным свойством формального математического доказательства является то, что доказательство из 10 миллиардов шагов в той же мере надёжно, что и доказательство из 10 шагов. Но человеческие существа недостойны доверия в том, чтобы следить за проверкой из 10 миллиардов шагов; у нас слишком высокие шансы пропустить ошибку. Современные техники доказывания теорем не достаточно умны, чтобы спроектировать и проверить целый компьютерный чип сами по себе – современные алгоритмы испытывают экспоненциальный рост по мере увеличения пространства поиска. Люди-математики могут доказывать теоремы гораздо более сложные, чем те, что могут осилить современные программы-доказыватели, без того, чтобы быть поверженными экспоненциальным взрывом. Но люди-математики неформальны и ненадёжны; время от времени кто-то находит ошибку в принятом ранее неформальном доказательстве. Выход состоит в том, что люди-инженеры направляют программы-доказыватели на промежуточные шаги доказательства. Человек выбирает следующую лемму, и сложный доказыватель теорем генерирует формальное доказательство, и простой проверяльщик сверяет шаги. Таким образом современные инженеры создают надёжные механизмы со 155 миллионами независимых частей.

Проверка корректности работы компьютерного чипа требует синергии человеческого интеллекта и компьютерных алгоритмов, поскольку сейчас ни того, ни другого недостаточно. Возможно, подлинный ИИ будет использовать подобную комбинацию способностей, когда будет модифицировать свой собственный код – будет обладать как способностью вводить объёмные проекты без того, чтобы потерпеть поражение от экспоненциального роста, так и способностью проверить свои шаги с высокой надёжностью. Это один из путей, которым подлинный ИИ может оставаться познаваемо (knowably) стабильным в своих целях даже после выполнения большого количества самоисправлений.

Эта статья не будет разъяснять приведённую выше идею в деталях. (Также см. Schmidhuber 2003 на связанную с данной тему.) Но следует подумать об этом вызове, и изучить его с привлечением наилучших доступных технических данных, до того, как объявлять его невозможным – особенно, если большие ставки зависят от ответа. Неуважительно по отношению к человеческой изобретательности объявлять проблему неразрешимой без внимательного и творческого рассмотрения. Это очень сильное заявление: сказать, что вы не можете сделать нечто – что вы не можете построить летающую машину тяжелее воздуха, что вы не можете извлечь полезную энергию из ядерных реакций, что вы не можете летать на Луну. Такие заявления являются универсальными обобщениями, относящимися к любому возможному подходу к решению этой проблемы, который кто-либо придумал или придумает. Требуется всего один противоположный пример, чтобы опровергнуть универсальное обощение. Утверждение о том, что Дружественный (или дружественный) ИИ теоретически невозможен, осмеливается относиться к любым возможным устройствам ума и любым возможным процессам оптимизации – включая человеческие существа, которые тоже имеют ум, и многие из которых хорошие (nice) и хотят быть ещё лучше. На настоящий момент имеется неограниченное количество расплывчато убедительных аргументов, почему Дружественный ИИ может быть не под силу человеку, и всё же гораздо вероятнее, что проблема разрешима, но никто не соберётся решить её вовремя. Но не следует слишком быстро списывать проблему, особенно учитывая масштаб ставок.

6: Техническая неудача и философская неудача. (Technical failure and philosophical failure.) 

Бостром (Bostrom, 2001) определяет глобальную катастрофу (existential catastrophe) как такую, которая истребляет возникшую на Земле разумную жизнь или необратимо повреждает часть её потенциала. Мы можем разделить потенциальные ошибки в попытках создания Дружественного ИИ на две неформальные категории, техническую ошибку и философскую ошибку. Техническая состоит в том, что вы пытаетесь создать ИИ, и он не работает так, как должен – вы не смогли понять, как работает на самом деле ваш собственный код. Философская неудача заключается в попытке построить неправильную вещь, так что даже если вы достигните успеха, вы всё равно не сможете никому помочь или облагодетельствовать человечество. Нет необходимости говорить о том, что одна ошибка не исключает другую.

Граница между двумя случаями тонка, поскольку большинство философских ошибок гораздо легче объяснить при наличии технического знания. В теории вы должны сначала заявить, что вы хотите, а затем обрисовать, как вы это достигните. На практике часто требуется глубокое техническое понимание, чтобы очертить то, что вы хотите.

6.1: Пример философской ошибки. (An example of philosophical failure.) 

В конце 19 века многие честные и интеллигентные люди выступали за коммунизм, исходя только из лучших побуждений. Люди, которые первыми ввели, распространили и усвоили коммунистическую идею (meme) были, по строгому историческому счёту, идеалистами. У первых коммунистов не было предупреждающего примера Советской России. В то время, без преимущества знания задним числом, это должно было звучать как весьма хорошая идея. После революции, когда коммунисты пришли к власти и были отравлены ею, в игру могли вступить другие мотивы; но это не было предсказано первыми идеалистами, несмотря на то, насколько это могло быть предсказуемо. Важно понимать, что автор огромной катастрофы не должен быть злым или особо тупым. Если мы отнесём любую трагедию насчёт зла или особенной глупости, мы посмотрим на себя, правильно обнаружим, что мы не злы и не особенно тупы и скажем: «Но ведь это никогда не случится с нами».

Первые коммунисты думали, что эмпирическим последствием их революции будет то, что жизнь людей должна улучшиться: рабочие больше не будут работать долгие часы на изнурительной работе и получать за это мало денег. Это оказалось не совсем так, мягко говоря. Но то, что, по мнению первых коммунистов, должно было получится, не сильно отличалось от того, что, по мнению сторонников других политических систем, должно было быть эмпирическим последствием их любимой политической системы. Они думали, что люди будут счастливы. Они заблуждались.