Russian
| English
"Куда идет мир? Каково будущее науки? Как "объять необъятное", получая образование - высшее, среднее, начальное? Как преодолеть "пропасть двух культур" - естественнонаучной и гуманитарной? Как создать и вырастить научную школу? Какова структура нашего познания? Как управлять риском? Можно ли с единой точки зрения взглянуть на проблемы математики и экономики, физики и психологии, компьютерных наук и географии, техники и философии?"

«ЕГЭ КАК КАТАЛИЗАТОР КРИЗИСА РОССИЙСКОГО ОБРАЗОВАНИЯ» 
Г.Г. Малинецкий, А.В. Подлазов

Единый государственный экзамен, по всей видимости, в ближайшие годы будет той реальностью, в условиях которой предстоит существовать средней и высшей школам России. Отношение активной части общества к этой технологии было и остается, мягко говоря, неоднозначным. Как будет показано ниже, плюсы от внедрения егэ в его нынешнем виде во многом иллюзорны, тогда как минусы вполне осязаемы. В статье подробно рассматриваются эти и некоторые другие системные недостатки егэ и намечаются пути к их преодолению без отказа от единого экзамена. Поскольку в официальных документах, регламентирующие проведение егэ, не освещаются используемые методы моделирования и параметризации педагогических тестов, дается их описание с анализом недостатков – как неустранимых, так и привнесенных неграмотным использованием

Постановка задачи

Единый государственный экзамен (егэ [1] ), по всей видимости, в ближайшие годы будет той реальностью, в условиях которой предстоит существовать средней и высшей школам России. Отношение активной части общества к этой технологии было и остается, мягко говоря, неоднозначным. Как будет показано ниже, плюсы от внедрения егэ в его нынешнем виде во многом иллюзорны [2] , тогда как минусы вполне осязаемы.

Отечественное образования находится в кризисе, столь глубоком, что он в долговременной перспективе угрожает самому существованию страны. Поэтому крайне важно понимать, как сказываются на перспективах системы образования проводимые реформы, среди которых одну из первых ролей играет именно введение единого государственного экзамена, лишь усиливающего кризисные процессы, но никак не противостоящего им.

На наш взгляд, правильным был бы полный отказ от единого государственного экзамена, пагубным образом влияющего на образование. Однако, исходя из возможного, в данной работе авторы видят свою задачу не в обосновании необходимости отмены егэ, а в обсуждении его дефектов и в поиске путей их преодоления.

Сейчас события развиваются в сторону приспособления образовательной системы к егэ и выработки методов его саботажа. Такой результат не может радовать ни сторонников единого экзамена, ни его противников. Первые вряд ли удовлетворятся тем, что ни одна из декларируемых целей его введения так и не была достигнута [3] . А вторых пугают осложнения, к которым может привести болезнь под названием егэ, если не лечить ее, а лишь загонять вглубь.

Чтобы единый экзамен мог превратиться из очередного бездумного (а, возможно, и злонамеренного) начинания властей в полезный и приемлемый для общества инструмент, придется радикально изменить его формы и существенно уточнить его цели, а кроме того, привести первое хотя бы в минимальное соответствие со вторым.

Заметим, что в контексте реформы и развития системы образования тема егэ является, на самом деле, второстепенной. Вне всякого сомнения, гораздо важнее вопросы, связанные с тем, какое нам нужно образование, каковы его задачи, может ли их достижение быть измерено оценками и могут ли оценки служить мотивации ученика. Но эти вопросы, не имеющие простых и однозначных ответов, мы оставляем в стороне, сосредоточившись только на теме егэ, допускающей раскрытие в рамках отдельной работы.

Достижение в обществе взаимопонимания по этой узкой теме могло бы стать минимальной гарантией того, что и более сложные вопросы могут быть со временем успешно разрешены. А если взаимопонимание не будет достигнуто, то егэ вскоре добьет российское образование, и эти вопросы утратят свою актуальность.

Ты перестала пить коньяк по утрам?

Одним из острых вопросов, вставших в связи с переходом на егэ, является определение того, в какой мере обезличенные и унифицированные методы проверки применимы к тем или иным предметам.

Сложность организации человеконезависимого экзамена состоит в том, что он может включать в себя лишь такие вопросы, на которые существует однозначный, объективно верный ответ. Чем дальше дисциплина от математики, тем обременительней это условие. И если для русского языка, информатики или физики соблюсти его еще как-то можно, то для литературы, истории или обществознания оно вряд ли выполнимо, что на практике приводит к бессодержательности большинства егэшных заданий по этим предметам [4] .

В настоящий момент никому не известно, для каких школьных предметов вообще возможна разработка содержательных заданий, пригодных для формальной проверки. Собственно говоря, нормальное введение единого государственного экзамена должно было начинаться с отработки способов его организации и проведения на математике, выделенной наличием бесспорных критериев истинности. И лишь после достижения успеха с математикой можно было бы переходить к другим дисциплинам, постепенно выявляя и преодолевая специфические для них трудности.

Однако организаторы егэ решили наступать широким фронтом, не думая о сложностях, с которыми связана формализация экзамена почти по всем школьным предметам. Наличие множества различных концепций и трактовок, систем терминов и классификаций, приближений и уровней описания может стать причиной неоднозначного восприятия формулировки заданий. Более того, даже для однозначно трактуемого вопроса то, какой ответ на него следует считать правильным, может радикально зависеть от глубины знаний. А ведь при проведении массового экзамена возможно и даже неизбежно возникновение коллизий, когда экзаменуемый превосходит проверяющего по уровню знаний, что почти исключает выставление адекватной оценки. К аналогичному результату в случае единого экзамена ведет различное построение курсов или использование разных учебников.

Причем не следует думать, что это особенность только дисциплин, касающихся человека и общества. В наиболее острой форме она проявилась в …химии, являющейся безусловным лидером по числу отловленных егэшных ляпов. Дело в том, что школьная химия – наука уже достаточно нестрогая, чтобы неквалифицированные авторы в изобилии создавали задания, которые понимаются и выполняются совершенно по-разному, в зависимости от того, чему и как учили. Но, с другой стороны, благодаря наличию объективных экспериментальных данных и точных физических теорий квалифицированный человек может отловить и аргументировано описать все глупости.

Для тех предметов, по которым проводится егэ, есть только два пути: либо составление продуманных заданий, что требует совершенно иного подхода к их разработке, либо унификация школьной программы до состояния единственно верного учения, что более соответствует нашей традиции.

К сожалению, пока события развиваются по второму пути. Происходит насаждение единомыслия, временами переходящего в безмыслие [5] . Чтобы успешно справляться с заданиями, предполагающими единственно верный ответ, экзаменуемый вынужден оперировать в той же системе взглядов, которой пользуются составители заданий. Если же он читал другие книги или его знания выходят за пределы школьной программы, он неизбежно оказывается в проигрыше.

Однако, не теряя надежды на то, что рано или поздно ситуация изменится, будем далее полагать, что описанная проблема уже решена.

Принципы и частности

Дефекты егэ уместно подразделить на системные и частные. Если исправление первых, которые и будут основным предметом дальнейшего анализа, требует существенного изменения формы проведения экзамена, то вторые могут быть легко устранены и в ее рамках.

Например, все варианты заданий, предлагавшиеся на экзамене, необходимо сразу после его проведения публиковать вместе с решениями и правилами начисления баллов, чтобы недовольные оценкой экзаменуемые понимали, где их могли «обсчитать». А чтобы они не боялись требовать своего, им следует гарантировать, что на апелляции оценка ни за одно задание не может быть уменьшена даже при обнаружении пропущенных при его проверке недочетов. Кроме того, экзаменуемый должен сразу после экзамена получать на руки копии всех экзаменационных бланков, содержание которых проверяется компьютером. В силу того, что по ним не допускается апелляция, снова увидеть свои ответы уже невозможно и нет никакой возможности установить, кто допустил ошибку – экзаменуемый или компьютер.

Вся первичная информация по результатам проведения единого государственного экзамена должна находиться в открытом доступе. Любой желающий должен иметь возможность получить исчерпывающие сведения о выполнении каждого задания каждым экзаменуемым [6] (с указанием доставшегося ему варианта, а также учебного заведения, которое он окончил, и места, где проходил тестирование). Без публикации полной статистики егэ никакого доверия ему быть не может.

Еще одной очевидной и легко исправляемой глупостью является установка порогов прохождения итоговой аттестации после проведения экзамена. Это обессмысливает само понятие аттестации. Не вызывает сомнения, что минимальный балл, получение которого свидетельствует об освоении экзаменуемым школьной программы, должен устанавливаться до экзамена, причем не «от фонаря», а по формальным правилам, одинаковым для всех предметов.

Для удовлетворения этим и некоторым другим, столь же очевидным требованиям, необходима только политическая воля. А само возникновение этих дефектов егэ является следствием элементарного нежелания власти вступать с обществом в диалог.

Системные дефекты единого государственного экзамена существенно иные. Они обусловлены, в первую очередь, попытками придать экзамену множественные функции. Нельзя с помощью одного и того же инструмента проводить итоговую аттестацию выпускников и проводить конкурсный отбор абитуриентов, контролировать качество работы отдельного учителя и осуществлять мониторинг состояния системы образования в целом. Указанные задачи взаимно несовместимы. Решать их все одновременно означает не решить ни одну.

Другой бедой единого государственного экзамена является обработка его результатов с помощью методов, которые либо научно не обоснованы, либо применяются с грубейшими ошибками. Это не только самостоятельная проблема, но и показатель общего уровня проработанности всей процедуры егэ, в т.ч. и тех ее частей, практическая реализация которых не может быть соотнесена с положениями какой-либо теории.

Еще один огромный недостаток егэ связан с массовым использованием заданий-угадаек. Их наличие не только существенно искажает результаты экзамена, но и оказывает демотивирующее влияние на школьников. Чтобы отказаться от подобных заданий, необходимо поднять разработку контрольно-измерительных материалов на иной качественный уровень. То, с каким трудом изживается угадайка [7] , также свидетельствует о фундаментальных проблемах егэ, но уже не процедурного, а содержательного плана.

Отдельно стоит выделить то печальное обстоятельство, что ориентация учебного процесса на подготовку к единому экзамену радикально сказывается на содержании школьного образования. Фактически из инструмента контроля егэ превращается в центральный элемент формирования образовательной политики, осуществляемой лицами, не имеющими для этого ни квалификации, ни полномочий.

Наконец, нельзя забывать и о том пагубном воздействии, которое оказывает егэ на сферы, не относящиеся непосредственно к подготовке к экзамену или к его проведению. Разрушается система профессиональной ориентации и довузовской подготовки школьников. Не используются или даже блокируются каналы обратной связи, необходимые для принятия управленческих решений в системе образования и получения объективной оценки их результатов. В массовое сознание внедряются искаженные представления о последствиях перехода на егэ. Усиливается образовательная коррупция, и появляются ее новые формы.

Рассмотрим все перечисленные системные дефекты егэ подробно.

За двумя зайцами

Экзамен, как и любой другой измерительный прибор, имеет вполне определенный рабочий диапазон, где его показания адекватны реальности, и за пределами которого прибор бесполезен. Даже возможность переключаться между разными диапазонами без изменения принципов измерения, реализованная в хороших приборах, не позволяет им осмысленно работать в нескольких диапазонах одновременно.

Невозможность объединения в одном приборе микроскопа и телескопа, хотя оба построены на оптических принципах, представляется достаточно очевидной. Впрочем, если нечто невозможно, это еще не значит, что не найдется желающих внедрить это нечто в повседневную практику, прекрасным примером чего и стал единый государственный экзамен. Сейчас в нем объединены функции выпускного экзамена и вступительного. То есть, он используется для выявления одновременно и тех, кому нельзя выдавать аттестат зрелости, т.к. они не смогли освоить школьную программу, и тех, кому имеет смысл получать в проверяемой области профессиональную специализацию. При этом обе задачи решаются из рук вон плохо. Единый измерительный прибор может справляться или не справляться со своей функцией в середине диапазона, но он оказывается заведомо неэффективен на обоих его концах – при оценивании как худших, так и лучших.

С одной стороны, основная масса экзаменуемых даже не пытается выполнять самые сложные задания, воспринимая их как заведомо находящиеся за пределами своих возможностей. Это означает лишь то, что эти выпускники изначально оцениваются не из полного балла, поэтому для них требования егэ оказываются завышенными. Ситуация дополнительно усугубляется тем, что для самых слабых выпускников результат экзамена по большинству предметов вообще определяется не выполнением заданий, а лишь угадыванием их ответов.

С другой стороны, относительно простые задания, нацеленные на проверку базовых знаний, умений и навыков (зунов) и сами по себе не представляющие проблемы для подготовленных школьников, не оставляют времени для качественного выполнения сложных заданий, над которыми нужно думать. Экзамен становится соревнованием по скорости и автоматизму, не позволяя абитуриентам продемонстрировать свои таланты, и с этой точки зрения, требования егэ неизбежно оказываются заниженными. И, опять же, ситуация дополнительно усугубляется тем, что уровень даже наиболее сложных заданий по каждому предмету недостаточен для того, чтобы проверить соответствие подготовки абитуриентов требованиям сильнейших вузов.

Однако, сколько бы ни твердили учителя о невозможности совместить тесты достижений с тестами способностей , что потенциал человека не находится в прямой зависимости от объема его знаний, это никоим образом не препятствовало внедрению егэ в его нынешнем виде. Сформировался метод оценки, вроде бы, и не достижений выпускника, но, вроде бы, и не способностей абитуриента, а чего-то среднего, не являющегося, тем не менее, ни тем, ни другим. Это в равной степени гибельно и для средней школы, поскольку учителям и ученикам задаются непонятные ориентиры, и для высшей, поскольку вузы вынуждены набирать неадекватно оцененных абитуриентов.

Абсурдность ситуации усиливается тем обстоятельством, что описанная проблема имеет тривиальное решение. Если достижения и способности нельзя проверить одновременно, их следует проверять порознь. Единый экзамен не должен быть единственным! Само слово «единый» следует понимать исключительно как общий для всей страны, но не как объединяющий в себе выпускной и вступительный.

Иными словами, по каждому предмету надо проводить вместо одного экзамена два, имеющих различную направленность. Первый, являющийся общеобязательным, проверяет наличие у выпускника тех базовых знаний, умений и навыков, которыми по завершению обучения в школе он не имеет права не обладать (образовательный стандарт). Второй, сдаваемый только поступающими в вузы, выявляет потенциал абитуриента, его умение самостоятельно мыслить, порождая идеи, которые не даны заранее, и анализировать материал, связывая причины и следствия, то есть активно применять весь арсенал зунов, полученных в рамках школьной программы.

Принципиально, что эти два экзамена не могут быть объединены в одном временном отрезке, ибо, с одной стороны, необходимо гарантировать независимость оценок за их выполнение, а с другой – они несовместимы по требуемому психологическому настрою экзаменуемого. Сдавать их вместе – это всё равно, как стрелять после бега (конечно, состязания по биатлону интересней, чем просто лыжные гонки или стрельба, но биатлонисты-то идут на это совмещение добровольно).

Кроме того, тесты достижений и способностей предполагают диаметрально противоположный взгляд на оригинальное мышление, на нетривиальные способы выполнения заданий. И если во втором случае умение найти неожиданное решение задачи или проявить более глубокое, чем предписано программой, видение проблемы, является высшим достижением, то в первом это есть попытка уклониться от требования продемонстрировать владение совершенно конкретными зунами, которая должна караться.

Наконец, разделение экзаменов по времени в принципе позволяет проводить тест достижений существенно – скажем, на полгода – раньше теста способностей. При этом у школьников будет возможность на завершающем этапе обучения сосредоточиться на предметах, связанных с их будущей профессиональной специализацией, по которым им предстоит проходить тест способностей. А в случае провала теста достижений по какому-то предмету остается достаточно времени, чтобы подтянуть его и пересдать до окончания школы, дабы не остаться без аттестата.

Тем не менее, разумной процедуры единого государственного экзамена недостаточно для того, чтобы вузы согласились признавать его результаты без выкручивания рук и угрозы антикоррупционного шельмования. И это неудивительно, ведь если взятки за поступление берет лишь какая-то часть вузовских преподавателей, то работать со студентами, не имеющими базовой подготовки и не умеющими учиться, не хочет никто. Нет никакой возможности на основе формальных критериев отличить те вузы, которые противятся введению егэ из-за стремления сохранить коррупционные доходы, от тех, которые видят в нем препятствие отбору удовлетворяющих их требованиям абитуриентов.

Сейчас разработка контрольно-измерительных материалов (кимов) для егэ осуществляется закрытыми структурами, аффилированными с Рособрнадзором. И хотя из года в год неудовлетворительный уровень наполнения кимов уже стал общим местом, никому толком неизвестно, что за люди являются их авторами, на каком основании именно они допущены к этой работе и какую ответственность несут за ее результаты.

Решить как проблему субъективного признания вузами результатов егэ, так и проблему объективно низкого качества кимов можно, передав их разработку преподавательскому корпусу. В случае второго экзамена – преподавателям высшей школы, которым и предстоит в дальнейшем работать с теми, кого оценивают с помощью егэ, в случае первого экзамена – школьным учителям, которые и закладывают основы проверяемых знаний, умений и навыков.

Поскольку результаты экзамена, так или иначе, свидетельствуют и о качестве работы самих учителей, нужна независимая от них экспертиза кимов, что и должно быть функцией Министерства образования и его служб в деле разработки кимов. Ее финансирование также следует вывести из его ведения, чтобы гарантировать независимость разработчиков. Зато ответственность последних должна стать персональной, то есть для каждого задания должно указываться лицо, отвечающее за его качество и корректность.

В этих естественных предложениях нет ничего революционного. К примеру, в научных фондах, выдающих гранты на проведение исследований, оценка деятельности и перспектив соискателей проводится представителями научного сообщества, а не чиновниками, на которых возложены лишь организационно-технические функции. Точно так же и в случае егэ решать, что и как требовать с выпускников и поступающих, могут только преподаватели средней и высшей школ, предметно знающие их конкретику. А на долю чиновников останется проверка соответствия кимов школьной программе и образовательному стандарту, ну, и, собственно, проведение егэ.

Тридцать восемь попугаев и одно попугайское крылышко

Если экзамен – измерительный прибор, то принципиально важным является то, каким образом получается результат измерения и в каких единицах он исчисляется.

На егэ каждое задание имеет определенную номинальную стоимость . Сумма номинальных стоимостей заданий, выполненных экзаменуемым, составляет его первичный балл , который, однако, носит только вспомогательный характер. В соответствии с некоторой нелинейной шкалой (о способе построения и особенностей которой речь пойдет далее) он пересчитывается втестовый балл , который и является результатом сдачи единого государственного экзамена.

Тестовый балл исчисляется по стобалльной шкале, поэтому далее происходит еще один раунд преобразований, связанный с определением ее диапазонов, соответствующих оценкам привычной «пятибалльной» [8] шкалы выпускного экзамена. Границы этих диапазонов различны для разных предметов и меняются от года к году. Переход в 2009 г. с «пятибалльной» шкалы на двухбалльную (зачет-незачет) ситуации не изменил, зато отчетливо выявил смысл манипуляций с границами диапазонов. Она имеет целью исключительно управление долей различных оценок, в первую очередь, – двоек, высокий процент которых вызывает широкий общественный резонанс.

С оценками выпускного экзамена ситуация не менее сложная. До недавнего времени здесь тоже присутствовал дополнительный раунд преобразований, превращавших тестовые баллы во вступительные. Правила этих преобразований устанавливались вузами самостоятельно, что, хотя и давало возможность как-то учесть специфику каждого из них, но окончательно запутывало картину, не позволяя абитуриенту получить однозначное представление о том, насколько успешен его результат. С 2009 г. тестовые баллы егэ по предметам, соответствующим выбранной абитуриентом специальности, просто суммируются, давая его вступительный балл . Но егэ – такая непродуманная конструкция, что если хвост здесь вылез, значит, нос, непременно, увяз. За некоторое прояснение правил пришлось заплатить полным обессмысливанием результата их применения. Очевидно, что и от специальности, и от вуза существенно зависит относительная значимость оценок по разным предметам. И просто суммировать их, это всё равно, что пытаться определить сумму денег в кармане, суммируя номиналы банкнот, не обращая внимания на то, в какой они валюте [9] .

В действительности дела здесь обстоят намного хуже, поскольку даже при равной значимости двух предметов нет никаких гарантий, что, скажем, 70 баллов по одному предмету + 90 по другому – это то же самое, что 80 + 80 или 90 + 70. Если неизвестно, каким способом градуирована шкала прибора, то нельзя быть уверенным, что цена его делений одинакова по всей шкале. А в случае шкалы тестовых баллов егэ можно показать, что они заведомо неравноценны.

За десятилетие проведения единого государственного экзамена его организаторы так и не сумели внятно объяснить обществу, что же там считается, каким образом и почему именно так, а не иначе. Но само по себе это еще не есть проблема. В конце концов, измерительный прибор не обязан иметь простое и общепонятное устройство – он должен давать надежные и однозначно интерпретируемые показания. Но вот этого, как раз, и нет.

Номинально в основе процедуры пересчета первичных баллов в тестовые лежит теория моделирования и параметризации педагогических тестов (items response theory). Однако ее методы используются зачастую за пределами их применимости, а рекомендации грубо нарушаются буквально на каждом шагу. Немаловажно и то, что в официальных документах, регламентирующих проведение егэ, описание методов обработки его результатов вообще отсутствует. Вместо этого приводятся лишь ссылки на научные публикации неясного правового статуса.

Возьмем на себя труд по описанию и разбору используемых методов.

Тестология – in vitro & in vivo

Для проведения любых тестов необходимо большое число разных вариантов, которые неизбежно будут неодинаковы по сложности. Компенсация ее различий и является главной задачей пересчета баллов. Теория моделирования и параметризации педагогических тестов решает эту задачу посредством математических моделей, выражающих вероятности определенных исходов выполнения задания экзаменуемым через некие характеризующие их параметры.

Краеугольным камнем теории является однопараметрическая модель Раша , формулирующаяся для заданий сдихотомическим исходом , т.е. оцениваемых из одного балла (успех или неуспех). Она сводится к гипотезе о том, что отношение вероятности справиться с некоторым заданием p к вероятности не справиться с ним 1– p равно отношениюзнаний экзаменуемого Z к трудности этого задания T . Две последние величины сами по себе неопределимы, и возможно оперировать только их отношением. Поэтому, как это часто делается в подобных случаях, переходят к логарифмической мере –логитам [10] знаний z = ln Z / W и трудностей t = ln T / W , где W – некий опорный уровень . Его выбор, равно как и выбор основания логарифма, несущественен, т.к. линейное отображение диапазона логитов знаний на заранее определенный диапазон тестовых баллов элиминирует эти два параметра.

Сразу обратим внимание, что модель Раша обоснована только для гомогенных тестов, т.е. состоящих из однотипных заданий. В случае же столь сложной структуры тестов, которая нужна для выпускного или вступительного экзаменов (и тем более, в случае попыток их совмещения), невозможно гарантировать достаточно высокую корреляцию результатов выполнения отдельных заданий с результатами выполнения теста в целом, что автоматически выводит нас из области применимости модели. Более того, гомогенность становится невозможно даже проверить, поскольку, чем хуже устроен тест, тем в большей мере он проверяет не владение предметом, а готовность к сдаче тестов такого типа.

Кроме того, очевидно, что задания с выбором ответа из нескольких предложенных вариантов, используемые в части A егэ, радикально нарушают предположения модели. Вероятность успешного выполнения таких заданий-угадаек существенно ненулевая при сколь угодно низких знаниях, поскольку даже расставленные наугад крестики принесут какое-то количество баллов. Следовательно, результаты обработки результатов единого экзамена с помощью формул модели Раша неизбежно оказываются искажены.

Однако предположим, что этих проблем нет, и пойдем дальше.

Пусть имеется N экзаменуемых, характеризующихся логитами знаний z i ( i = 1,2,… N ), и каждому из них предложен вариант, состоящий из K заданий с логитами трудностей t j ( j = 1,2,… K ). В соответствие с моделью Раша, вероятность успешного выполнения j -го задания i -м экзаменуемым есть

.

Результатом тестирования будет матрица исходов || a ij || размерности N x K , состоящая из нулей и единиц. На ее основе с помощью метода наибольшего правдоподобия [11] можно получить систему уравнений

решение которой дает неизвестные величины z i и t j .

Первая строка системы требует для каждого экзаменуемого совпадения суммы вероятностей успеха по всем заданиям с реальным количеством его успехов b i , которое называется первичным баллом экзаменуемого . Вторая строка требует совпадения суммы вероятностей успеха на каждом задании по всем экзаменуемым с реальным количеством их успехов на нем c j , которое называется первичным баллом задания . Результаты экзамена входят в уравнения только в виде сумм, определяющих первичные баллы. Поэтому экзаменуемые (задания), характеризуемые одинаковым первичным баллом, получат одинаковые оценки знаний (трудностей) [12] .

Заметим, что приведенные уравнения не являются независимыми (сложение уравнений первой строки системы дает тот же результат, что и сложение уравнений второй строки). Это вполне ожидаемо, т.к. неизвестные z i и t j могут быть определены только с точностью до произвольной аддитивной постоянной, задание которой эквивалентно фиксации опорного уровня W , связывающего трудности и знания с их логитами. Как уже было сказано, его величина не влияет на конечный результат, поэтому можно считать, что полученная система уравнений однозначно разрешима.

Задания разных вариантов неизбежно различаются по трудности, поэтому в них включают т.н. якорные задания , общие для всех вариантов. Найденные как решения системы логиты подвергаются такому линейному преобразованию, чтобы трудности якорных заданий из разных вариантов совпали (или оказались максимально близки в смысле какого-либо критерия, если их точное совмещение невозможно). Это позволяет скомпенсировать неравноценность вариантов. Откорректированные таким образом логиты знаний линейно отображаются на какой-либо удобный диапазон значений (например, от 0 до 100) – это и будут тестовые баллы.

Здесь имеется очевидный подводный камень, на который умудрились напороться организаторы егэ. Дело в том, что модель Раша при определении ее параметров с помощью метода наибольшего правдоподобия некорректна для экзаменуемых, показавших абсолютный результат (всё или ничего), – для них она дает логиты знаний z = ± бесконечность. Однако линейно отобразить неограниченный диапазон знаний на ограниченный диапазон тестовых баллов невозможно. Поэтому если кто-то осилил все задания или не осилил ни одного, процедура линейного масштабирования оказывается в принципе невыполнима. Тем не менее, официально принятые и опубликованные правила пересчета, действовавшие до 2008 г., требовали выполнения именно такой процедуры. Но чудес не бывает, и поэтому на практике преобразование осуществлялось не так, как того требовали правила.

Собственно говоря, тут существует единственный и очевидный способ побороть бесконечности. Нулевому результату сразу сопоставляется 0 тестовых баллов, стопроцентному – 100, а вот уже для остальных – неабсолютных – результатов оценки подготовленности подвергаются линейному преобразованию. Однако это элементарное уточнение нашло свое отражение в правилах только в 2008 г., а до того применялось подпольно, что автоматически делает результаты егэ предшествующих лет юридически ничтожными. Понятно, что публично признать подобную накладку немыслимо, поэтому ее исправление было официально обосновано устранением другого изъяна методики пересчета баллов.

До 2008 г. параметры линейного отображения определялись следующим образом (еще раз подчеркнем, что речь идет о практике, а не об официальных правилах). Постоянный сдвиг выбирался так, чтобы средний уровень подготовленности отображался на 50 тестовых баллов, а коэффициент растяжения – так, чтобы конец диапазона оценок подготовленности, дальше отстоящий от среднего, отображался на 1 или 99. При этом другой конец диапазона, который был ближе к среднему, мог отобразиться в тестовый балл, очень далеко отстоящий от своего края шкалы. Так, в 2007 г. на егэ по математике экзаменуемые, набравшие всего 1 первичный балл (из 37, т.е. 2,7%), получали сразу аж 12 тестовых, тогда как на егэ по русскому языку столько же оставалось до 100 тем, кто не добрал всего 2 последних первичных балла (из 60, т.е. 3,3%). Иными словами, было возможно возникновение большой дырки в диапазоне тестовых баллов, причем расположенной с непредсказуемой его стороны. И если первое просто плохо, то второе в условиях действия свидетельств егэ в течение двух лет недопустимо.

Поэтому правила 2008 г. предписывали выбирать параметры линейного отображения так, чтобы оно было по возможности симметричным. Минимальный неабсолютный результат (набран только один первичный балл) отображался на 6 тестовых баллов, а максимальный неабсолютный результат (не набран только один первичный балл) – на 94. Почему стоимость первого и последнего первичных была баллов принята равной именно 6 тестовым, да еще и сразу для всех предметов (задания по которым оцениваются из разного количества первичных баллов), осталось загадкой [13] .

В 2009 г. в правила пересчета были тайно [14] внесены дополнительные изменения. Логиты знаний, попавшие в тот же диапазон, в котором они лежали в 2008 г. преобразовывались по той же формуле, что и год назад, а выходящие за пределы этого диапазона – по дополнительным формулам. Таким образом, отображение перестало быть линейным даже в области неабсолютных результатов, что еще дальше уводит применяемую процедуру от ее научного обоснования.

Кстати, следует заметить, что попытки сделать результаты егэ действительными в течение двух лет, тоже являются начинанием, научно не обоснованным. Оно требует использования якорных заданий для экзамена, проводимого в разные годы. Но это возможно лишь теоретически, а не практически, так как кимы прошлых лет становятся материалом для предэкзаменационной подготовки. В результате, входившие в их состав якорные задания оказываются знакомы новым экзаменуемым, так что субъективная трудность этих заданий уменьшается на неопределенную величину. Вообще говоря, проблематичным является соотнесение даже результатов егэ разных волн, разделенных неделями, – срок достаточный для ознакомления с предъявленными заданиями.

Все описанные выше глупости и несуразности, за исключением наличия в егэ задач-угадаек, в сущности, являются мелочами, свидетельствующими о неспособности егэшников разобраться в теории, на положения которой они, якобы, опираются. Однако тут имеется и по-настоящему серьезная, но тоже рукотворная проблема. В процедуру пересчета баллов была добавлена еще одна стадия, теорией непредусмотренная.

Дело в том, что после корректировки логитов с помощью якорных заданий, каждый вариант будет характеризоваться своим диапазоном логитов знаний, а значит, и своими параметрами отображения на шкалу тестовых баллов. В результате возможно возникновение инверсий между первичным и тестовым баллом (ситуаций, когда меньший первичный балл превратится в больший тестовый балл за счет того, что получен на более сложном варианте). В условиях информационной закрытости системы единого государственного экзамена балльные инверсии, как нетрудно догадаться, должны вызывать бурю общественного негодования. Поэтому организаторы егэ, не готовые что-либо объяснять людям, изобрели дополнительнуюстадию осреднения шкал .

Сначала для каждого значения первичного балла b i вычисляется среднее значение откорректированных z i по всем экзаменуемым, набравшим такой первичный балл на всех вариантах, которое и считается для них оценкойподготовленности . И лишь только эти оценки преобразуются в тестовые баллы. Инверсий при этом не возникает.

Стадия осреднения, делая пусть не методы, но хотя бы результаты пересчета более понятными обществу, сводит на нет сам смысл применения этих методов. Основным их содержанием является возможность объективно соотносить между собой результаты выполнения разносложных вариантов. Но шкала пересчета, полученная на основе осреднения, преобразует первичные баллы в тестовые единообразно для всех экзаменуемых, т.е. уже без учета сложности вариантов. Наш Левша аглицкую блоху в очередной раз подковал, но танцевать та, как и следовало ожидать, перестала…

Заметим, что различия сложности вариантов в случае единого государственного экзамена оказываются куда больше, чем в случае традиционных вузовских экзаменов. Выравнивать сложность вариантов для традиционных вступительных экзаменов было сравнительно просто, т.к. разработчики заданий имели дело с небольшим числом вариантов. А для массового егэ необходимо большое число разных вариантов заданий, которые к тому же должны существенно варьироваться для разных часовых поясов [15] , что делает задачу выравнивания их сложности практически неразрешимой. Впрочем, ее, скорее всего, никто и не пытается решать, поскольку, как принято считать, пересчет баллов компенсирует различия в сложности вариантов егэшных кимов.

Завершает этот паноптикум избранный подход к заданиям не с дихотомическим, а с политомическим исходом , т.е. оцениваемым не из одного, а из нескольких первичных баллов. Для обработки результатов выполнения таких заданий используется одно из самых неудачных расширений модели Раша, называемое моделью частичного оценивания (partial credit model) [16] . Последняя сводится к предположению, что баллы задания представляют собой однобалльные ступеньки , которые преодолеваются строго последовательно, причем вероятность преодоления каждой из них подчиняется модели Раша. При этом ее базовая формула

заменяется (включающим ее в себя как частный случай) более общим выражением

,

где p s – вероятность набрать ровно s баллов при выполнении задания, а T s – некая характеристика s -ой ступеньки. Раскрывая это рекуррентное соотношение, получаем

,

где

,

а M – число ступенек в задании.

Как и в случае модели Раша, в модели частичного оценивания имеют смысл не сами по себе величины Z и T s , а только их отношения. Однако если в модели Раша величина T характеризовала трудность получения балла, то в случае модели частичного оценивания величинам T s нельзя придать аналогичный смысл трудностей получения s баллов (равно как и какой-либо иной внятный смысл). Но если невозможна содержательная интерпретация величин T s , то становится неинтерпретируемой и величина Z , измеримая только в связке с ними. Модель частичного оценивания позволяет нечто измерять, но мы лишены возможности понять, что же именно она измеряет.

Более того, модель становится внутренне противоречивой при использовании в одном тесте заданий с разным числом ступенек. Поскольку согласно предположениям модели ступеньки преодолеваются строго последовательно, вероятность преодолеть s -ю ступеньку (набрать s или более баллов) не может зависеть от наличия последующих ступенек. Однако, как легко видеть, эта вероятность дается дробью, числитель и знаменатель которой есть полиномы от Z степени M , т.е. она зависит как от числа последующих ступенек, так и от их характеристик. Следовательно, смысл величины Z будет варьироваться при изменении числе ступенек в заданиях, используемых для ее измерения. Поэтому одновременное наличие в егэшных кимах заданий, оцениваемых из разного числа баллов, при пересчете по формулам модели частичного оценивания делает итоговую оценку величиной просто бессмысленной.

Наконец, третья проблема с этой моделью связана с тем, что задания, части которых могут выполняться строго последовательно, как она того требует, крайне неудобны с практической точки зрения. Обычно куда важнее проверить функциональную грамотность экзаменуемого и его умение выполнить некий комплекс взаимосвязанных действий, нежели выяснить, как далеко человек способен пройти по навязанной ему цепочке шагов. Поэтому устройство реально предлагаемых заданий с политомическим исходом почти никогда не согласуется с исходными посылками модели частичного оценивания, что автоматически делает ее формулы неприменимыми для обработки результатов выполнения этих заданий.

Подводя промежуточный итог, можно сказать, что если модель Раша – это вполне разумный практический инструмент, который используется безграмотно и (как будет показано ниже) далеко за пределами области своей применимости, то модель частичного оценивания – это плод абстрактного теоретизирования, для практического применения непригодный изначально. Единственная мыслимая причина обращения к этой экзотической модели – стремление сделать процедуру обработки результатов егэ максимально непонятной не только для широкой общественности, но и для большинства специалистов.

Не от той стенки гвоздь

Описанные выше проблемы со шкалированием вызваны непониманием организаторами егэ основ используемого ими математического инструментария. Однако есть сложности и совершенно иной природы, связанные с тем, в какой мере этот инструментарий соответствует решаемым задачам.

Тесты по решаемой ими задаче делятся на критериально-ориентированные и нормативно-ориентированные . Первые предназначены для проверки усвоения экзаменуемыми определенного материала (например, итоговая аттестация), а вторые – для сравнения экзаменуемых между собой (например, конкурсный отбор). В случае каждой из указанных задач применение модели Раша и ее обобщений приводит к проблемам (в первом случае – к непреодолимым, во втором – к преодолимым, но реально не преодолеваемым).

Одной из важных функций единого государственного экзамена как итоговой аттестации должно быть отслеживание изменений уровня школьного образования. Однако используемая методика шкалирования результатов егэ делает их в принципе непригодными для этих целей. Шкала пересчета первичных баллов в тестовые строится таким образом, что егэ оказывается измерительным прибором, лишенным какого бы то ни было эталона, с которым соотносились бы успехи экзаменуемых. Они сравниваются не с требованиями школьной программы, а только с успехами других экзаменуемых. В результате полностью утрачивается важная функция единого государственного экзамена как объективного измерителя положения дел в сфере образования.

Рассмотрим ситуацию, когда имеется две равночисленных группы экзаменуемых, таких, что знания представителей второй группы составляют фиксированный процент от знаний представителей первой:

.

Пусть обеим группам предложен один и тот же набор заданий, достаточно полный для точной оценки знаний их представителей. Тогда логиты знаний представителей групп, полученные в результате независимой обработки результатов экзамена, будут различаться на некоторую постоянную величину:

.

Но как корректировка логитов по якорным заданиям, так и последующий пересчет логитов в тестовые баллы уничтожают постоянный сдвиг, разделяющий группы. В результате они, несмотря на разные уровни знаний их представителей, становятся неразличимы.

Если эти группы являются, скажем, школьными выпусками разных лет, то получается, что уровень образования может сколько угодно сильно измениться, что, однако, никак не отразится на результатах экзамена.

Из того, что модель Раша безнадежно плоха для моделирования и параметризации критериально-ориентированных тестов, к сожалению, еще не вытекает, что она окажется очень уж хороша для тестов нормативно-ориентированных. Для таких тестов ключевой характеристикой является дифференцирующая способность шкалы, т.е. то, насколько сильно изменяется итоговый результат экзаменуемого при приобретении/потере им одного первичного балла. Продифференцировав первое уравнение системы, находим

.

Легко видеть, что дифференцирующая способность шкалы оказывается максимальной на ее краях и минимальной в центре. В самом деле, все слагаемые в знаменателе правой части близки к нулю для экзаменуемых с самыми низкими (высокими) знаниями, для которых актуально получение самых первых (последних) первичных баллов [17] . Именно эти баллы и преобразуются в самое большое количество тестовых, обеспечивая сравнительно хорошую дифференцировку самых слабых (сильных) экзаменуемых. Но их немного и конкуренция между ними невелика, поэтому нет никакой необходимости дополнительно увеличивать разреженность их результатов. Высокая дифференцирующая способность нужна как раз на середине шкалы, где сосредоточена основная масса экзаменуемых, имеющих средние знания. Однако для них пересчет баллов с помощью модели Раша приводит лишь к увеличению скученности.

На рис. 1 показана зависимость тестового балла егэ от первичного по результатам проведения единого государственного экзамена в 2008-09 гг. На ее графике быстрый рост сменяется медленным, а потом снова – быстрым. Первые и последние тестовые баллы даются легче всего. Однако, как уже было сказано, для надежной дифференцировки экзаменуемых, оптимальной была бы прямо противоположная ситуация, при которой набор первых и последних баллов максимально затруднен (рост графика: медленно – быстро – медленно). Именно такова логика традиционных экзаменов, эффективность которых проверена многолетней практикой. Их варианты обычно включали по одному «утешительному» и одному «убойному» заданию, ориентированным на самых слабых и самых сильных, а также – большое количество заданий средней сложности, служивших целям дифференцировки основной массы поступающих.

Рис. 1. Шкалы пересчета первичного балла егэ в тестовый (ОИП)

Для большинства предметов (физики, химии, биологии, географии, истории, литературы, обществознания, русского языка, а в 2008 г. еще и информатики) шкалы практически совпадают, располагаясь внутри узкого коридора со средней полувысотой в 3 балла. Они устроены так, что для первых и последних четвертей диапазона тестовых баллов их ценность, выраженная в первичных баллах, оказывается вчетверо ниже, чем для центральной половины.
Из общего ряда выбивается математика, для нее график пересчета близок к линейному. Причиной этого является сравнительная трудность получения по математике первых и последних первичных баллов. В 2009 г. из коридора в правой части графика выбралась и информатика, что обусловлено появлением в ее кимах нескольких субъективно сложных заданий, затруднивших получение последних баллов.
Идеальна ситуация, когда интегральное распределение экзаменуемых по результатам (зависимость от результата доли экзаменуемых, не сумевших его превзойти) имеет линейный вид без особо крутых или пологих участков. В этом случае приобретение (потеря) балла конкретным экзаменуемым будет означать, что он обгоняет (пропускает) примерно одинаковое число конкурентов вне зависимости от того, каков его результат [18] . И, соответственно, будет иметь хоть какой-то смысл привычное для нас вычисление суммарного вступительного балла от экзаменов по различным предметам.

На рис. 2 приведены примеры распределений участников егэ-2009 по набранным баллам. Легко видеть, что отклонение от линейного вида для тестового балла значительно больше, чем для первичного. Графики для тестового балла имеют слева и справа широкие участки, «выположенные» практически до горизонтали, вследствие чего средняя часть графика очень сильно «выкручена». Части графика, на которую приходится 90% экзаменуемых, по разным предметам соответствует диапазон шириной лишь в 35 — 50 тестовых баллов из 100, т.е. из-за пересчета баллов рабочая часть шкалы сокращается в 2 — 3 раза.

Рис. 2. Интегральное распределение участников егэ по химии и русскому языку по набранным тестовому и первичному баллам (ОИП)

Если вид графиков для первичных баллов еще близок к линейному, то графики для тестовых баллов уже имеют по краям отчетливо выраженные плато, а в середине – крутые подъемы. В результате более-менее линейные участки этих графиков оказываются узки (от 30 до 80 тестовых баллов по химии и от 35 до 75 – по русскому языку).

В этой связи следует обратить внимание на еще одну принципиальную особенность любого шкалирования: чем выше дифференцирующая способность шкалы, тем выше погрешность итоговой оценки (и наоборот). В случае модели Раша данное обстоятельство особенно наглядно.

Дисперсия балла, получаемого за задание c вероятностью выполнения p , есть . А дисперсия первичного балла b i в предположении независимости отдельных заданий есть сумма их индивидуальных дисперсий:

.

Заметим, что это выражение совпадает со знаменателем приведенной выше формулы для дифференцирующей способности шкалы. Учитывая пропорциональность стандартных отклонений дифференциалам соответствующих величин, получаем, что дисперсия логита знаний для модели Раша в точности равна дифференцирующей способности:

.

Как мы видим, «хороших» участков у шкалы просто нет: там, где она хорошо дифференцирует, она плохо оценивает, а там, где хорошо оценивает, плохо дифференцирует. И чем дальше преобразование от линейного, тем сильнее будет проявляться это неустранимое противоречие.

На самом деле, ситуация не столь трагична. При использовании модели Раша единственно разумным является полный отказ от оценивания экзаменуемых, результат которых ниже (выше) некоторого порога. Им всем, а не только показавшим абсолютные результаты, независимо от точной величины первичного балла, следует директивно присваивать нулевой (максимальный) тестовый балл. Это всего лишь означало бы честное признание того, что предложенный тест (как вообще любой инструмент) имеет ограниченную область применимости. В результате, с одной стороны, были бы исключены участки шкалы, где погрешность определения тестового балла недопустимо высока, а с другой – растянулась бы средняя часть шкалы, что повысило бы ее дифференцирующую способность. Если ориентироваться на рис. 1, то применительно к егэ сказанное означает отказ от оценивания экзаменуемых, набравших менее 10% (более 90%) первичных баллов, что позволило бы вдвое растянуть рабочий участок шкалы на рис. 2. Однако, как нетрудно понять, это несовместимо с желанием егэшников измерить всех и сразу.

А ларчик просто открывался…

Проблема обработки результатов единого государственного экзамена не сводится к отдельным ошибкам, которые можно было бы ценой больших или меньших усилий исправить. Она носит системный характер и связана с отсутствием внятного ответа на вопрос о том, что именно должна характеризовать количественная мера успехов экзаменуемого. Для существующего формата егэ ответ на поставленный вопрос и не может быть дан в принципе, т.к. в случае выпускного и вступительного экзаменов это совершенно разные вещи. Однако если разделить единый экзамен на независимые выпускной и вступительный, то для каждого из них просто определяются и цели, и способы их достижения.

Цель вступительного экзамена – конкурсный отбор. Здесь компенсация различной сложности вариантов осуществляется элементарно, если в качестве экзаменационной оценки использовать рейтинг-балл . Рейтинг-балл экзаменуемого определяется как процент его конкурентов, выполнявших тот же вариант, что и он, и набравших первичный балл не меньший, чем набрал он. При этом автоматически обеспечиваются линейность интегрального распределения и постоянная дифференцирующая способность на протяжении всей шкалы, а также гарантируется простая и понятная цена балла. Однако не менее важно, что решается и еще одна важная задача, выходящая за пределы тестологии.

Использование теории моделирования и параметризации педагогических тестов для обработки результатов вступительного экзамена неявно предполагает, что при отборе поступающих в вузы первостепенное значение имеет уровень достижений, а раз так, то достаточно поставить экзаменуемых в равные условия. Такая точка зрения представляется глубоко порочной. Принимать в высшие учебные заведения следует, в первую очередь, не тех, кто продемонстрировал хорошую подготовку, а тех, кто сможет учиться в вузе, т.е. ориентироваться необходимо на способности и мотивации, а не на текущие достижения [19] .

Достижения человека зависят не только от его способностей и мотиваций, но и от социально-экономических условий, в которых он находится. Так, например, очевидно, что одинаковые результаты школьников из столицы и из глухой отдаленной деревни свидетельствуют, скорее всего, о совершенно разном уровне способностей и мотиваций. Данное обстоятельство может быть учтено, если каждый вариант вступительного экзамена предлагать на территории с более-менее одинаковыми социально-экономическими условиями, не смешивая столицы с провинцией, а города с селами. Тогда конкурировать между собой будут экзаменуемые, имеющие близкие, насколько это возможно, стартовые условия. Решение этой задачи социального плана также является весомым доводом в пользу использования рейтинг-балла на вступительном экзамене. Немаловажна и блокировка преференций, получаемых жителями более коррумпированных регионов страны.

В случае выпускного экзамена всё обстоит совсем по-другому. Его цель – проверка усвоения школьной программы. При этом нет никакой нужды сравнивать выпускников между собой. Выпускной экзамен имеет смысл только в том случае, когда его результаты являются не относительными, а абсолютными.

Выпускник должен иметь вполне определенный набор базовых знаний, умений и навыков. Поэтому единственно возможный способ определения номинальной стоимости задания – пропорционально количеству проверяемых им зунов. Владение каким их процентом продемонстрировал экзаменуемый, такова его оценка по стобалльной шкале [20] . Остальное – от лукавого.