About The School of Economics Institute
Education
Publishing
Projects











English version

 Проекты 
дНЛЮЬМЪЪ ЯРПЮМХЖЮ

Проекты










В.В. Быков (ассистент Санкт-Петербургского государственного университета экономики и финансов).
Мое сообщение коснется непосредственной обработки результатов теста. Оно возможно по двум направлениям. Первое направление - анализ ответов, которое частично осветил Андрей Павлович. Второе - анализ структуры теста или, условно, тестирование самого теста. Причина - сама структура теста, состоящего из четырех блоков, что требует выявления связей между ответами на вопросы в тесте, как связаны между собой отдельные вопросы, как внутри каждого раздела, так и между ними. Т.е. анализ качества самого теста, его направленности.
В ходе обработки результатов теста мы столкнулись с рядом проблем. Первая - и достаточно серьезная, это проблема сопоставления результатов тестирования студентов третьего и четвертого курса. Мы изначально взяли тест из 71 вопроса на 90 минут, исходя из цифр, о которых уже говорил Андрей Павлович. В то же время, мы адаптировали тест и для студентов третьего курса. Это было произведено следующим образом: раздел "Международная экономика" был нами сокращен, исходя их общего положения, что в большинстве вузов курс открытой международной макроэкономики читается студентам четвертого курса. В результате было отброшено 5 вопросов по этой тематике, они были заменены вопросами по микроэкономике, макроэкономике и статистике. Соответственно, это исказило нам результат, потому что, получив ответы от студентов третьего курса, нам при последующем анализе постоянно приходилось держать в уме, что пять вопросов с одинаковыми номерами различаются по содержанию. При обработке приходилось ставить "пропущенные значения" в ответах на эти вопросы. И таким образом, общий балл у студентов третьего курса оказался несколько заниженным. Поэтому в дальнейшей работе для сопоставимости ответов мы использовали общую оценку студентов по 66 вопросам, которые совпадали для третьего и четвертого курсов.
Вторая трудность была связана с тем, что сама информация (результаты ответов на тест) представляет собой неколичественную информацию. Это значительно усложнило нам представление данных. Особенно при расчете взаимовлияния вопросов друг на друга и расчета коэффициентов корреляции.
Перейдем теперь к анализу ответов студентов на вопросы теста. Мы выделили лучшие и худшие работы. Картина получилась вполне предсказуемой исходя из общих результатов теста. Упомянутые выше "учителя", представляющие негосударственный вуз, и составили список тринадцати лучших работ. Среди худших наблюдается более разношерстная картина. Но достаточно много представителей третьего курса, причем было получено два, на мой взгляд, фантастических результата - отрицательные суммы баллов. На мой взгляд, этого можно достичь, только ставя в ответах произвольные буквы. Потому что, если немного подумать, то можно вопрос хотя бы просто пропустить. В этом же случае были даны ответы буквально на все вопросы, и их подавляющее большинство было дано неправильно.
Основываясь на результатах, можно было бы сделать вывод, что образование в старых государственных вузах отличается в худшую сторону по сравнению с другими вузами, но в то же время, исходя из общих результатов тестирования, можно было бы ожидать и большего представительства студентов третьего курса в числе самых худших.
Далее нами был сделан следующий шаг - мы разбили всех тестировавшихся студентов (а их было 157 человек) на "лучших" и "худших" по критерию общего балла за тест. И выявили результаты этих групп по каждому из четырех разделов теста. Из приведенных нами данных явствует, что наиболее существенное различие между лучшими и худшими состоит в знании базовых курсов. Т.е. тот, кто не знает микро- и макроэкономики, автоматически попадает в группу "худших". В то же время, раздел "статистика и эконометрика" является в этом смысле непоказательным - разрыв в результатах между группами здесь наименьший, хотя и значительный. Также нами были рассчитаны средние баллы по каждому квартилю студентов и по каждому из разделов для каждого квартиля.
Также мы выделили по десять "лучших" и "худших" вопросов. Позвольте несколько замечаний по этим вопросам. Как вы видите, лучшим, т.е. самым легким для студентов, стал вопрос 42, посвященный определению оптимальности по Вильфредо Парето. Мы предполагали, что в число легких будут попадать вопросы, условно говоря, из первой части курса. Потому что в этот период относительно больше времени у лектора, и он более подробно освещает вопросы, в то время как в мере движения к концу курса времени остается все меньше и меньше. Вроде бы это опровергается, поскольку тематика оптимальности по Парето и вообще экономика благосостояния находятся в конце учебного курса микроэкономики. С относительно простыми счетными вопросами справлялись довольно легко. И мы при анализе теста уже разделяли вопросы на счетные и требующие знания самого предмета. Вообще, задачи в источнике - GRE были на вполне школьном уровне расчетов. О худших вопросах. Самым сложным вопросов оказался вопрос под 23 номером, проходящий по разделу "Макроэкономика": "Если ставка процента высока и трансакционный спрос на деньги низок, то какое из следующих утверждений будет верным?" Отмечу, что в принципе, для студента, изучавшего макроэкономику этот вопрос не должен бы создать особых трудностей, но тем не менее.
Теперь по разделам теста. Исследование также показало наибольшую связь между общим баллом по микроэкономике и макроэкономике. Вопросы по статистике и эконометрике оказались достаточно слабо связаны с вопросами по другим разделам. И это тоже понятно. Эта область знаний достаточно отлична от других, вопросы были зачастую на выбор правильных формул - с экономической спецификой, конечно. Например, связь между вопросами по статистике и макроэкономике оказалась очень слабой. Здесь стоит отметить, что вопросы по данному разделу "статистики и эконометрики", не попали ни в список "лучших", ни в список "худших" - они заняли некое промежуточное положение.
Можно было предположить наличие сильной связи между вопросами по международной экономике и макроэкономике, но данные не подтверждают этого в полной мере. Хотя связь и несколько сильнее, чем в случае раздела "статистика и эконометрика".
Был проведен подобный анализ связей и по отдельным вопросам. Связи стали более очевидными и четкими, но общая картина сохранилась - связь микро- и макроэкономики с общим баллом наиболее сильно выражена, как и связь вопросов в этих двух разделах между собой.
Последнее. Был проведен анализ по критерию c2 как внутри разделов - связей вопросов между собой, так и между разделами, с определением уровня значимости. Тщательный анализ требует внимательного обращения к общей матрице, хотя общие результаты будут те же самые.
Вопросы и комментарии.
М. Добрякова (Фонд Форда).
Не было бы правильным отбрасывать наиболее экстремальные варианты ответов?
Ответ.
У нас был принципиальный подход - анализ всех полученных ответов и не было причин отбрасывать ответы на тест.
М. Добрякова.
А как насчет сопоставимости опросной базы - анализировались разные по численности группы, находящиеся в разных ситуациях - административная проверка 60 человек и ответ на тест группы из 10 человек, оставшихся после консультации.
Ответ.
Несомненно, что проблема сопоставимости так или иначе возникает. За исключением указанной Вами группы в 10 человек, во всех других случаях в той или иной степени применялся административный ресурс, что гарантировало относительную ответственность сдающих тест.
В.С. Магун.
Мне кажется, что поскольку среднее время написания всеми теста совпадало, то, следовательно, в общей массе все относились к тесту довольно ответственно. Потому что все быстро заполнить, а потом сидеть минут сорок, ничего не делая и скучая, у нас вряд ли бы кто стал.
М. Добрякова.
А как предполагается решать задачу поиска респондентов на основном этапе проекта?
В.В. Быков.
На мой взгляд, необходимо стремиться к привлечению в той или иной форме административного ресурса, т.е. к сотрудничеству с администрацией. Но замечу, что в "старых государственных" вузах нет заинтересованности в объективном анализе знаний их студентов.
М.А. Иванов.
Хочу заметить, что при обезличивании данных вузов данную проблему можно решить, в том числе контактируя с отдельными преподавателями и руководителями на отдельных кафедрах, деканов факультетов. Причем, несомненно, извлекается обоюдная польза. И я не вижу здесь непреодолимой проблемы. И я вас уверяю, что общее безразличие на некоторых уровнях управления образованием одновременно и подавляет страхи.
В.С. Магун.
Позвольте мне включиться в обсуждение этого вопроса, поскольку я в целом отвечаю за проведение исследования. На данном этапе предполагалась разработка тестов и, формально говоря, вообще не было необходимости опробовать их на более-менее заметных выборках. Я все же настоял на том, чтобы были получены какие-то массовые результаты, но смысл этих результатов - не в том, чтобы получить репрезентативную картину, а в том, чтобы просто посмотреть, работает ли тест.
М.Добрякова в своем вопросе обратила внимание на проблему выравнивания мотивации разных респондентов. И опять - на данном пробном этапе наличие различий в мотивации никак нам не мешало, а вот для основного исследования - это важная проблема. Необходим общий подход - то ли тест как испытание знаний респондента как экономиста вообще, то ли всем давать тест как экзамен. И этот вопрос надо будет решить при переходе к следующему этапу проекта.
М. Энговатов.
Студенты знают принцип подсчета результата, как я понял. Но студент, когда он не знает, он молчит, так как неправильный ответ будет оценен отрицательно, в то время как молчание может повлечь за собой наводящие вопросы. Таков стереотип поведения студентов в России, на мой взгляд. Как это учитывалось при анализе ответов на тест и вообще, его адаптировании к нашим условиям? Ведь нет никакого "антистимулирования" пропусков вопросов.
В.В. Быков.
На мой взгляд, можно рассматривать несколько вариантов стратегии студентов, тем более что в нашем варианте склонность к риску у студентов выше, чем у американских бакалавров.
А.П. Заостровцев.
Я дополнительно замечу, что абсолютной сопоставимости, для, например, международных сопоставлений, добиться сложно, даже используя административный ресурс. Ведь в целом у студентов есть понимание, что все это не совсем серьезно. Единственный способ - проведение на основе этого теста бакалаврских экзаменов, когда уровень мотивации и поведения находится на том же уровне, что и в американской системе образования.
В.С. Магун
Есть ли еще вопросы или комментарии?
Комментарий Дж. Лоуренс.
Хочу дополнительно отметить, что вопросы могут серьезно различаться по трудности: одни могут быть рассчитаны на воспроизведение информации по памяти, другие - ориентированы на применение знаний и навыков к новой ситуации. И студенты лучше справляются с вопросами на узнавание. Исследования служб, занимающихся подготовкой студентов к тесту, показали, что если взять группы студентов и провести тестирование знаний по экономике, затем провести подготовительную сессию по результатам, а потом еще один тест, то тем студентам, у которых не было изначально высокого знания и навыков узнавания, промежуточная подготовка не помогает, а у студентов с изначально высоким уровнем знаний в результате подготовительной сессии улучшаются навыки применения знаний к новым ситуациям.
Также существует отличие прохождения тестирования на основе компьютерных программ, поскольку они предлагают респонденту вопрос в зависимости от ответа на предыдущий вопрос.
В.С. Магун.
Нам необходимо обратить внимание и вынести для возможной публикации - нужно посчитать типы ответов в виде молчания (отказа от ответа) и непосредственно в форме неправильных ответов, а также выделить, по совету Дженет, вопросы на узнавание и вопросы на применение знаний в новых ситуациях. Т.е. ввести новые измерения в анализ данных.
В.С. Автономов.
Я хочу отметить, что главное отличие представителей негосударственного вузов - учителей в том, что отвечали они, по сути, на вопросы по предмету, который является их профессией - преподавание экономической теории. Их знание несравнимо со знанием студентов. И при основном исследовании, конечно, надо искать другую группу для анализа.
А.П. Заостровцев.
Я согласен с Вашим выводом, но на начальном этапе было интересно сравнить результаты группы, которая уже формально работает в этой области, со знанием студентов, которые уже почти специалисты в области экономической теории.
И.Н. Баранов.
Замечу, что есть большое различие между тестами, которые предполагают длительную подготовку к ним, и тестами на остаточные знания. И тут нам нужно очень осторожно подойти к их использованию. Второе. По поводу отбрасывания крайних результатов. Признаюсь, что один из самых низких результатов был в группе, в которой я преподаю. Все пытались честно ответить и в результате получили то, что мы видим. Поэтому мне кажется, что если мы хотим оценить уровень обучения, а значит и его разброс, то надо сохранить все результаты опроса.
М.А. Иванов.
Мне кажется, что наша сверхзадача несколько в другом. Мы хотим понять, как формируется знание, как приобретается квалификация. Поэтому нас интересуют составляющие элементы этого процесса. И тогда, по получении этого понимания, можно будет отходить в совершенно разные области - и к вопросу организации образования, и в сторону изменений содержания, и в сторону методологии проверок, и формирования рейтинга. Но сегодня нашей основной задачей является понимание технологии приобретения знания.
В.С. Магун.
Андрей Павлович, насколько я знаю, у Вас есть еще вторая часть исследования, неформальная.
А.П. Заостровцев.
Это были вопросы на размышления, через которые мы провели учителей и небольшую группу стажеров ЭШ - студентов различных экономических вузов Санкт-Петербурга. Но оно не является непосредственным предметом моего доклада здесь, и носило, скорее, дополнительный характер. Я предложил оценить некие ситуации и примеры с использованием знаний по экономической теории в целом. Можно сказать, что примеры были на экономическое мышление.
Например, нужно было как экономисту прокомментировать, права ли была белорусская горничная гостиницы (из репортажа о жизни в Белорусии из журнала "Итоги"), объясняющая дефицит в Белоруссии продуктов питания в магазинах тем, что продовольственные товары ушли в Россию в уплату за поставки газа в Белоруссию. Интересно, что примерно половина студентов скорее уклонилась от ответа, а вторая в целом ответила правильно - дефицит как последствие государственного регулирования цен и т.д. У учителей тоже в целом было хорошее критическое восприятие этого вопроса. Но отмечу, что студенты продемонстрировали весьма плохое реальное представление об экономике Белоруссии. И самый лучший ответ был следующим: "Дефицит обычно вызывается государственным регулированием цен". Учителя же показали более полное понимание ситуации в Белоруссии. Хотя, конечно, и там, и там были и совершенно некритические ответы.
Также было предложено прокомментировать высказывание бывшего министра по налогам и сборам г-на Бооса о том, что "спрос у населения есть, а денег нет". Очевидно, что комментарий должен был состоять в указании на то, что спрос - это всегда платежеспособный спрос, в отличие от потребностей. Здесь практически все студенты примерно так и ответили. В то же время, у учителей есть процентов 10-15% от ответов с некритическим восприятием, когда под слова бывшего министра пытались подвести экономическую базу.
М.А. Иванов.
Я хочу отметить, что подобные вопросы, составленные Андреем Павловичем, на мой взгляд, чрезвычайно интересны и, может быть, есть смысл пропускать через них и основной контингент опрашиваемых. Тогда у нас будет очень богатый дополнительный материал для анализа, т.к. эти вопросы очень разнообразные, актуальные и просто интересные, игровые что ли.
В.С. Магун.
Я в заключение первой части хочу отметить следующее. Результаты очень интересные, но требуют большего внимания к числовым расчетам. Не надо забывать, что основной задачей была калибровка, проверка инструмента. Не сравнение вузов и качества преподавания в них, а именно калибровка инструментария. И надо скорее уделять внимание проверке того, работает методика, или нет.
Исходя из всего услышанного, мне кажется, что ответ на указанный вопрос следует дать положительный. Например, на основе сравнения квартилей ответов в тесте Андрея Павловича. Это стандартный метод проверки качества теста. Берутся верхний и нижний квартили по суммарной успешности и анализируется разрыв между успешностью отдельных ответов. В данном случае мы видим, что разрыв между этими квартилями по всем разделам кроме "статистики и эконометрики" более 30%, что является неким критерием адекватности теста в смысле процесса дифференциации респондентов; т.е. в тесте мало или нет лишних вопросов. Те же вопросы, по которым окажется, что они в малой степени дифференцируют отвечающих, по идее надо выкинуть.
Вторая проверка - это сравнения между группами респондентов. Т.е. соответствуют ли результаты тем ожиданиям, неким независимым знаниям, которые уже есть про эти вузы. Поскольку я участвовал в заседании, на котором названия всех вузов были открытыми, могу сказать, что предварительные гипотезы подтвердились. Предполагалось, что первыми будут учителя, потом новый государственный вуз, а следом будут идти прочие вузы.

Назад





дНЛЮЬМЪЪ ЯРПЮМХЖЮ

оНВРЮ



© 2001 Copyright by The School of Economics Institute, Saint Petersburg. All rights reserved.
лЮЯРЕПЯЙЮЪ еБЦЕМХЪ яЛХПМНБЮ


Economicus.Ru