Автоматическая оценка эссе - Automated essay scoring

Автоматическая оценка эссе (AES) - это использование специализированных компьютерных программ для выставления оценок эссе, написанным в образовательной среде. Это форма образовательная оценка и применение обработка естественного языка. Его цель состоит в том, чтобы классифицировать большой набор текстовых объектов на небольшое количество дискретных категорий, соответствующих возможным классам, например, числам от 1 до 6. Следовательно, это можно рассматривать как проблему статистическая классификация.

Несколько факторов способствовали растущему интересу к AES. Среди них - стоимость, ответственность, стандарты и технологии. Рост затрат на образование вынудил систему образования нести ответственность за результаты путем введения стандартов. Развитие информационных технологий обещает измерить успеваемость по сниженным ценам.

Использование AES для тестирование с высокими ставками в образовании вызвала значительную негативную реакцию: оппоненты указывают на исследования, что компьютеры еще не могут точно оценивать письмо, и утверждают, что их использование для таких целей способствует обучению письму редуктивными способами (т. е. обучение к тесту ).

История

Большинство исторических обзоров AES прослеживают происхождение этой области до работы Эллис Баттен Пейдж.[1] В 1966 году он утверждал[2] за возможность оценивать сочинения на компьютере, а в 1968 году он опубликовал[3] его успешная работа с программой под названием Project Essay Grade (PEG). Используя технологии того времени, компьютеризированная оценка эссе не была бы рентабельной.[4] поэтому Пейдж прекратил свои усилия примерно на два десятилетия. В конце концов, Пейдж продал PEG Measurement Incorporated

К 1990 году настольные компьютеры стали настолько мощными и широко распространенными, что AES стала реальной возможностью. Еще в 1982 году программа UNIX под названием Writer's Workbench могла предлагать советы по пунктуации, орфографии и грамматике.[5] В сотрудничестве с несколькими компаниями (в частности, со службой образовательного тестирования) Пейдж обновил PEG и провел несколько успешных испытаний в начале 1990-х годов.[6]

Питер Фольц и Томас Ландауэр разработал систему с использованием механизма оценки под названием Intelligent Essay Assessor (IEA). Впервые IEA был использован для оценки эссе в 1997 году на курсах бакалавриата.[7] Теперь это продукт компании Pearson Educational Technologies, который используется для оценки в ряде коммерческих продуктов, а также на государственных и национальных экзаменах.

IntelliMetric - это механизм AES компании Vantage Learning. Его разработка началась в 1996 году.[8] Впервые он был использован в коммерческих целях для оценки эссе в 1998 году.[9]

Служба образовательного тестирования предлагает «e-rater», программу автоматической оценки эссе. Впервые он был использован в коммерческих целях в феврале 1999 года.[10] Джилл Бурштейн была руководителем группы по его разработке. Служба ETS Criterion Online Writing Evaluation Service использует механизм электронной оценки для предоставления как оценок, так и целевой обратной связи.

Лоуренс Руднер проделал некоторую работу с байесовской оценкой и разработал систему под названием BETSY (система оценки байесовских тестов для эссе).[11] Некоторые из его результатов были опубликованы в печати или в Интернете, но пока ни одна коммерческая система не включает BETSY.

Под руководством Ховарда Мицеля и Сью Лоттридж компания Pacific Metrics разработала автоматизированный механизм оценки ответов CRASE. В настоящее время используется несколькими государственными департаментами образования и в рамках гранта на расширенную оценку, финансируемого Министерством образования США, технология Pacific Metrics используется в крупномасштабных средах формирующего и итогового оценивания с 2007 года.

Компания Measurement Inc. приобрела права на PEG в 2002 году и продолжила его развитие.[12]

В 2012 г. Фонд Hewlett спонсировал конкурс на Kaggle называется Приз за автоматизированную оценку успеваемости учащихся (ASAP).[13] 201 участник испытания попытался с помощью AES предсказать оценки, которые люди-оценщики поставят тысячам эссе, написанным по восьми различным запросам. Цель состояла в том, чтобы продемонстрировать, что AES может быть столь же надежным, как и люди-оценщики, или даже более. В рамках конкурса также была проведена отдельная демонстрация среди девяти поставщиков AES подмножества данных ASAP. Хотя исследователи сообщили, что автоматическая оценка эссе была такой же надежной, как и оценка человека,[14] это утверждение не было подтверждено никакими статистическими тестами, потому что некоторые поставщики требовали, чтобы такие тесты не проводились в качестве предварительного условия для их участия.[15] Более того, утверждение о том, что исследование Hewlett Study продемонстрировало, что AES может быть столь же надежным, как и люди-оценщики, с тех пор сильно оспаривается.[16][17] в том числе Рэнди Э. Беннетт, председатель Нормана О. Фредериксена по инновационной оценке Служба образовательного тестирования.[18] Некоторые из основных критических замечаний по поводу исследования заключались в том, что пять из восьми наборов данных состояли из абзацев, а не эссе, четыре из восьми наборов данных были оценены читателями только по содержанию, а не по способностям письма, и что вместо измерения читателей-людей и машины AES против «истинной оценки», среднего из двух оценок читателей, в исследовании использовалась искусственная конструкция, «разрешенная оценка», которая в четырех наборах данных состояла из более высоких из двух человеческих оценок, если была несогласие. Эта последняя практика, в частности, дала машинам несправедливое преимущество, позволив им собирать эти наборы данных.[16]

В 1966 году Пейдж предположил, что в будущем компьютерный судья будет лучше коррелировать с каждым судьей-человеком, чем другие судьи-люди.[2] Несмотря на критику применимости этого подхода к разметке эссе в целом, эта гипотеза была поддержана для разметки ответов в виде свободного текста на короткие вопросы, такие как типичные для британцев. GCSE система.[19] Результаты контролируемое обучение продемонстрировать, что автоматические системы работают хорошо, когда оценки разными учителями-людьми хорошо согласуются. Без присмотра кластеризация ответов показали, что отличные работы и слабые работы образуют четко определенные кластеры, и автоматическое правило выставления оценок для этих кластеров работает хорошо, тогда как оценки, выставленные учителями-людьми за третий кластер (`` смешанный ''), могут быть спорными, а надежность любого оценка произведений из «смешанного» кластера часто может быть поставлена ​​под сомнение (как человеческая, так и компьютерная).[19]

Различные аспекты качества эссе

Согласно недавнему опросу,[20] Современные системы AES пытаются оценить различные аспекты качества эссе, чтобы предоставить пользователям обратную связь. Эти размеры включают в себя следующие элементы:

  • Грамматичность: соблюдение правил грамматики
  • Использование: употребление предлогов, словоупотребление
  • Механика: соблюдение правил орфографии, пунктуации, использования заглавных букв.
  • Стиль: выбор слов, разнообразие структуры предложения
  • Релевантность: насколько релевантно содержание подсказке.
  • Организация: насколько хорошо структурировано эссе
  • Развитие: развитие идей на примерах
  • Сплоченность: правильное использование переходных фраз
  • Согласованность: соответствующие переходы между идеями
  • Ясность тезиса: ясность тезиса
  • Убедительность: убедительность главного аргумента

Процедура

С самого начала основная процедура AES заключалась в том, чтобы начать с обучающего набора эссе, которые были тщательно оценены вручную.[21] Программа оценивает поверхностные особенности текста каждого эссе, такие как общее количество слов, количество придаточных предложений или соотношение прописных и строчных букв - количества, которые можно измерить без какого-либо человеческого понимания. Затем он строит математическую модель, которая связывает эти количества с баллами, полученными за эссе. Затем та же модель применяется для подсчета баллов за новые эссе.

Недавно одна такая математическая модель была создана Исааком Персингом и Винсентом Нг.[22] который оценивает эссе не только по вышеуказанным характеристикам, но и по их аргументации. Он оценивает различные особенности эссе, такие как уровень согласия автора и причины того же, приверженность теме подсказки, расположение компонентов аргумента (основное утверждение, утверждение, предпосылка), ошибки в аргументах, согласованность аргументов. среди различных других функций. В отличие от других моделей, упомянутых выше, эта модель ближе к дублированию человеческого понимания при оценке эссе.

Различные программы AES различаются по тому, какие конкретные характеристики поверхности они измеряют, сколько эссе требуется в обучающем наборе и, что наиболее важно, в методике математического моделирования. Использованы ранние попытки линейная регрессия. Современные системы могут использовать линейную регрессию или другие методы машинного обучения, часто в сочетании с другими статистическими методами, такими как латентно-семантический анализ[23] и Байесовский вывод.[11]

Критерии успеха

Любой метод оценки должен оцениваться по обоснованности, справедливости и надежности.[24] Инструмент действителен, если он действительно измеряет признак, который он призван измерить. Будет справедливо, если это, по сути, не наказывает или не дает привилегий какому-либо одному классу людей. Он надежен, если его результат воспроизводится даже при изменении несущественных внешних факторов.

До того, как появились компьютеры, за эссе с высокими ставками обычно давали оценки два подготовленных человека-рейтера. Если оценки различались более чем на один балл, разногласия разрешал более опытный третий эксперт. В этой системе есть простой способ измерить надежность: соглашение между экспертами. Если оценщики не всегда соглашаются в пределах одного пункта, их обучение может быть ошибочным. Если оценщик постоянно не соглашается с тем, как другие оценщики смотрят на те же эссе, ему, вероятно, потребуется дополнительное обучение.

Были предложены различные статистические данные для измерения согласия между экспертами. Среди них процентное согласие, Π Скотта, Коэна κ, Криппендорфа α, Коэффициент корреляции Пирсона r, Коэффициент ранговой корреляции Спирмена ρ и Лина коэффициент корреляции согласованности.

Процентное согласие - это простая статистика, применимая к оценочным шкалам с оценками от 1 до n, где обычно 4 ≤ n ≤ 6. Он выражается в виде трех цифр, каждое из которых представляет собой процент от общего количества набранных эссе: точное совпадение (два эксперта дали у эссе одинаковый балл), смежное согласие (эксперты разошлись не более чем на один балл; это включает точное согласие) и крайнее несогласие (эксперты разошлись более чем на два балла). Было обнаружено, что оценщики-эксперты достигли точного согласия по 53–81% всех сочинений и смежного согласия по 97–100%.[25]

Соглашение между экспертами теперь можно применять для измерения производительности компьютера. Набор эссе предоставляется двум людям-оценщикам и программе AES. Если выставленные компьютером оценки совпадают с оценками одного из людей, а также друг с другом, программа AES считается надежной. В качестве альтернативы каждому эссе присваивается «истинный балл» путем взятия среднего из баллов двух человек-оценщиков, и два человека и компьютер сравниваются на основе их согласия с истинным баллом.

Некоторые исследователи сообщают, что их системы AES на самом деле могут работать лучше, чем человек. Пейдж сделал это заявление о PEG в 1994 году.[6] Скотт Эллиот сказал в 2003 году, что IntelliMetric обычно опережает людей, набирающих очки.[8] Однако машины AES кажутся менее надежными, чем человеческие читатели, для любых сложных письменных тестов.[26]

В современной практике оценки с высокими ставками, такие как GMAT, всегда выставляет хотя бы один человек. AES используется вместо второго оценщика. Человек-оценщик разрешает любые разногласия более чем на один балл.[27]

Критика

AES критиковали по разным причинам. Ян и другие. упомянуть «чрезмерную зависимость от поверхностных характеристик ответов, нечувствительность к содержанию ответов и творчеству, а также уязвимость перед новыми типами мошенничества и стратегий прохождения тестов».[27] Некоторые критики обеспокоены тем, что мотивация студентов снизится, если они узнают, что никто из людей не прочитает их сочинения.[28] Среди наиболее красноречивых критических замечаний - сообщения о том, что за умышленно бессмысленные эссе получают высокие оценки.[29]

HumanReaders.Org Петиция

12 марта 2013 года HumanReaders.Org запустил онлайн-петицию «Профессионалы против машинной оценки студенческих эссе при оценивании с высокими ставками». В течение нескольких недель петиция собрала тысячи подписей, в том числе Ноам Хомский,[30] и был процитирован в ряде газет, в том числе Нью-Йорк Таймс,[31] и в ряде образовательных и технологических блогов.[32]

Петиция описывает использование AES для тестирования с высокими ставками как «тривиальное», «сокращающее», «неточное», «недиагностическое», «несправедливое» и «скрытное».[33]

В подробном резюме исследования AES на сайте петиций отмечается: «РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ ПОКАЗЫВАЮТ, ЧТО никто - ученики, родители, учителя, работодатели, администраторы, законодатели - не может полагаться на машинную оценку эссе ... И ЧТО машинная оценка не дает измерять и, следовательно, не поощрять подлинные письменные акты ".[34]

В петиции конкретно говорится об использовании AES для тестирования с высокими ставками и ничего не говорится о других возможных применениях.

Программного обеспечения

Большинство ресурсов для автоматической оценки эссе являются собственностью.

Рекомендации

  1. ^ Пейдж, Э. (2003). «Оценка эссе проекта: PEG», с. 43. В Shermis, Mark D., and Jill Burstein, eds., Автоматическая оценка эссе: междисциплинарная точка зрения. Lawrence Erlbaum Associates, Махва, Нью-Джерси, ISBN  0805839739
    - Ларки, Лия С. и У. Брюс Крофт (2003). "Подход категоризации текста к автоматизированной оценке эссе", стр. 55. В Shermis, Mark D., and Jill Burstein, eds. Автоматическая оценка эссе: междисциплинарная точка зрения. Lawrence Erlbaum Associates, Махва, Нью-Джерси, ISBN  0805839739
    - Кейт, Тимоти З. (2003). «Действительность автоматизированных систем оценки эссе», с. 153. В Shermis, Mark D., and Jill Burstein, eds., Автоматическая оценка эссе: междисциплинарная точка зрения. Lawrence Erlbaum Associates, Махва, Нью-Джерси, ISBN  0805839739
    - Шермис, Марк Д., Джилл Бурштейн и Клаудия Ликок (2006). «Применение компьютеров в оценке и анализе письма», с. 403. В MacArthur, Charles A., Steve Graham, and Jill Fitzgerald, eds., Справочник по письменным исследованиям. Гилфорд Пресс, Нью-Йорк, ISBN  1-59385-190-1
    - Аттали, Игаль, Брент Бриджман и Кэтрин Трапани (2010). «Эффективность универсального подхода к автоматической оценке эссе», с. 4. Журнал технологий, обучения и оценки, 10(3)
    - Ван, Цзиньхао и Мишель Сталлоне Браун (2007). «Автоматическая оценка эссе по сравнению с оценкой человека: сравнительное исследование», с. 6. Журнал технологий, обучения и оценки, 6(2)
    - Беннет, Рэнди Эллиот и Анат Бен-Саймон (2005). «К теоретически значимой автоматической оценке эссе» В архиве 7 октября 2007 г. Wayback Machine, п. 6. Проверено 19 марта 2012 г.
  2. ^ а б Пейдж, Э. Б. (1966). «Неизбежность ... компьютерной оценки эссе». Дельта Пхи Каппан. 47 (5): 238–243. JSTOR  20371545.
  3. ^ Пейдж, Э. (1968). "Использование компьютера при анализе студенческих эссе", Международный обзор образования, 14(3), 253-263.
  4. ^ Пейдж, Э. (2003), стр. 44-45.
  5. ^ Макдональд, Н.Х., Л.Т. Фразе, П.С. Гингрич и С.А.Кинан (1982). "Writers Workbench: компьютерные средства для анализа текста", Транзакции IEEE по коммуникациям, 3(1), 105-110.
  6. ^ а б Пейдж, Э. (1994). «Новая компьютерная оценка студенческой прозы с использованием современных концепций и программного обеспечения», Журнал экспериментального образования, 62(2), 127-142.
  7. ^ Руднер, Лоуренс. «Три выдающиеся программы письменной оценки» В архиве 9 марта 2012 г. Wayback Machine. Проверено 6 марта 2012 года.
  8. ^ а б Эллиот, Скотт (2003). «Intellimetric TM: отсюда к действительности», стр. 75. В Shermis, Mark D., and Jill Burstein, eds., Автоматическая оценка эссе: междисциплинарная точка зрения. Lawrence Erlbaum Associates, Махва, Нью-Джерси, ISBN  0805839739
  9. ^ "IntelliMetric®: как это работает ", Vantage Learning. Проверено 28 февраля 2012 г.
  10. ^ Бурштейн, Джилл (2003). "Система оценки E-rater (R): автоматическая оценка эссе с обработкой естественного языка", стр. 113. В Shermis, Mark D., and Jill Burstein, eds., Автоматическая оценка эссе: междисциплинарная точка зрения. Lawrence Erlbaum Associates, Махва, Нью-Джерси, ISBN  0805839739
  11. ^ а б Руднер, Лоуренс (около 2002 г.). «Компьютерная оценка с использованием байесовских сетей - обзор» В архиве 8 марта 2012 г. Wayback Machine. Проверено 7 марта 2012 года.
  12. ^ «Технологии оценки» В архиве 29 декабря 2011 г. Wayback Machine, Measurement Incorporated. Проверено 9 марта 2012 года.
  13. ^ Приз Хьюлетта » В архиве 30 марта 2012 г. Wayback Machine. Проверено 5 марта 2012 года.
  14. ^ «Человек и машина: лучшие писатели, лучшие оценки». Университет Акрона. 12 апреля 2012 г.. Получено 4 июля 2015.
    - Шермис, Марк Д. и Джилл Бурштейн, ред. Справочник по автоматизированной оценке эссе: современные приложения и новые направления. Рутледж, 2013.
  15. ^ Ривар, Рай (15 марта 2013 г.). «Люди борются из-за робо-читателей». Внутри Высшего Эд. Получено 14 июн 2015.
  16. ^ а б Перельман, Лес (август 2013). «Критика Марка Д. Шермиса и Бена Хамнера». Противопоставление современной автоматической оценки эссе: анализ"". Журнал письменной оценки. 6 (1). Получено 13 июн 2015.
  17. ^ Перельман, Л. (2014). «Когда« современное искусство считает слова »», Оценка письма, 21, 104-111.
  18. ^ Беннетт, Рэнди Э. (март 2015 г.). «Меняющийся характер оценки образования». Обзор исследований в области образования. 39 (1): 370–407. Дои:10.3102 / 0091732X14554179. S2CID  145592665.
  19. ^ а б Süzen, N .; Mirkes, E.M .; Левсли, Дж; Горбань, А. Н. (2020). «Автоматическая оценка кратких ответов и обратная связь с использованием методов интеллектуального анализа текста». Процедуры информатики. 169: 726–743. arXiv:1807.10543. Дои:10.1016 / j.procs.2020.02.171.
  20. ^ Кэ, Цзысюань (9 августа 2019 г.). «Автоматическая оценка эссе: обзор современного состояния» (PDF). Труды Двадцать восьмой Международной совместной конференции по искусственному интеллекту (IJCAI-19): 6300–6308. Дои:10.24963 / ijcai.2019 / 879. ISBN  978-0-9992411-4-1. Получено 11 апреля 2020.
  21. ^ Кейт, Тимоти З. (2003), стр. 149.
  22. ^ Персинг, Исаак и Винсент Нг (2015). «Моделирование силы аргументов в студенческих эссе», стр. 543-552. В Труды 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-й совместной международной конференции по обработке естественного языка (Том 1: Длинные статьи). Проверено 22 октября 2015.
  23. ^ Беннетт, Рэнди Эллиот и Анат Бен-Саймон (2005), стр. 7.
  24. ^ Чанг, Грегори К.У.К. и Ева Л. Бейкер (2003). «Вопросы надежности и обоснованности автоматизированного подсчета сконструированных ответов», с. 23. В: Автоматическая оценка эссе: междисциплинарная точка зрения. Шермис, Марк Д. и Джилл Бурштейн, ред. Lawrence Erlbaum Associates, Махва, Нью-Джерси, ISBN  0805839739
  25. ^ Эллиот, Скотт (2003), стр. 77.
    - Бурштейн, Джилл (2003), стр. 114.
  26. ^ Беннетт, Рэнди Э. (май 2006 г.). «Оценка технологий и письма: уроки, извлеченные из национальной оценки прогресса в образовании США» (PDF). Международная ассоциация оценки образования. Архивировано из оригинал (PDF) 24 сентября 2015 г.. Получено 5 июля 2015.
    - Маккарри, Д. (2010). «Может ли машинная оценка справиться с широкими и открытыми письменными тестами, а также с человеческими читателями?». Оценка письма. 15 (2): 118–129. Дои:10.1016 / j.asw.2010.04.002.
    - Р. Бриджман (2013). Шермис, Марк Д .; Бурштейн, Джилл (ред.). Справочник по автоматизированной оценке эссе. Нью-Йорк: Рутледж. С. 221–232.
  27. ^ а б Ян, Юнвэй, Чад В. Бакендал, Петр Дж. Юшкевич и Деннисон С. Бхола (2002). «Обзор стратегий проверки автоматизированного скоринга» В архиве 13 января 2016 г. Wayback Machine, Прикладное измерение в образовании, 15(4). Проверено 8 марта 2012 года.
  28. ^ Ван, Цзиньхао и Мишель Сталлоне Браун (2007), стр. 4-5.
    - Дикли, Семире (2006). «Обзор автоматической оценки эссе» В архиве 8 апреля 2013 г. Wayback Machine, Журнал технологий, обучения и оценки, 5(1)
    - Бен-Саймон, Анат (2007). «Введение в автоматизированную оценку эссе (AES)», презентация в PowerPoint, Тбилиси, Грузия, сентябрь 2007 г.
  29. ^ Винерип, Майкл (22 апреля 2012 г.). «Столкнувшись с роботом-грейдером? Просто продолжайте сбивать с толку». Нью-Йорк Таймс. Получено 5 апреля 2013.
  30. ^ «Подписи >> Профессионалы против машинной оценки студенческих эссе при оценивании с высокими ставками». HumanReaders.Org. Получено 5 апреля 2013.
  31. ^ Марков, Джон (4 апреля 2013 г.). «Программное обеспечение для оценки эссе дает профессорам передышку». Нью-Йорк Таймс. Получено 5 апреля 2013.
    - Гарнер, Ричард (5 апреля 2013 г.). «Профессора недовольны очерками, отмеченными компьютером». Независимый. Получено 5 апреля 2013.
  32. ^ Корриган, Пол Т. (25 марта 2013 г.). "Петиция против машинной оценки эссе, HumanReaders.Org". Преподавание и обучение в высшем образовании. Получено 5 апреля 2013.
    - Джеффи, Роберт Дэвид (5 апреля 2013 г.). «Компьютеры не могут читать, писать или оценивать документы». Huffington Post. Получено 5 апреля 2013.
  33. ^ «Профессионалы против машинной оценки студенческих эссе при оценивании с высокими ставками». HumanReaders.Org. Получено 5 апреля 2013.
  34. ^ «Результаты исследования >> Профессионалы против машинной оценки студенческих эссе при оценивании с высокими ставками». HumanReaders.Org. Получено 5 апреля 2013.
    - «Цитируемые работы >> Профессионалы против машинной оценки студенческих эссе при оценивании с высокими ставками». HumanReaders.Org. Получено 5 апреля 2013.
  35. ^ «Технологии оценки», Measurement, Inc ..