Эта статья за кулисами была предоставлена LiveScience в партнерстве с Национальным научным фондом.
Должен любить Cubbies. Благодаря им, база данных аудиозаписей Верховного Суда США теперь свободно доступна для общественности. Слишком много натяжения? Не совсем, потому что инструмент вырос из любви одного человека к чикагским детенышам, технологиям и изучению права.
Одним солнечным днем в Wrigley Field 20 лет назад Джерри Голдман, тогдашний профессор политологии в Северо-Западном университете, сидел в трибунах, наслаждаясь игрой с парой студентов. Они рассмотрели способы, которыми бейсбол является метафорой для Верховного суда США: девять игроков, девять судей. Одна игра включает отличные передачи и потрясающие уловы; другой на устные аргументы и вдумчивые решения.
Если бейсбольные карточки объясняют жизненно важные детали карьеры игрока, подумал Голдман, почему бы не создать карты для судей и добавить видео и аудио? Проект казался достижимым, учитывая появление HyperCard, приложения и инструмента программирования для ранних компьютеров Apple. «Мои коллеги думали, что я сошел с ума», - говорит Голдман, ныне профессор Чикагско-Кентского юридического колледжа Иллинойского технологического института (ИИТ). «Но я верил, что информационные технологии изменят способ работы мира».
Стремление Голдмана «по-настоящему гуманизировать Верховный суд» привело к разработке финансируемого НФС проекта Oyez, мультимедийного архива, который включает в себя серию устных аргументов с возможностью поиска, которые суд слышал с 1955 года. Приложение для мобильных устройств, ISCOTUSсейчас также доступно.
«Основная цель состояла в том, чтобы вывести суд из возвышенного статуса и донести его до общественности», - говорит Голдман. «Мы также хотели сделать доступным огромное количество данных, связанных с судом».
Создание поиска аудио и видео
Чтобы оживить Верховный суд, Голдман сначала убедил Национальный архив, в котором хранятся аудиофайлы суда, разрешить ему копировать записи для транскрипции и оцифровки. Чтобы сделать новые оцифрованные аудиозаписи доступными для поиска, Голдман сотрудничал с Марком Либерманом, профессором компьютерной лингвистики в Университете Пенсильвании. Либерман адаптировал алгоритм, который может сопоставлять звуки на аудиокассетах с письменными стенограммами. Эта работа в конечном итоге привела к разработке Penn Forced Aligner, инструмента, который сейчас широко используется для выравнивания разговорных звуков с письменным текстом.
«По сути, мы создали подобную Google поисковую систему для аудио- и видеозаписей», - говорит Либерман, который был привлечен к этой задаче из-за ценности архивов для ученых и общественности. Он также приветствовал возможность создать технику поиска, применимую к растущим коллекциям аудио- и видеозаписей, доступных из множества источников.
«Мы смогли создать модель того, как подходить к поиску экономически эффективным способом. Это может показаться большим проектом, но он небольшой по сравнению с тем, что сейчас доступно в Интернете, и тем, что будет в будущем », - говорит Либерман.
(Недавно коллеги Либермана из Оксфордского университета и Британской библиотеки использовали инструменты выравнивания для расшифровки записей Британского национального корпуса, архива с устной частью в 100 миллионов слов, собранных от участников, которые записали свою речь на Sony Walkmans.)
Анализ данных
Затем Голдман проанализировал почти 14 000 часов аудио устных аргументов из Верховного суда. «Есть множество вопросов, которые вы можете задать о наборе данных», - говорит он. «Тем не менее, это необычный набор данных, потому что он имеет несколько динамиков и является спонтанным». Одной из первых задач была идентификация каждого оратора в каждом устном аргументе - проблема, поскольку в аргументе могли участвовать примерно 11 ораторов. Кроме того, в течение многих лет стенограммы не помечали вопросы именами правосудия.
Решая эти проблемы, Голдман и его сотрудники, в том числе коллеги из Университета Карнеги-Меллона и Университета Миннесоты, собрали ряд интересных фактов о работе суда с 1955 года:
- 32 судьи старше 58 лет
- 8600 адвокатов, 70 процентов из которых предстали перед судом только один раз
- Произнесено 66 миллионов слов
- Более 6 100 дел и более 2300 объявлений.
- Самый длинный аргумент - 1300 минут
- Самый короткий аргумент - 14 минут
Судья Антонин Скалиа, который отбыл 27 лет в суде, является самым разговорчивым с 7200 минутами, в то время как Феликс Франкфуртер, отслуживший 23,5 года, занимает второе место с 7000 минутами. Самые сдержанные судьи - Шерман Минтон и Кларенс Томас. Хотя Минтон служил на суде в течение семи лет, только его последний год зарегистрирован. В течение его последнего срока его слышат всего 17 минут. Томас, на суде с 1991 года, часы в 23 минуты.
В то время как проект Oyez предоставляет ученым-юристам богатый материал для моих исследований, лингвисты также анализируют записи для различных исследований.
Принимая суд к людям
Чтобы гарантировать, что публика и ученые могут легко исследовать данные, команда Голдмана продолжает совершенствовать и разрабатывать интерфейс. Осенью 2013 года в систему данных будут добавлены возможности поиска, чтобы помочь пользователям глубже вникать в материал. Эта новая возможность поиска, например, позволит пользователям «искать по термину« строгий контроль », видеть его в стенограмме, прослушивать его, а затем делать то, что слушатели хотят с ним делать», - объясняет Голдман.
Чикагцы любят говорить: «Не строить маленьких планов». Голдман верен этому утверждению. Он хочет применить инструменты, разработанные в проекте Верховного суда, ко всем апелляционным судам США. Планируется разработка веб-сайтов и приложений для мобильных устройств. Недавно Фонд Рыцаря выделил проекту Oyez 600 000 долларов на выполнение этой работы для верховных судов штатов в Калифорнии, Флориде, Иллинойсе, Нью-Йорке и Техасе.
«Приложения - самая крутая часть», - говорит Голдман. Они будут следовать дизайну ISCOTUSсейчасЭто совместная работа Голдмана и Кэролайн Шапиро, также профессора юридического колледжа Чикаго-Кентского университета. ISCOTUSсейчас обеспечивает доступ ко всему, что есть в текущем протоколе Верховного суда, и включает аудиозаписи и стенограммы. Простым движением пользователь может пролистать стенограмму, найти ее и поделиться разделом с коллегами. "Лучшая часть?" говорит Голдман. «Вся эта информация бесплатна».
Масштаб проекта Oyez был таким, какой Goldman никогда не представлял. «Без поддержки NSF мы все равно будем бороться», - говорит он. «Поддержка НФС дала мне смелость подумать немало мыслей».
Примечание редактора: Исследователи, изображенные в статьях «За кулисами», были поддержаны Национальный фонд наукиФедеральное агентство отвечает за финансирование фундаментальных исследований и образования во всех областях науки и техники. Любые мнения, выводы и выводы или рекомендации, выраженные в этом материале, принадлежат автору и не обязательно отражают точку зрения Национального научного фонда. Увидеть За кулисами архив.