Программа дисциплины «Компьютерные методы обработки текста»  например: для направления 040100. 62 «Социология»




Скачать 33,43 Kb.
НазваниеПрограмма дисциплины «Компьютерные методы обработки текста»  например: для направления 040100. 62 «Социология»
Дата03.02.2016
Размер33,43 Kb.
ТипПрограмма дисциплины
Правительство Российской Федерации


Федеральное государственное автономное образовательное учреждение высшего профессионального образования
"Национальный исследовательский университет
"Высшая школа экономики"



Факультет социологии


Программа дисциплины «Компьютерные методы обработки текста»





(например: для направления 040100.62 «Социология» подготовки бакалавра)


Автор программы:

Маслинский К. А., преп., kirill@altlinux.org


Одобрена на заседании кафедры гуманитарных наук «___»____________ 20 г

Зав. кафедрой Кормина Ж. В.


Рекомендована УМО «___»____________ 20 г

Председатель [Введите И.О. Фамилия]


Утверждена Советом факультета «___»_____________20 г.

Председатель ________________________


Санкт-Петербург, 2012

Настоящая программа не может быть использована другими подразделениями университета и другими вузами без разрешения кафедры-разработчика программы.

1Область применения и нормативные ссылки


Настоящая программа учебной дисциплины устанавливает минимальные требования к знаниям и умениям студента и определяет содержание и виды учебных занятий и отчетности.

Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 040100.62 Социология для подготовки бакалавров изучающих дисциплину «Компьютерные методы обработки текста».

Программа разработана в соответствии с:

  • [Введите ссылку образовательный стандарт (ГОС, ФГОС или стандарт НИУ) ];ё

  • Образовательной программой для направления 040100.62 Социология для подготовки бакалавра..

  • Рабочим учебным планом университета по направлению подготовки бакалавров 040100.62 Социология, утвержденным в 2012 г.

2Цели освоения дисциплины


Целями освоения дисциплины «Компьютерные методы обработки текста» являются ознакомление студентов-социологов с кругом решенных и нерешенных задач в области автоматической обработки естественного языка (natural language processing) и компьютерной лингвистики (computational linguistics), а также с доступным программным инструментарием для решения прикладных задач обработки текста. В рамках курса будут рассмотрены основные понятия компьютерной лингвистики, необходимые для чтения литературы в данной области, а также существующее программное обеспечение для работы с русскоязычными текстами..

3Компетенции обучающегося, формируемые в результате освоения дисциплины


В результате освоения дисциплины студент должен:

  • Знать круг решенных и нерешенных задач компьютерной лингвистики, ориентироваться в современных методах обработки текста на естественном языке, владеть лингвистической и статистической терминологией, необходимой для чтения литературы в этой области (на русском и английском языках).

  • Уметь обоснованно выбирать методы автоматического анализа текста для применения в социологических исследованиях, строить и анализировать частотные списки языковых единиц, извлекать данные из текста с помощью регулярных выражений, формулировать правила извлечения информации в терминах контекстно-свободных грамматик.

  • Иметь навыки (приобрести опыт) работы с программным обеспечением для автоматического анализа текстов: морфологическими и синтаксическими анализаторами, конкордансами, системами извлечения фактов и отношений, инструментами кластеризации, классификации и тематического моделирования коллекций документов.


В результате освоения дисциплины студент осваивает следующие компетенции:

Компетенция

Код по ФГОС/ НИУ

Дескрипторы – основные признаки освоения (показатели достижения результата)

Формы и методы обучения, способствующие формированию и развитию компетенции

Способен работать с информацией: находить, оценивать и использовать информацию из различных источников, необходимую для решения научных и профессиональных задач (в том числе на основе системного подхода)

СК-Б6

Грамотно формулирует поисковый запрос для подбора литературы по методологии анализа текстов на естественном языке в целях социологического исследования

Чтение литературы к семинарам, выполнение практических заданий

Способен применять профессиональные знания и умения на практике.

СК-Б2

Формулирует технические требования к программному инструментарию на основании исследовательской задачи, умеет выбрать и применить программное обеспечение, соответствующее требованиям задачи

Выполнение практических заданий по анализу текста в рамках практических занятий и в качестве домашнего задания

Способен понимать и анализировать мировоззренческие, социально и личностно значимые проблемы и процессы, происходящие в обществе.

СЛК-Б6

Осознает роль речевой коммуникации и языковых форм для социальных процессов, протекающих в современных информационных средах, в первую очередь в интернете

Свободная дискуссия во время лекций и семинаров



4Место дисциплины в структуре образовательной программы


Настоящая дисциплина относится к циклу математических и естественнонаучных дисциплин, обеспечивающих подготовку бакалавров.

Для направления 040100.62 Социология является дисциплиной по выбору.


Для освоения учебной дисциплины, студенты должны владеть следующими знаниями и компетенциями:

  • иметь представление о классических методах анализа текста, применяемых в социологии: контент-анализ, качественный анализ, анализ дискурса.

  • иметь навыки элементарной статистической обработки данных: сортировка, построение графиков, вычисление средних значений.



Основные положения дисциплины должны быть использованы в дальнейшем при изучении следующих дисциплин:

  • Б.3.В.8 Социология массовой коммуникации

  • Б.3.В.17 Социология социальных сетей

  • ФТД.12 Интернет как инструмент и сфера социологических исследований

  • ФТД.9 Интернет как инструмент и сфера социологических исследований

  • проведении собственных исследований в рамках курсовых и выпускных квалификационных работ, а также в рамках научно-исследовательской практики.


5Тематический план учебной дисциплины







Название раздела

Всего часов

Аудиторные часы

Самостоя­тельная работа










Лекции

Семинары

Практические занятия




1

Введение

3

1







2

2

Частотный анализ лексики и ключевые слова

17

3

2

2

10

3

Локальные модели контекста. Вероятностные языковые модели

14




2

2

10

4

Автоматическое определение тематики

18

2

6




10

5

Извлечение мнений и оценок

12




2

2

8

6

Извлечение фактов и отношений

16

2

4

2

8

7

Автоматический анализ стиля

10

2







8

8

Домашнее задание

12










12




ВСЕГО

108

8

20

8

68

6Формы контроля знаний студентов


Тип контроля

Форма контроля

1 год

Параметры **







1

2

3

4




Текущий (неделя)

Домашнее задание







*




Задание по обработке массива текстовых данных

Итоговый

Зачет











*

Устный ответ по экзаменационному вопросу, письменное решение задачи



6.1Критерии оценки знаний, навыков




Данный курс в качестве текущего контроля предполагает выполнение практических заданий на семинарах и практических занятиях, а также одного домашнего практического задания. Кроме того, на семинарах осуществляется постоянный текущий контроль в форме заданий, выполняемых устно.

Оценки по всем формам текущего контроля выставляются по 10-ти балльной шкале.


Текстовые данные и другие электронные материалы для выполнения практических заданий размещаются на электронном ресурсе, организованном автором программы.

6.2Порядок формирования оценок по дисциплине



Преподаватель оценивает работу студентов на семинарских и практических занятиях: развернутые ответы с места, активность в дискуссиях, полноту и правильность выполнения практических заданий, инициативу при выполнении коллективных заданий. Оценки за работу на семинарских и практических занятиях преподаватель выставляет в рабочую ведомость. Накопленная оценка по 10-ти балльной шкале за работу на семинарских и практических занятиях определяется перед промежуточным или итоговым контролем - Оаудиторная.

Преподаватель оценивает самостоятельную работу студентов: полнота освещения темы при выступлении с докладом, правильность выполнения заданий. Оценки за самостоятельную работу студента преподаватель выставляет в рабочую ведомость. Накопленная оценка по 10-ти балльной шкале за самостоятельную работу определяется перед промежуточным или итоговым контролем – Осам. работа.

Преподаватель оценивает выполнение домашнего практического задания: полнота и точность данных, извлеченных из предложенного текстового массива. Полнота и точность оцениваются путем сравнения с эталонными данными, подготовленными преподавателем.


Накопленная оценка за текущий контроль учитывает результаты студента по текущему контролю следующим образом:

Онакопленная= 0,4* Одз + 0,4* Оауд + 0,2* Осам.работа

Способ округления накопленной оценки текущего контроля: – арифметический.


Результирующая оценка за дисциплину рассчитывается следующим образом:

Орезульт = 0,6* Онакопл + 0,4 *·Озач

Способ округления накопленной оценки промежуточного (итогового) контроля в форме зачета: – в пользу студента.


На зачете студент может получить дополнительный вопрос (дополнительную практическую задачу, решить к пересдаче домашнее задание), ответ на который оценивается в 1 балл.


ВНИМАНИЕ: оценка за итоговый контроль блокирующая, при неудовлетворительной итоговой оценке она равна результирующей.

7Содержание дисциплины


Раздел представляется в удобной форме (список, таблица). Изложение строится по разделам и темам. Содержание темы может распределяться по лекционным и практическим занятиям.

    Тема 1. Введение

Автоматическая обработка языка и компьютерная лингвистика — предмет и методы. Задачи автоматической обработки текста в социологических исследованиях. Основные задачи компьютерной лингвистики и история развития автоматической обработки языка.

Иерархия языковых уровней и стандартный цикл обработки текста (графематика — морфология — синтаксис — семантика). Основные задачи автоматической обработки текста: токенизация и нормализация текста; сегментация на предложения; стемминг; лемматизация и частеречные теги; снятие омонимии; парсинг — поверхностный и полный; кореференция и разрешение анафоры. Задачи высокоуровневого анализа: извлчение фактов и отношений, анализ оценок (sentiment analysis).

Инструменты морфологического анализа для русского языка. Понятия словоформа, лексема, лемма, основа. Стемминг. Алгоритм Портера. Stemka. Лемматизация. Словарный метод — грамматический словарь Зализняка. mystem. AOT. pymorphy. Грамматическая омонимия. Разметка частей речи. TreeTagger. TnT.

Литература:

  • Большакова и др. 2011, часть 1, Глава 1; Часть 2, глава 3.

  • Jurafsky, Martin 2000. Chapter 1. Introduction.


Тема 2. Частотный анализ лексики и ключевые слова.

Частотное распределение лексики в языке. Закон Ципфа. Доля hapax legomena. Скорость роста словаря. Коэффициент лексического разнообразия (type/token ratio).

Распределение лексики в текстах коллекции. Взвешенная частотность. TF-IDF. Прочие меры лексической дисперсии. Мера отклонения пропорций DP и DPnorm.

Извлечение ключевых слов. Метод контрастного корпуса. Отношение правдоподобия. Диахронический анализ лексической частотности.

Практическое занятие 1. Построение и анализ частотных списков.

ПО для построения частотных списков лексики. Лексический состав вершины, середины, хвоста частотного списка.


Литература:

  • Kornai 2008, 4.4 Zipf's law.

  • Маннинг, Рахгаван, Шютце 2011, 6.2 Частота термина и взвешивание; 6.4 Варианты функций tf-idf.

  • Baroni 2008.


Тема 3. Локальные модели контекста. Вероятностные языковые модели.

Понятие N-граммы. Буквенные и словарные n-граммы. Контекстное окно.

Применения N-грамм в автоматической обработке языка. Роль биграмм и триграмм. Определение языка по письменности. Языковые модели. Цепь Маркова.

Коллокации. Формальные определения и лингвистический смысл коллокаций. Меры ассоциации. Коэффициент взаимной информации (MI). T-score. Отношение правдоподобия (log-likelihood). Статистические тесты ассоциации: хи-квадрат и Fisher exact test. Выделение коллокаций по синтаксическому шаблону. Разрывные коллокации.

Практическое занятие 2. Извлечение коллокаций.

ПО для извлечения коллокаций. WordSmith Tools. Конкордансы. Perl-модуль Text::NSP.


Литература:

  • Ягунова, Пивоварова 2010.

  • Manning, Schutze 1999. Chapter 5. Collocations. Chapter 6. Statistical inference: n-gram models over sparse data.

  • Jurafsky, Martin 2000. Chapter 4. n-grams


Тема 4. Автоматическое определение тематики

Векторное представление текста для задач информационного поиска. Открытые и закрытые классы слов. Стоп-слова. Динамические списки стоп слов. Порог отсечения по частотности и DF. Дистрибутивная семантика. Совместная встречаемость и семантическая близость.

Кластеризация текстов. Задачи и область применения кластерных методов. Виды кластеризации: плоские, аггломеративные, нечеткие. Меры близости: евклидово расстояние, косинусная мера. Популярные алгоритмы кластеризации: k-средних, DBCLUST, спектральные алгоритмы. ПО для кластеризации текстов. Пакеты кластеризации для R. gCLUTO.

Классификация текстов. Машинное обучение с учителем и без учителя в задачах классификации текстов. Популярные алгоритмы классификации: наивный байесовский метод, метод опорных векторов, деревья принятия решений. ПО для классификации текстов. SVMLight.

Пространственное моделирование семантических отношений (word space). Латентный семантический анализ. Вероятностный латентно семантический анализ. Тематическое моделирование. Метод латентного размещения Дирихле. ПО для латентного семантического анализа и тематического моделирования. Mallet. sTMT.


Литература:

  • Большакова и др. 2011, Часть 5

  • Jurafsky, Martin 2008. ch. 20 Distributional word sense similarity

  • Маннинг и др. 2011, 6.3 Модель векторного пространства для ранжирования

  • Маннинг и др.2011, гл. 13-15 Классификация текстов, гл. 16-17 Кластеризация текстов

  • Маннинг и др. 2011, гл. 18 Латентный семантический анализ.

  • Кронгауз 2001, с. 152-168

  • Митрофанова и др. 2007.



Тема 5. Извлечение мнений и оценок (Sentiment analysis).

Область применения методов извлечения мнений и оценок. Типы оценочных текстов: позитивный, негативный, нейтральный. Оценочные шкалы. Классификация документов по оценке. Извлечение оценочных предложений и фрагментов. Определение предмета оценки.

Методы извлечения оценок. Словарные методы. Машинное обучение. Комбинирование источников. Проблемы и ограничения методов извлечения оценок.

Практическое занятие 3. Регулярные выражения

Регулярные грамматики и регулярные выражения. Синтаксис регулярных выражений. Поиск и замена при помощи регулярных выражений.

Литература:

  • Васильев и др. 2012

  • Котельников, Клековкина 2012

  • Кравченко 2012

  • Поляков и др. 2012

  • Indurkhya, Damerau 2010. Ch. 26. Sentiment analysis and subjectivity.


Тема 6. Извлечение фактов и отношений.

Синтаксис и формальные языки. Иерархия грамматик Хомского. Регулярные грамматики. Контекстно-свободные грамматики. Основные понятия: терминал, нетерминал, правило. Форма записи Бакуса-Наура.

Текст и дискурс. Методы сегментации текста с обучающей выборкой и без. Понятие связности текста. Автоматическое определение отношений связности. Коммуникативная структура текста. Понятия тема, рема, информационный статус. Теория риторической структуры. Риторические отношения. Анализ нарративной структуры. Разрешение анафоры и анализ кореференции.

Методы извлечения информации из текстов на естественном языке. Словарные методы. Синтаксические шаблоны. Распознавание именованных сущностей. Извлчение отношений. Извлечение ключевых слов текста.

Практическое занятие 4. Извлечение именованных сущностей и отношений.

ПО для извлечения данных из текста. Tomita-парсер.

Литература:

  • Jurafsky, Martin 2000. Ch. 22 Information extraction

  • Indurkhya, Damerau 2010. Ch. 21. Information extraction



Тема 7. Автоматический анализ стиля.

Стилометрия. Автоматическое определение авторства: краткая история и обзор методов. Формальные и лингвистические черты для стилистического анализа. Автоматическое определение жанровой принадлежности текста.

Литература:

  • Jurafsky, Martin 2000. Сh. 21 Computational Discourse



8Образовательные технологии



Для освоения материала на семинарских занятиях и практических занятиях используются задания, предназначенные как для индивидуального решения задач по обработке текста, так и для коллективного обсуждения стратегии решения той или иной задачи. Проводится обсуждение отдельных методов компьютерной лингвистики в форме мини-докладов студентов на семинарских занятиях. Особое внимание уделяется организации самостоятельной работы студентов с программным обеспечением, рассматриваемым в рамках курса. Лекции носят информативно-диалогический характер и проводятся с использованием мультимедийного проектора.

9Оценочные средства для текущего контроля и аттестации студента

9.1Тематика заданий текущего контроля


Примерные задания для практических занятий:

  1. Построить частотный список лемм для заданного корпуса текстов. Проиллюстрировать выполнение закона Ципфа графиком зависимости частотности от ранга на логарифмической шкале.

  2. Построить список коллокаций по заданному корпусу. Выделить наиболее значимые коллокации корпуса (биграммы, триграммы, разрывные коллокации). Использовать различные подходы: коллокации словоформ и коллокации лемм. Выделить наиболее значимые коллокаты к указанным ключевым словам (словоформы и леммы).

  3. Написание регулярных выражений для извлечения эмотиконов (смайликов) из текста.

  4. Разработать словари и грамматику для извлечения упоминаний организаций и связанных с ними событий в заданном корпусе текстов.


Тематика мини-докладов на семинарских занятиях:

  1. Меры ассоциации для выделения коллокаций.

  2. Алгоритмы кластеризации текстов.

  3. Алгоритмы классификации текстов.

  4. Обзор применений Sentiment analysis в социологических исследованиях.



Тема мини-доклада для каждого студента утверждается преподавателем в индивидуальном порядке.

9.2Вопросы для оценки качества освоения дисциплины


Примерный перечень вопросов к зачету (экзамену) по всему курсу или к каждому промежуточному и итоговому контролю для самопроверки студентов.

  1. Языковые уровни и стандартный цикл обработки текста.

  2. Закон Ципфа.

  3. Взвешенная частотность. TF-IDF. Лексическая дисперсия.

  4. Статистические языковые модели. N-граммы.

  5. Коллокации.

  6. Дистрибутивная семантика.

  7. Кластеризация текстов.

  8. Классификация текстов.

  9. Латентный семантический анализ.

  10. Тематическое моделирование. Метод латентного размещения Дирихле.

  11. Методы извлечения мнений (sentiment analysis).

  12. Формальные грамматики. Регулярные грамматики. Контекстно-свободные грамматики.

  13. Методы сегментации текста.

  14. Распознавание именованных сущностей.

  15. Стилометрия. Автоматическое определение жанровой принадлежности.






10Учебно-методическое и информационное обеспечение дисциплины

10.1Базовый учебник



Большакова и др. (2011). Автоматическая обработка текстов на естественном языке и компьютерная лингвистика : учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В.,

Носков А.А., Пескова О.В., Ягунова Е.В. — М.: МИЭМ, 2011. — 272 с.

http://clschool.miem.edu.ru/uploads/swfupload/files/011a69a6f0c3a9c6291d6d375f12aa27e349cb67.pdf

10.2Основная литература



Маннинг К. Д., Рагхаван П., Шютце Х. Введение в информационный поиск.: Пер. с англ. – М.: ООО «Вильямс», 2011. – 528 с.: ил.

Митрофанова О.А., Мухин А.С., Паничева П.В. Автоматическая классификация лексики в русскоязычных текстах на основе латентного семантического анализа // Труды международной конференции «Диалог». М., 2007. С. 413-422.

Ягунова Е. В., Пивоварова Л.М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации // Сб. НТИ. Сер. 2. № 6. М., 2010. С. 30-40.
http://www.webground.su/services.php?param=priroda_collac&part=priroda_collac.htm

Jurafsky, D., Martin, J. H. (2000) Speech and language processing. NJ: Prentice Hall, 2000.

Manning, C., Schütze H. (1999) Foundations of Statistical Natural Language Processing.. Cambridge, MA: MIT Press,1999.
http://nlp.stanford.edu/IR-book/


10.3Дополнительная литература



Васильев В. Г., Худякова М. В., Давыдов С. Классификация отзывов пользователей с использованием фрагментарных правил // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая - 3 июня 2012г.). Вып. 11 (18).- М.: Изд-во РГГУ, 2012.
http://www.dialog-21.ru/digests/dialog2012/materials/pdf/132.pdf

Мартыненко Г. Я., Чебанов С. В. Стилеметрия // Прикладная лингвистика. СПб, 1996.

Котельников Е. В., Клековкина М. В. Автоматический анализ тональности текстов на основе методов машинного обучения // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая - 3 июня 2012г.). Вып. 11 (18).- М.: Изд-во РГГУ, 2012.
http://www.dialog-21.ru/digests/dialog2012/materials/pdf/105.pdf

Кравченко А. Н. Генерация шаблонов оценочных выражений на основе неразмеченного текста // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая - 3 июня 2012г.). Вып. 11 (18).- М.: Изд-во РГГУ, 2012.
http://www.dialog-21.ru/digests/dialog2012/materials/pdf/129.pdf

Кронгауз М. А. Семантика. М.: Изд-во РГГУ, 2001.

Нехай И. В. Применение n-грамм и других статистик уровня символов и слов для семантической классификации незнакомых собственных имен // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая - 3 июня 2012г.). Вып. 11 (18).- М.: Изд-во РГГУ, 2012.
http://www.dialog-21.ru/digests/dialog2012/materials/pdf/150.pdf

Поляков П. Ю., Калинина М. В., Плешко В. В. Исследование применимости методов тематической классификации в задаче классификации отзывов о книгах // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая - 3 июня 2012г.). Вып. 11 (18).- М.: Изд-во РГГУ, 2012.
http://www.dialog-21.ru/digests/dialog2012/materials/pdf/103.pdf

Тестелец Я. Г. Введение в общий синтаксис. М.: Изд-во РГГУ, 2001.

Bird, S., Klein E., Loper, E. Natural Language Processing with Python. O'Reilly Media, 2009.

M. Baroni Distributions in text. In Anke Lüdeling and Merja Kytö (eds.), Corpus Linguistics: An International Handbook. Berlin: Mouton de Gruyter, 2008.
http://sslmit.unibo.it/~baroni/publications/hsk_39_dist_rev2.pdf

Bolshakov I. A., Gelbukh A. Computational linguistics: models, resources, applications. Mexico, 2004.
http://web.archive.org/web/20080125103030/http://www.gelbukh.com/clbook/Computational-Linguistics.pdf

Evert, S. The statistics of word cooccurrences: Word pairs and collocations. Ph.D. thesis, Institut für maschinelle Sprachverarbeitung, University of Stuttgart. 2004.
http://elib.uni-stuttgart.de/opus/volltexte/2005/2371

Indurkhya N., Damerau F.J. Handbook of Natural Language Processing


Indurkhya N., Damerau F.J. Handbook of natural language processing. Second edition. Chapman & Hall, 2010.

Kornai A. Mathematical linguistics. London, Springer, 2008.

Steyvers M., Griffiths T. Probabilistic Topic Models. In Landauer, T., Mcnamara, D., Dennis, S., Kintsch, W., Latent Semantic Analysis: A Road to Meaning. (2006).
http://cocosci.berkeley.edu/tom/papers/SteyversGriffiths.pdf

Интернет-ресурсы

http://www.dialog-21.ru/ — Диалог.Международная конференция по компьютерной лингвистике.

http://nlpub.ru — Каталог лингвистических ресурсов для обработки русского языка.

http://www.regular-expressions.info — The Premier website about Regular Expressions.

http://sentiment.christopherpotts.net/ — Sentiment symposium tutorial.

http://www.aclweb.org/anthology/ — ACL Anthology
A Digital Archive of Research Papers in Computational Linguistics.




10.4Программные средства



Для успешного освоения дисциплины, студент использует следующие программные средства:

  • Программа построения частотных словарей.
    http://alingva.ru/index.php/lingvosoft/12-ngramfrequency

  • mystem. Морфологический анализатор для русского языка.
    http://company.yandex.ru/technologies/mystem/

  • LSA. Латентно-семантический анализ текстовых данных.
    http://alingva.ru/index.php/lingvosoft/17--lsa

  • Tomita-пасрер. Инструмент для извлечения структурированных данных из текста на естественном языке.
    http://api.yandex.ru/tomita/

  • Модуль Perl Text::NSP. N-gram statistics and association measures.
    http://search.cpan.org/dist/Text-NSP/lib/Text/NSP/Measures.pm

  • Stanford Topic Modeling Toolbox.
    http://nlp.stanford.edu/software/tmt/tmt-0.4/

10.5Дистанционная поддержка дисциплины


Тестовые массивы текстов для обработки публикуются на сайте:

http://maslinsky.spb.ru/courses/cmta2013/

11Материально-техническое обеспечение дисциплины


Лекции и семинары проводятся с использованием мультимедийного проектора.

Похожие:

Программа дисциплины «Компьютерные методы обработки текста»  например: для направления 040100. 62 «Социология» iconПрограмма дисциплины «Сравнительная социология (Comparative Sociology)» Для направления 040100. 68 «Социология»
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 040100. 68 "Социология"...
Программа дисциплины «Компьютерные методы обработки текста»  например: для направления 040100. 62 «Социология» iconПрограмма дисциплины «Методы непараметрической статистики в социологии» для направления 040100. 68 «Социология»
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки 040100....
Программа дисциплины «Компьютерные методы обработки текста»  например: для направления 040100. 62 «Социология» iconПрограмма дисциплины «Направления развития методов сбора и обработки социологической информации (включая практикум)» для направления 040100.
Программа предназначена для преподавателей, ведущих данную дисциплину и студентов направления 040100. 68 "Социология" подготовки...
Программа дисциплины «Компьютерные методы обработки текста»  например: для направления 040100. 62 «Социология» iconПрограмма дисциплины «Направления развития методов сбора и обработки социологической информации (включая практикум)» для направления 040100.
Программа предназначена для преподавателей, ведущих данную дисциплину и студентов направления 040100. 68 "Социология" подготовки...
Программа дисциплины «Компьютерные методы обработки текста»  например: для направления 040100. 62 «Социология» iconПрограмма дисциплины «Направления развития методов сбора и обработки социологической информации (включая практикум)» для направления 040100.
Программа предназначена для преподавателей, ведущих данную дисциплину и студентов направления 040100. 68 "Социология" подготовки...
Программа дисциплины «Компьютерные методы обработки текста»  например: для направления 040100. 62 «Социология» iconПрограмма дисциплины «Экономическая социология (часть 2-я)» для направления 040100. 62 «Социология»
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 040100. 62 «Социология»...
Программа дисциплины «Компьютерные методы обработки текста»  например: для направления 040100. 62 «Социология» iconПрограмма дисциплины «Алгебра и анализ» для направления 040100. 62 «Социология»
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 040100. 62 «Социология»...
Программа дисциплины «Компьютерные методы обработки текста»  например: для направления 040100. 62 «Социология» iconПрограмма дисциплины «Социальные сети» для направления 040100. 68 «Социология»
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления подготовки/специальности...
Программа дисциплины «Компьютерные методы обработки текста»  например: для направления 040100. 62 «Социология» iconПрограмма дисциплины «Сравнительная социология» для направления 04100. 68 «Социология»
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 040100. 68 "Социология"...
Программа дисциплины «Компьютерные методы обработки текста»  например: для направления 040100. 62 «Социология» iconПрограмма дисциплины «Прикладное программное обеспечение» для направления 040100. 62 «Социология»
Программа предназначена для преподавателей, ведущих данную дисциплину, учебных ассистентов и студентов направления 040100. 62 «Социология»...
Разместите кнопку на своём сайте:
Библиотека


База данных защищена авторским правом ©lib2.znate.ru 2012
обратиться к администрации
Библиотека
Главная страница