Филологические дисциплины, изучающие текст

Предмет: Филология
Тип работы: Реферат
Язык: Русский
Дата добавления: 10.03.2019

 

 

 

 

 

  • Данный тип работы не является научным трудом, не является готовой выпускной квалификационной работой!
  • Данный тип работы представляет собой готовый результат обработки, структурирования и форматирования собранной информации, предназначенной для использования в качестве источника материала для самостоятельной подготовки учебной работы.

Если вам тяжело разобраться в данной теме напишите мне в whatsapp разберём вашу тему, согласуем сроки и я вам помогу!

 

По этой ссылке вы сможете найти много готовых рефератов по филологии:

 

Много готовых рефератов по филологии

 

Посмотрите похожие темы возможно они вам могут быть полезны:

 

Коммуникативно-речевой акт, его структура

Правила речевой коммуникации для Говорящего и для Слушающего

Устный текст. Жанры устной (дописьменной) речи

Письменный текст: общественное значение появления письма


Введение:

В традиционной литературе текст изучается в основном в рамках лингвистики, герменевтики, семиотики, культурологии и является одним из основных понятий культуры XIX-XX веков. В основном, текстовыми статьями являются отраслевая филология, литература, изучающие произведения письма с целью их особой организации, связи между текстом и культурным контекстом.

Часто текст рассматривается как дискурсивное единство, то есть конкретный способ и правила организации речевой деятельности, независимо от письменного или устного

Это может быть принципиально другим. Прежде всего, это будет формально-логическое образование. Статистический принцип, в котором изображения взаимосвязаны, новые значения.

Контент-анализ, анализ данных, закон Брэдфорда-Ципфа, контент-анализ.

Цель данного эссе: охарактеризовать основные методы статистического анализа текста.

Частотный анализ

 

Криптоанализ (от другого греческого языка: скрытый и анализ - наука о параметрах, безошибочное статистическое распределение отдельных символов и их последовательностей, как в простом тексте, так и в зашифрованном виде, которое точно заменить символы будут сохранены во время шифрования и дешифрования.

Говоря о том, что частота встречаемости задних букв алфавита достаточно высока. Более того, в случае моно-буквенно-цифрового шифрования, если зашифрованный текст содержит символ с аналогичной вероятностью появления, мы можем предположить, что это обязательно для шифрования букв. Аналогичные соображения применимы к биграммам (двухбуквенным последовательностям), триграмм в случае полиалфабетических шифров.

Метод частотного анализа известен с 9-го века и связан с именем Аль-Кинди. Но наиболее известным случаем применения такого анализа является расшифровка египетских иероглифов Ж.-Ф. Шампольон в 1822 году.

Этот анализ состоит из слов, слов из букв. Количество букв на каждом языке ограничено. Важными соглашениями являются буквально, буквально (биграмма) и вообще м-ок (м-грамм), совместимость букв друг с другом, чередование гласных и согласных и некоторые другие.

В тексте показана частота встречаемости букв на русском языке (в процентах), а между словами есть пробел (-):

Буква алфавита

Показатель частоты встречаемости

 

-

0,175

 

А

0,062

 

Б

0,014

 

В

0,038

 

Г

0,013

 

Д

0,025

 

Е, Ё

0,072

 

Ж

0,007

 

З

0,016

 

И

0,062

 

Й

0,010

 

К

0,028

 

Л

0,035

 

М

0,026

 

Н

0,053

 

О

0,090

 

П

0,023

 

Р

0,040

 

С

0,045

 

Т

0,053

 

У

0,021

 

Ф

0,002

 

Х

0,009

 

Ц

0,004

 

Ч

0,012

 

Ш

0,006

 

Щ

0,003

 

Ъ, Ь

0,014

 

Ы

0,016

 

Э

0,003

 

Ю

0,006

 

Я

0,018

 

Существует мнемоническое правило для запоминания десяти самых распространенных букв русского алфавита. Эти буквы составляют слово СЕНОВАЛИТЕР.

Частотные характеристики биграмм, триграмм и четырех грамм значимых текстов также стабильны. Существуют специальные таблицы, показывающие частоту биграмм некоторых алфавитов.

По результатам исследований с использованием таких таблиц ученые определили наиболее распространенные биграммы и триграммы для русского алфавита:

ST, НО, EN, ТО, ПО, ОВ, НИ, РА, ВО, КО, КО, СТО, ЕНО, НОВ, ТОВ, ОВО, ОВА.

Вы также можете легко получить информацию о совместимости писем, т.е. о предпочтительных ссылках.

Результатом таких исследований является таблица, в которой содержатся наиболее предпочтительные «соседи». Такие таблицы обычно также указывают процент гласных и согласных (в процентах), предшествующих (или следующих) за данной буквой.

Г

С

Слева

 

Справа

Г

С

 

3

97

л, д, к, т, в, р, н

А

л, н, с, т, р, в, к, м

12

88

 

80

20

я, е, у, и, а, о

Б

о, ы, е, а, р, у

81

19

 

68

32

я, т, а, е, и, о

В

о, а, и, ы, с, н, л, р

60

40

 

78

22

р, у, а, и, е, о

Г

о, а, р, л, и, в

69

31

 

72

28

р, я, у, а, и, е, о

Д

е, а, и, о, н, у, р, в

68

32

 

19

81

м, и, л, д, т, р, н

Е

н, т, р, с, л, в, м, и

12

88

 

83

17

р, е, и, а, у, о

Ж

е, и, д, а, н

71

29

 

89

11

о, е, а, и

З

а, н, в, о, м, д

51

49

 

27

73

р, т, м, и, о, л, н

И

с, н, в, и, е, м, к, з

25

75

 

55

45

ь, в, е, о, а, и, с

К

о, а, и, р, у, т, л, е

73

27

 

77

23

г, в, ы, и, е, о, а

Л

и, е, о, а, ь, я, ю, у

75

25

 

80

20

я, ы, а, и, е, о

М

и, е, о, у, а, н, п, ы

73

27

 

55

45

д, ь, н, о

Н

о, а, и, е, ы, н, у

80

20

 

11

89

р, п, к, в, т, н

О

в, с, т, р, и, д, н, м

15

85

 

65

35

в, с, у, а, и, е, о

П

о, р, е, а, у, и, л

68

32

 

55

45

и, к, т, а, п, о, е

Р

а, е, о, и, у, я, ы, н

80

20

 

69

31

с, т, в, а, е, и, о

С

т, к, о, я, е, ь, с, н

32

68

 

57

43

ч, у, и, а, е, о, с

Т

о, а, е, и, ь, в, р, с

63

37

 

15

85

п, т, к, д, н, м, р

У

т, п, с, д, н, ю, ж

16

84

 

70

30

н, а, е, о, и

Ф

и, е, о, а, е, о, а

81

19

 

90

10

у, е, о, а, ы, и

Х

о, и, с, н, в, п, р

43

57

 

69

31

е, ю, н, а, и

Ц

и, е, а, ы

93

7

 

82

18

е, а, у, и, о

Ч

е, и, т, н

66

34

 

67

33

ь, у, ы, е, о, а, и, в

Ш

е, и, н, а, о, л

68

32

 

84

16

е, б, а, я, ю

Щ

е, и, а

97

3

 

0

100

м, р, т, с, б, в, н

Ы

л, х, е, м, и, в, с, н

56

44

 

0

100

н, с, т, л

Ь

н, к, в, п, с, е, о, и

24

76

 

14

86

с, ы, м, л, д, т,, р, н

Э

н, т, р, с, к

0

100

 

58

42

ь, о, а, и, л, у

Ю

д, т, щ, ц, н, п

11

89

 

43

57

о, н, р, л, а, и, с

Я

в, с, т, п, д, к, м, л

16

84

 

Наиболее распространенным использованием частотных характеристик является криптография. Помимо криптографии в других областях. Например, клавиатура компьютера, пишущая машинка или ссылка является воплощением идеи ускоренного набора текста.

Рейтинг данных

 

Есть несколько определений для ранжирования. Прежде всего, они связаны с регионом. В общем смысле «ранжирование» - это расположение элементов системы по рангу, знакам значимости, шкале; установление порядка расположения, места, задачи, цели и задачи в зависимости от их важности, веса.

Прежде всего, правила ранжирования были изучены разработчиками сайтов, чтобы занять лидирующие позиции.

Рейтинг (от английского до рейтинга) - поиск и поиск в поисковых системах. Далее мы рассмотрим метод ранжирования данных в поисковой системе.

Поисковая система - это веб-сайт, который предоставляет возможность поиска информации в Интернете. 

Общая схема ранжирования для сайта выглядит примерно так: для конкретного запроса поисковая система находит все входящие слова запроса на веб-странице.

Далее учитываются следующие факторы:

  • компактность словаря (расположение друг от друга),
  • достаточно словарный запас,
  • расположение, форма и т. д.

Страница результатов в результатах поиска. Благодаря различным методам ранжирования, которые подходят для всех машин. Поисковая система считает, что запросы в Интернете будут выполняться в соответствии с более релевантными запросами (от англ. Релевантными - по отношению к результатам поисковых систем и экспертной системы - степень соответствия запросов). и есть грамматическая форма. Текущие выражения (кавычки) - поисковые запросы.

Это должно быть соблюдение точной формы словаря. Это обеспечит ценное преимущество; рейтинг такой страницы увеличится в несколько раз. Это также означает, что поисковая система будет наиболее актуальной.

Текст должен выглядеть максимально естественно. Шкала 50% будет считаться неестественным. Ключевое слово близость к верхней части страницы.

Как правило, наиболее ценная и важная информация размещается в верхней части страницы, и если слова запроса находятся на странице ближе к началу, эта страница будет иметь более высокий рейтинг.

Подводя итоги, мы можем подвести итог: чтобы правильно сформировать и выбрать ключевые слова, вы должны сначала провести аналитическую работу, а именно определить, какие именно запросы являются наиболее частыми. Важно не только то, какие пользователи сети ищут слова, но и в каких случаях и числах они их используют.

Зная все вышеперечисленные правила, вы можете создавать сайты, рейтинг которых по посещаемости будет намного выше, чем у конкурентов.

Закон Брэдфорда-Ципфа

 

В конце 40-х годов прошлого века Дж. На самом деле огромный объем статистического материала, попытка показать, что он основан на естественном языке, который можно сформулировать следующим образом. Составить список всех слов в нем, в котором должны быть найдены все эти слова, то есть все, что появляется в тексте, и все, что встречается в этих словах, вплоть до R, то есть для любого слова. Произведение его серийного номера (ранга) в этом списке равно частоте.

Аналитически закон Ципфа можно выразить как: fr = c

  • где f - частота встречаемости слова в тексте;
  • r - ранг (порядковый номер) слова в списке;
  • с является эмпирической константой.

Полученная зависимость графически выражается в виде гиперболы. Таким образом, языки тысячелетия назад. Все кривые имеют одинаковую форму - форма «гиперболической лестницы», то есть распределение не изменилось.

Знания и вопросы могут распространяться в соответствии с этим законом. Брэдфорд - это не только распределенный словарь в тексте, но и распределенный документ в любой предметной области.

Английский химик и библиограф С. Брэдфорд, исследующий статьи по прикладной геофизике и нефти, нашел общие статьи. На основании установленного факта С. Брэдфорд сформулировал закон распространения публикаций по публикациям.

Основной смысл законов заключается в том, что количество статей в каждой зоне может быть одинаковым, поэтому количество статей в каждой зоне для данного предмета одинаково. Логи профиля - это открытые ядра. Количество специализированных журналов в основной зоне невелико. По сравнению с количеством логов в ядре. Третья зона, объединяющая журналы, тематические статьи.

Таким образом, количество случаев, когда количество переходов из одной зоны в другую увеличивается. C. У меня есть несколько журналов во второй зоне. Если указано количество магазинов в 1-й зоне, p2 находится во 2-й зоне, p3 - количество магазинов в 3-й зоне. Если количество - это отношение журналов 2-й зоны к количеству журналов 1-й зоны, то образец, раскрытый С.

Брэдфордом, можно записать следующим образом:

  • P1: P2: P3 = 1: a: a2, или
  • P3: P2 = P2: P1 = a.

Эта зависимость называется законом Брэдфорда. Это выражение называется законом Брэдфорда в интерпретации Б. Викери. Если закон Бипфорда является характерным случаем социальной и биологической природы, то это естественный случай распространения науки и техники.

Контент-анализ

 

Определение контент-анализа

Анализ результатов исследований, проведенных в рамках различных методов статистического анализа, был необходим только для того, чтобы получить результаты объективного анализа текста.

Контент-анализ - это как раз тот способ оценки текстов, в котором не было расхождений между исследователями, его можно воспроизвести в любое время.

Сегодня существует множество интерпретаций концепций контент-анализа. Рассмотрим наиболее часто используемые определения.

«Контент» - контент (контент). При таком толковании получается, что под анализом контента нужно понимать только содержательный анализ текстов. Не так, потому что этот анализ текста был задуман как строгий метод оценки текстов. Контент-анализ не определяет значения; речь идет о серьезном распределении частот семантических объектов в тексте.

Во-вторых, контент-анализ легко спутать с обобщением текста, а также с поиском информации в текстовых базах данных. Это понимание не соответствует истинной цели контент-анализа.

Существует более научное определение, что контент-анализ является количественным анализом.

Философский смысл контент-анализа, который состоит из различных текстовых материалов и абстрактных моделей текстового контента. По сути, контент-анализ является одной из номотетических исследовательских процедур в области применения идеографических методов.

Кратко перечислим еще одно из известных определений:

  • Контент-анализ - методология объективного качественного и систематического изучения содержания сообщений (Д. Джерри, Дж. Джерри).
  • Контент-анализ - это систематическая числовая обработка, оценка и интерпретация форм и содержания источника информации (Д. Мангейм, Р. Рич).
  • Контент-анализ - это качественно-количественный метод изучения документов, который требует объективной оценки и строгости процедур и заключается в интерпретации результатов (В. Иванов).
  • Контент-анализ заключается в том, что он содержит определенные осмысленные понятия. Контент-анализ - это метод исследования для получения результатов. Это самый доступный и приемлемый вариант.
  • Контрактный анализ - это метод сбора количественных данных. Все написанное или написанное, то есть все, что стало общением.

Анализ содержимого показывает книги, газеты или журнальные статьи, объявления, телевизионные выступления, фильмы и заметки, фотографии, слоганы, этикетки, рисунки, другие произведения искусства, а также, конечно, официальные документы.

История появления контент-анализа

Известно, что методология контент-анализа широко используется в век информации. Однако об этом стоит помнить.

Ученые считают, что контент-анализ является самым ранним системным подходом к изучению теста. В Швеции в 18 веке был проведен анализ собрания из 90 церковных гимнов, которые прошли государственную оценку и были обвинены в несоответствии религиозным догмам.

Контент-аналитический опыт. Для того, чтобы определить соответствие догм, выведены расчеты в текстах. Частота появления в тексте книги определяется теми, кто служил критерием ее эстетики.

Все это было только началом развития контент-анализа, его первыми зачатками. Содержание и аналитические исследования должны были проходить в конце XIX - начале XX веков в Штатах Америки. Объектом исследования стало появление «желтых процессов» в Нью-Йорке.

Сам термин «контент-анализ» впервые использовали американские журналисты Б. Мэтью, А. Тенни, Д. Спид, Д. Уипкинс. Следует также отметить, что истоки формирования методологии Кайзера.

Гарольд Лассвелл (Harold Lasswell) провел исследования, которые сегодня были признаны классикой контент-анализа. Лассвелл занимался анализом агитационных материалов периода Второй мировой войны. В 1960-е годы, во время так называемого «методологического взрыва», исследования в области методологии контент-анализа особенно активизировались.

В 1943 году Авраам Каплан расширил фокус контент-анализа со статистической семантики на политические дискуссии на анализ семиотики. Во время Второй мировой войны популярность семиотики привела к использованию ориентированного на качество анализа контента для изучения «идеологических» аспектов в таких жанрах, как телевизионные шоу и рекламные ролики.

Это дальнейшее развитие методологии разнообразило ее варианты. Именно в этот период началось активное использование компьютерных технологий в исследованиях.

Контент-анализ и изменения, конечно же, претерпели значительные изменения. И все же главное - способность получать объективную информацию или знания по косвенным признакам, которые остались неизменными.

Процедура контент-анализа

Процедура контент-анализа варьируется в зависимости от источников информации и задач их анализа. В общем, это описывается как набор следующих шагов. Методы анализа данных, определения счетов и технологий обработки данных.

Определение совокупности изучаемых текстовых данных с точки зрения определенных критериев отбора, соответствующих задачам или гипотезе контент-анализа. Выбран канал (пресса, телевидение, радио, интернет-материалы), различные тексты (статьи, авторефераты диссертаций, рекламные сообщения и т. д.). Сравнимый размер текста и репрезентативность выборки установлены. Иногда - способ, частота и время появления сообщений. Анализ основан на семантических (семантических) критериях и зависит от исходных текстов и целей их анализа.

Заключительная задача подготовительного этапа - разработка инструментов - таблиц форматов.  Системное кодирование, условные сокращения, инструкции для аналитика и т. д.

Обязательные инструменты включают в себя:

  1. Классификатор контент-анализа, который понимается как общая таблица, в которой представлены все категории и подкатегории анализа и единицы анализа. Он был написан на первом этапе, чтобы четко записать единицы, которые были использованы в исследовании.
  2. Протокол (форма) контент-анализа содержит: информацию о документе (его авторе, времени публикации, томе и т. д.); результаты его анализа. Протоколы заполняются, как правило, в виде разрешенных видеосвязей, так что все данные размещаются на одном листе, но если они анализируют содержимое небольшого количества документов, то вы можете использовать протоколы и заполнять протоколы. в открытом виде.
  3. Регистрационная карточка представляет количество единиц учета, характерных единиц анализа. Протокол контент-анализа каждого из документов заполняется на основании подсчета данных всех регистрационных карточек, связанных с этим документом.
  4. Инструкция по аналитике (кодировщик) - система правил и пояснений для исполнителей по сбору эмпирической информации, регистрации заданных измерений анализа. В инструкциях изложен алгоритм действий, которые требуют быстрого определения категорий и анализа, правила их кодирования, конкретные примеры из текстовых исследований, которые должны быть получены в спорных ситуациях, и т. д.
  • Сбор и первичная обработка данных контент-анализа
  • Процедура расчета семантических единиц разных уровней обобщения. Сбор данных обычно выполняется с помощью простого опроса.
  • Сводная таблица по этим темам. Используйте электронные таблицы, формулы суммирования для столбцов и строк или компьютерные приложения для статистических расчетов.
  • Завершение этапа сбора данных контролируется с помощью фиксирования, который в некоторых случаях содержит краткий отчет о группах исполнителей с указанием затрат на рабочую силу, с результатами и пересмотром первоначальных правил.

Интерпретация и обобщение результатов

Интерпретация результатов осуществляется в соответствии с целями. Результаты контент-анализа. Контент-анализ также использует стандартные инструменты, которые представляют структурные, различные графики.

Помимо анализа распределения частот, анализа коэффициентов корреляции между переменными, используется кластерный анализ с их корректным анализом. Результаты работы раскрыты. Ожидаемые и полученные данные сравниваются.

Типы контент-анализа

В научной литературе принято выделять следующие основные виды контент-анализа:

  • Количественный контент-анализ, который в первую очередь интересует появление в тексте определенных характеристик (значений) контента;
  • Качественный контент-анализ, позволяющий делать выводы даже на основании единственного наличия или отсутствия доступных характеристик контента.

Количественный контент-анализ

Количественный контент-анализ (также называемый предметным). Таким образом, собирая выбранные элементы, полученные в результате анализа, необходимо выяснить их значение и определить каждый возможный результат наблюдения в соответствии с ожиданиями исследователя.

Это должно означать, что любое исследование должно быть определено в соответствующем классе.

Проблема в том, что для этого должны быть доступны обычные правила оценки каждого варианта использования. Эта проблема, как правило, решается путем анализа возможных наборов сообщений. Желательно иметь дело с наблюдателями не одного, а нескольких исследователей.

Эта проблема должна быть решена, если мы должны решить, какая из них должна быть представлена ​​в положительном или отрицательном смысле. и т. д., а также когда нам нужно ранжировать ряд ссылок в соответствии с их оценками.

В этом случае исследователь должен быть не только настроенным, но и сильным. Эта задача предполагает высокий уровень гуманитарной подготовки специалистов, использующих методику контент-анализа.

Есть много методов, которые делают это решение проще. В некоторых случаях они основаны на суждениях группы арбитров (экспертов).

Примером таких методов является метод Q-сортировки и масштабирования с использованием метода парного сравнения. На рубеже XX-XXI вв. Специалисты по применению математических методов в исторических исследованиях уделяют большое внимание разработке специальных компьютерных экспертных систем (в рамках идеологии искусственного интеллекта).

Метод сортировки Q

При использовании Q-сортировки для девяти точек используется точная шкала распределения: пункт 1 соответствует минимальной степени измеримого признака (например, наименьшая степень одобрения), а пункт 9 соответствует степени серьезности (например, высшая степень одобрения).

Цель состоит в том, чтобы просто ранжировать (расположить) все суждения по одной оси значений. У арбитра должен быть определенный жест квот для каждой категории шкалы (для этого должны быть определены соответствующие категории), а затем ему будет предложено распространить данный набор терминов, чтобы эти квоты не нарушались.

Предполагается, что колебания, в зависимости от частоты, а также от того, что она движется к своим полюсам, показывают, что их число одинаково убивает.

Поэтому арбитры должны давать относительную оценку конкретным словам и фразам (случаям), относящимся к их конкретным категориям.

После того, как арбитры завершили свою работу, они рассчитали среднее арифметическое шкал для каждого случая, а затем были получены средние оценки.

Ранжированные результаты анализа могут быть подтверждены. Поэтому наличие других мнений.

Попарное масштабирование

Масштабирование с использованием метода парного сравнения имеет те же цели, что и предыдущий метод. Каждый арбитр должен решить, какое из слов (или фраз) в каждой паре «сильнее» (или более интенсивно) другого. 

Подсчитано, сколько раз каждый случай был результатом оценки всех арбитров. По мнению арбитров, «сильнее».

Следует отметить, что с помощью методов Q-сортировки и парного сравнения. Во-первых, во всех этих случаях должны быть юридические решения. Стандарты такого рода не всегда ясны, но не всегда четко определены.

Испытание проводилось в нескольких идентичных испытаниях. Кроме того, выбор арбитров весьма произвольный.

Следовательно, достоверность результатов, полученных такими арбитрами, весьма относительна. Поэтому процедуры следует использовать как «человеческий фактор».

Качественный контент-анализ

Наряду с фразами и другими элементами, структурный контент-анализ. В этом случае исследователь не так сильно интересуется тем, что сказано.

Чтобы узнать, сколько времени или места для печати вам нужно, чтобы обратить внимание на интересную проблему или сколько слов или газетных колонок вам нужно, вам нужно обратить внимание на каждого из кандидатов во время избирательной кампании.

Считается, что все вопросы должны быть связаны с размером газет. среди многочисленных рекламных сообщений.

При ответе на такие вопросы внимание исследователя сосредоточено не на тонких сообщениях, а на том, как они представлены. Основным вопросом здесь является наличие или отсутствие материала по теме, степень его акцента, его размер, а не нюансы его содержания.

Результаты исследований основаны на содержании (по формальным показателям степени присущей им неоднозначности), но при этом, как следствие, значительно менее значимы.

Измерения параметров, исследования в процессе качественного контент-анализа.

В результате высококачественный анализ контента обычно проще разрабатывать и проводить, а также дешевле и надежнее. Результаты могут быть вполне удовлетворительными.

Цель контент-анализа

Конкретные цели применения контент-анализа сильно различаются. Так, в 1952 г. американский исследователь Б. Берельсон сформулировал 17 голов:

  • Описание тенденций в содержании коммуникационных процессов;
  • Описание различий в содержании коммуникационных процессов в разных странах;
  • Сравнение отдельных медиа;
  • Выявление традиционных пропагандистских приемов;
  • Определение намерений и характеристик характеристик участников общения;
  • Определение психологического состояния отдельных лиц и / или групп;
  • Выявление взглядов, интересов и ценностей различных групп населения и общественных организаций;
  • Выявление фокусов отдельных лиц, групповых и социальных институтов
  • И так далее.

Приведенный выше список ориентирован исключительно на потребности социальных наук в области социологии, политологии и социальных коммуникаций.

Контент-анализ используется постоянно, практически при выполнении любых пользовательских запросов.

Заключение

 

На сегодняшний день существует несколько методов статистического анализа текста. Среди них процедуры количественного исследования, контент-анализ, анализ данных, закон Брэдфорда-Ципфа. Эти методы используются для социологических, антропологических и исторических исследований. Их результаты также важны при заполнении библиотечных коллекций и поиске информации по узкой теме. Метод ранжирования в самых распространенных ситуациях.