Головна

ББК 81.1

 a В. П. Захаров, 2005

 a Санкт-Петербурзький
 державний
 університет, 2005


1. Основні поняття

1.1. Введення: корпуси та корпусні лінгвістика

корпусна лінгвістика - Розділ комп'ютерної лінгвістики, що займається розробкою загальних принципів побудови і використання лінгвістичних корпусів (корпусів текстів) з використанням комп'ютерних технологій. Під назвою лінгвістичний, або мовної, корпус текстів розуміється великий, представлений в електронному вигляді, уніфікований, структурований, розмічений, філологічно компетентний масив мовних даних, призначений для вирішення конкретних лінгвістичних завдань. У поняття «корпус текстів» входить також система управління текстовими та лінгвістичними даними, яку останнім часом найчастіше називають корпусним менеджером (Або корпус-менеджером) (англ. Corpus manager). Це спеціалізована пошукова система, що включає програмні засоби для пошуку даних в корпусі, отримання статистичної інформації і надання результатів користувачеві в зручній формі.

Доцільність створення та зміст використання корпусів визначається такими передумовами:

1) досить великий (репрезентативний) обсяг корпусу гарантує типовість даних і забезпечує повноту уявлення всього спектра мовних явищ;

2) дані різного типу знаходяться в корпусі в своїй природній контекстної формі, що створює можливість їх всебічного і об'єктивного вивчення;

3) один раз створений і підготовлений масив даних може використовуватися багаторазово, багатьма дослідниками і в різних цілях.

Можна сказати, що всі сучасні лінгвістичні дослідження і роботи зі складання словників і граматик так чи інакше орієнтовані на використання представницьких корпусів текстів. Розвиток сучасних інтелектуальних програмних систем, призначених для обробки текстів на природній мові, також вимагає великої експериментальної лінгвістичної бази. Попит на корпусні дані збігся з появою відповідних технічних можливостей.

Перші лінгвістичні корпуси текстів з'явилися в 60-і рр. минулого століття. У 1963 р в Браунівському університеті (США) вперше був створений великий корпус текстів на машинному носії (Brown Corpus). Автори корпусу У. Френсис (W. Francis) і Г. Кучера (H. Kucera) спроектували його як набір з п'ятисот двухтисячесловних прозових друкованих текстів американського варіанту англійської мови. Тексти належали п'ятнадцяти найбільш масовим жанрам англомовної друкованої прози США і були надруковані в 1961 р Корпус супроводжувався великою кількістю матеріалів його первинної статистичної обробки - частотний і алфавітно-частотний словник, різноманітні статистичні розподілу. Поява Брауновського корпусу викликало загальний інтерес і жваві дискусії. Перш за все вони торкнулися принципів відбору текстів і складу потенційно розв'язуваних на такому корпусі завдань. Потім послідували Ланкастерский корпус англійської мови (Lancaster-Oslo-Bergen Corpus, LOB), Упсальський корпус російської мови. Серед сучасних корпусів англійської мови найбільш відомі Британський національний корпус (British National Corpus), Міжнародний корпус англійської мови (International Corpus of English), лінгвістичний Банк англійської мови (Bank of English) і ін. В даний час корпуси створені для багатьох мов світу (див . Додаток 1). Ведеться робота і над створенням Національного корпусу російської мови.

У першій половині 90-х рр. корпусні лінгвістика остаточно сформувалася як окремий розділ науки про мову. При цьому вона тісно взаємодіє з комп'ютерною лінгвістикою, використовуючи її досягнення і в свою чергу збагачуючи її.

Пошук в корпусі даних дозволяє по будь-якому слову побудувати конкорданс - список всіх вживань даного слова в контексті з посиланнями на джерело. Корпуси можуть використовуватися для отримання різноманітних довідок і статистичних даних про мовних і мовних одиницях. Зокрема, на основі корпусів можна отримати дані про частоту словоформ, лексем, граматичних категорій, простежити зміну частот і контекстів в різні періоди часу, отримати дані про спільну народження лексичних одиниць і т. Д. Представницький масив мовних даних за певний період дозволяє вивчати динаміку процесів зміни лексичного складу мови, проводити аналіз лексико-граматичних характеристик в різних жанрах і у різних авторів, і т. д Корпуси покликані служити також джерелом і інструментом багатоаспектних лексикографічних праць з підготовки різноманітних історичних і сучасних словників. Дані корпусів можуть бути використані для побудови та уточнення граматик і в цілях навчання мови.

Можна сказати, що корпусні лінгвістика має своїм предметом теоретичні основи і практичні механізми створення і використання представницьких масивів мовних даних, призначених для лінгвістичних досліджень в інтересах широкого кола користувачів.




 Технологія створення корпусів |  автоматична розмітка |  Формати даних і стандартизація |  корпусні менеджери |  Користувачі і способи використання корпусів |  типи корпусів |  Термінологія |  Розділ 2. Історія створення лінгвістичних корпусів |  Навчально-методичне забезпечення курсу |  Розділ 3. Стандартизація в корпусних лінгвістиці |

© 2016-2022  um.co.ua - учбові матеріали та реферати