ITS OCO

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » ITS OCO » Inquiry office » Голос полного безмолвия страшнее леденящего кровь вопля.


Голос полного безмолвия страшнее леденящего кровь вопля.

Сообщений 1 страница 12 из 12

1

ттипип

0

2

Почему современная лингвистика должна быть лингвистикой корпусов
Мы публикуем полную стенограмму лекции, прочитанной известным российским лингвистом, доктором филологических наук, членом-корреспондентом РАН, завсектором  типологии и ведущим научным сотрудником Института языкознания РАН, заведующим сектором корпусной лингвистики и лингвистической поэтики Института русского языка РАН, профессором МГУ Владимиром Александровичем Плунгяном 1 октября 2009 года в клубе – литературном кафе Bilingua в рамках проекта «Публичные лекции Полит.ру».
Текст лекции

Владимир Плунгян (фото Н. Четвериковой)
То, что я сегодня собираюсь рассказывать, относится сугубо к сфере компетенции лингвистики. Ничего сенсационного, что могло бы перевернуть жизнь каждого присутствующего, я рассказать не намерен, но для самой лингвистики это очень важно.
В истории всяких наук бывают такие события, о которых полезно знать не только представителям этой науки. Разумеется, внутри науки мы следим за тем, что происходит, что-то нас волнует больше, что-то меньше, мы откликаемся на статьи своих коллег, это всё внутреннее дело тысячи, может быть, нескольких тысяч человек, не более того, но всё-таки иногда происходит нечто, о чем бывает полезно сообщить более широкому кругу. Что-то из этого может проникнуть в школьные учебники лет через сто, обычно школьные учебники лет на сто отстают от фронта науки, как известно, что-то - в вузовские постепенно.
Появление корпусов – на мой взгляд, это одно из таких событий. Человек образованный знает, например, слово «словарь». Слово «словарь» ведь всем известно, даже неспециалистам по языку, теперь такой человек должен знать слово «корпус». Знать, что это такое, для чего это нужно, почему это важно. Вот сегодня у вас будет возможность узнать о том, что такое корпус, и почему важно это знать. Почему это важно для лингвистики. Люди, настроенные романтически, даже могли бы сказать, что в лингвистике произошла корпусная революция. После появления корпусов эта наука стала совсем другая. Мы можем этот пафос немного убрать, чуть-чуть снизить градус, но степень значимости всё-таки примерно такая.
Я кратко расскажу о том, что такое корпус, немного о создании корпуса, расскажу, какие в принципе бывают корпуса, чтобы ввести в предмет, и закончу ответом на поставленный в заглавии вопрос, как существование этого инструмента изменило науку о языке – или изменит науку о языке, или изменяет, можно в любом времени говорить.
Итак, что такое корпус? Корпус – это очень простая, может быть, даже бесхитростная вещь. Это собрание текстов, существующих на некотором языке в электронной форме, прежде всего. То, с чем в повседневной жизни каждый из нас сталкивается. Строго говоря, то, что я сейчас обозначил, это еще не совсем корпус, это протокорпус. Собрание текстов в электронной форме само по себе лучше называть другим словом. Словом «корпус» его иногда называли, называют иногда и сейчас, но лучше это назвать электронной библиотекой. Это правильное название для любого количества текстов, большого или маленького, в электронном виде. Электронные библиотеки известны всем – например, знаменитая библиотека Мошкова, – но любой человек может собрать собственную электронную библиотеку. Электронные библиотеки обычно используются для того, чтобы эти тексты читать, как тексты любой библиотеки. Корпус для этого не используется.
Тексты, входящие в корпус, не предназначены для чтения. Их можно читать, но корпус создается не ради этого. Корпус создается для того, чтобы эти тексты изучать, но для этого с ними надо провести некоторые операции. Их надо специальным образом обработать, внести туда некоторую информацию. Эта информация обычно на техническом языке, в корпусной лингвистике называется разметка, или аннотация. Собрание текстов в электронном виде, сопровожденное разметкой, называется корпусом, независимо от его объема.
Что за информацию мы можем вносить в тексты? Любую информацию о тексте, которая нам будет интересна с той точки зрения, с которой мы эти тексты намереваемся изучать. Порой мы можем изучать тексты исключительно с точки зрения хронологии их появления. В этом случае мы должны приписать каждому тексту дату его создания – той степени точности, которая нас устраивает. Это будет корпус, хронологически размеченный. И тогда мы можем изучать статистику, любые характеристики текста в зависимости от даты создания. Если дата создания не известна, то такая задача теряет смысл. Это такой простой, маленький пример, а вообще информацию можно вносить любую, как о самом тексте, так и об авторе, все характеристики автора (даты жизни, пол, возраст, место рождения) и многое, многое другое, всё, что может прийти в голову. Не только дату создания текста, но и место создания, объем текста, количество слов, опять-таки – всё, что мы захотим изучать, и всю информацию о словах этого текста, плюс то, что называется грамматической информацией.

0

3

Почему современная лингвистика должна быть лингвистикой корпусов
Мы публикуем полную стенограмму лекции, прочитанной известным российским лингвистом, доктором филологических наук, членом-корреспондентом РАН, завсектором  типологии и ведущим научным сотрудником Института языкознания РАН, заведующим сектором корпусной лингвистики и лингвистической поэтики Института русского языка РАН, профессором МГУ Владимиром Александровичем Плунгяном 1 октября 2009 года в клубе – литературном кафе Bilingua в рамках проекта «Публичные лекции Полит.ру».
Текст лекции

Владимир Плунгян (фото Н. Четвериковой)
То, что я сегодня собираюсь рассказывать, относится сугубо к сфере компетенции лингвистики. Ничего сенсационного, что могло бы перевернуть жизнь каждого присутствующего, я рассказать не намерен, но для самой лингвистики это очень важно.
В истории всяких наук бывают такие события, о которых полезно знать не только представителям этой науки. Разумеется, внутри науки мы следим за тем, что происходит, что-то нас волнует больше, что-то меньше, мы откликаемся на статьи своих коллег, это всё внутреннее дело тысячи, может быть, нескольких тысяч человек, не более того, но всё-таки иногда происходит нечто, о чем бывает полезно сообщить более широкому кругу. Что-то из этого может проникнуть в школьные учебники лет через сто, обычно школьные учебники лет на сто отстают от фронта науки, как известно, что-то - в вузовские постепенно.
Появление корпусов – на мой взгляд, это одно из таких событий. Человек образованный знает, например, слово «словарь». Слово «словарь» ведь всем известно, даже неспециалистам по языку, теперь такой человек должен знать слово «корпус». Знать, что это такое, для чего это нужно, почему это важно. Вот сегодня у вас будет возможность узнать о том, что такое корпус, и почему важно это знать. Почему это важно для лингвистики. Люди, настроенные романтически, даже могли бы сказать, что в лингвистике произошла корпусная революция. После появления корпусов эта наука стала совсем другая. Мы можем этот пафос немного убрать, чуть-чуть снизить градус, но степень значимости всё-таки примерно такая.
Я кратко расскажу о том, что такое корпус, немного о создании корпуса, расскажу, какие в принципе бывают корпуса, чтобы ввести в предмет, и закончу ответом на поставленный в заглавии вопрос, как существование этого инструмента изменило науку о языке – или изменит науку о языке, или изменяет, можно в любом времени говорить.
Итак, что такое корпус? Корпус – это очень простая, может быть, даже бесхитростная вещь. Это собрание текстов, существующих на некотором языке в электронной форме, прежде всего. То, с чем в повседневной жизни каждый из нас сталкивается. Строго говоря, то, что я сейчас обозначил, это еще не совсем корпус, это протокорпус. Собрание текстов в электронной форме само по себе лучше называть другим словом. Словом «корпус» его иногда называли, называют иногда и сейчас, но лучше это назвать электронной библиотекой. Это правильное название для любого количества текстов, большого или маленького, в электронном виде. Электронные библиотеки известны всем – например, знаменитая библиотека Мошкова, – но любой человек может собрать собственную электронную библиотеку. Электронные библиотеки обычно используются для того, чтобы эти тексты читать, как тексты любой библиотеки. Корпус для этого не используется.
Тексты, входящие в корпус, не предназначены для чтения. Их можно читать, но корпус создается не ради этого. Корпус создается для того, чтобы эти тексты изучать, но для этого с ними надо провести некоторые операции. Их надо специальным образом обработать, внести туда некоторую информацию. Эта информация обычно на техническом языке, в корпусной лингвистике называется разметка, или аннотация. Собрание текстов в электронном виде, сопровожденное разметкой, называется корпусом, независимо от его объема.
Что за информацию мы можем вносить в тексты? Любую информацию о тексте, которая нам будет интересна с той точки зрения, с которой мы эти тексты намереваемся изучать. Порой мы можем изучать тексты исключительно с точки зрения хронологии их появления. В этом случае мы должны приписать каждому тексту дату его создания – той степени точности, которая нас устраивает. Это будет корпус, хронологически размеченный. И тогда мы можем изучать статистику, любые характеристики текста в зависимости от даты создания. Если дата создания не известна, то такая задача теряет смысл. Это такой простой, маленький пример, а вообще информацию можно вносить любую, как о самом тексте, так и об авторе, все характеристики автора (даты жизни, пол, возраст, место рождения) и многое, многое другое, всё, что может прийти в голову. Не только дату создания текста, но и место создания, объем текста, количество слов, опять-таки – всё, что мы захотим изучать, и всю информацию о словах этого текста, плюс то, что называется грамматической информацией.

0

4

Почему современная лингвистика должна быть лингвистикой корпусов
Мы публикуем полную стенограмму лекции, прочитанной известным российским лингвистом, доктором филологических наук, членом-корреспондентом РАН, завсектором  типологии и ведущим научным сотрудником Института языкознания РАН, заведующим сектором корпусной лингвистики и лингвистической поэтики Института русского языка РАН, профессором МГУ Владимиром Александровичем Плунгяном 1 октября 2009 года в клубе – литературном кафе Bilingua в рамках проекта «Публичные лекции Полит.ру».
Текст лекции

Владимир Плунгян (фото Н. Четвериковой)
То, что я сегодня собираюсь рассказывать, относится сугубо к сфере компетенции лингвистики. Ничего сенсационного, что могло бы перевернуть жизнь каждого присутствующего, я рассказать не намерен, но для самой лингвистики это очень важно.
В истории всяких наук бывают такие события, о которых полезно знать не только представителям этой науки. Разумеется, внутри науки мы следим за тем, что происходит, что-то нас волнует больше, что-то меньше, мы откликаемся на статьи своих коллег, это всё внутреннее дело тысячи, может быть, нескольких тысяч человек, не более того, но всё-таки иногда происходит нечто, о чем бывает полезно сообщить более широкому кругу. Что-то из этого может проникнуть в школьные учебники лет через сто, обычно школьные учебники лет на сто отстают от фронта науки, как известно, что-то - в вузовские постепенно.
Появление корпусов – на мой взгляд, это одно из таких событий. Человек образованный знает, например, слово «словарь». Слово «словарь» ведь всем известно, даже неспециалистам по языку, теперь такой человек должен знать слово «корпус». Знать, что это такое, для чего это нужно, почему это важно. Вот сегодня у вас будет возможность узнать о том, что такое корпус, и почему важно это знать. Почему это важно для лингвистики. Люди, настроенные романтически, даже могли бы сказать, что в лингвистике произошла корпусная революция. После появления корпусов эта наука стала совсем другая. Мы можем этот пафос немного убрать, чуть-чуть снизить градус, но степень значимости всё-таки примерно такая.
Я кратко расскажу о том, что такое корпус, немного о создании корпуса, расскажу, какие в принципе бывают корпуса, чтобы ввести в предмет, и закончу ответом на поставленный в заглавии вопрос, как существование этого инструмента изменило науку о языке – или изменит науку о языке, или изменяет, можно в любом времени говорить.
Итак, что такое корпус? Корпус – это очень простая, может быть, даже бесхитростная вещь. Это собрание текстов, существующих на некотором языке в электронной форме, прежде всего. То, с чем в повседневной жизни каждый из нас сталкивается. Строго говоря, то, что я сейчас обозначил, это еще не совсем корпус, это протокорпус. Собрание текстов в электронной форме само по себе лучше называть другим словом. Словом «корпус» его иногда называли, называют иногда и сейчас, но лучше это назвать электронной библиотекой. Это правильное название для любого количества текстов, большого или маленького, в электронном виде. Электронные библиотеки известны всем – например, знаменитая библиотека Мошкова, – но любой человек может собрать собственную электронную библиотеку. Электронные библиотеки обычно используются для того, чтобы эти тексты читать, как тексты любой библиотеки. Корпус для этого не используется.
Тексты, входящие в корпус, не предназначены для чтения. Их можно читать, но корпус создается не ради этого. Корпус создается для того, чтобы эти тексты изучать, но для этого с ними надо провести некоторые операции. Их надо специальным образом обработать, внести туда некоторую информацию. Эта информация обычно на техническом языке, в корпусной лингвистике называется разметка, или аннотация. Собрание текстов в электронном виде, сопровожденное разметкой, называется корпусом, независимо от его объема.
Что за информацию мы можем вносить в тексты? Любую информацию о тексте, которая нам будет интересна с той точки зрения, с которой мы эти тексты намереваемся изучать. Порой мы можем изучать тексты исключительно с точки зрения хронологии их появления. В этом случае мы должны приписать каждому тексту дату его создания – той степени точности, которая нас устраивает. Это будет корпус, хронологически размеченный. И тогда мы можем изучать статистику, любые характеристики текста в зависимости от даты создания. Если дата создания не известна, то такая задача теряет смысл. Это такой простой, маленький пример, а вообще информацию можно вносить любую, как о самом тексте, так и об авторе, все характеристики автора (даты жизни, пол, возраст, место рождения) и многое, многое другое, всё, что может прийти в голову. Не только дату создания текста, но и место создания, объем текста, количество слов, опять-таки – всё, что мы захотим изучать, и всю информацию о словах этого текста, плюс то, что называется грамматической информацией.

0

5

Почему современная лингвистика должна быть лингвистикой корпусов
Мы публикуем полную стенограмму лекции, прочитанной известным российским лингвистом, доктором филологических наук, членом-корреспондентом РАН, завсектором  типологии и ведущим научным сотрудником Института языкознания РАН, заведующим сектором корпусной лингвистики и лингвистической поэтики Института русского языка РАН, профессором МГУ Владимиром Александровичем Плунгяном 1 октября 2009 года в клубе – литературном кафе Bilingua в рамках проекта «Публичные лекции Полит.ру».
Текст лекции

Владимир Плунгян (фото Н. Четвериковой)
То, что я сегодня собираюсь рассказывать, относится сугубо к сфере компетенции лингвистики. Ничего сенсационного, что могло бы перевернуть жизнь каждого присутствующего, я рассказать не намерен, но для самой лингвистики это очень важно.
В истории всяких наук бывают такие события, о которых полезно знать не только представителям этой науки. Разумеется, внутри науки мы следим за тем, что происходит, что-то нас волнует больше, что-то меньше, мы откликаемся на статьи своих коллег, это всё внутреннее дело тысячи, может быть, нескольких тысяч человек, не более того, но всё-таки иногда происходит нечто, о чем бывает полезно сообщить более широкому кругу. Что-то из этого может проникнуть в школьные учебники лет через сто, обычно школьные учебники лет на сто отстают от фронта науки, как известно, что-то - в вузовские постепенно.
Появление корпусов – на мой взгляд, это одно из таких событий. Человек образованный знает, например, слово «словарь». Слово «словарь» ведь всем известно, даже неспециалистам по языку, теперь такой человек должен знать слово «корпус». Знать, что это такое, для чего это нужно, почему это важно. Вот сегодня у вас будет возможность узнать о том, что такое корпус, и почему важно это знать. Почему это важно для лингвистики. Люди, настроенные романтически, даже могли бы сказать, что в лингвистике произошла корпусная революция. После появления корпусов эта наука стала совсем другая. Мы можем этот пафос немного убрать, чуть-чуть снизить градус, но степень значимости всё-таки примерно такая.
Я кратко расскажу о том, что такое корпус, немного о создании корпуса, расскажу, какие в принципе бывают корпуса, чтобы ввести в предмет, и закончу ответом на поставленный в заглавии вопрос, как существование этого инструмента изменило науку о языке – или изменит науку о языке, или изменяет, можно в любом времени говорить.
Итак, что такое корпус? Корпус – это очень простая, может быть, даже бесхитростная вещь. Это собрание текстов, существующих на некотором языке в электронной форме, прежде всего. То, с чем в повседневной жизни каждый из нас сталкивается. Строго говоря, то, что я сейчас обозначил, это еще не совсем корпус, это протокорпус. Собрание текстов в электронной форме само по себе лучше называть другим словом. Словом «корпус» его иногда называли, называют иногда и сейчас, но лучше это назвать электронной библиотекой. Это правильное название для любого количества текстов, большого или маленького, в электронном виде. Электронные библиотеки известны всем – например, знаменитая библиотека Мошкова, – но любой человек может собрать собственную электронную библиотеку. Электронные библиотеки обычно используются для того, чтобы эти тексты читать, как тексты любой библиотеки. Корпус для этого не используется.
Тексты, входящие в корпус, не предназначены для чтения. Их можно читать, но корпус создается не ради этого. Корпус создается для того, чтобы эти тексты изучать, но для этого с ними надо провести некоторые операции. Их надо специальным образом обработать, внести туда некоторую информацию. Эта информация обычно на техническом языке, в корпусной лингвистике называется разметка, или аннотация. Собрание текстов в электронном виде, сопровожденное разметкой, называется корпусом, независимо от его объема.
Что за информацию мы можем вносить в тексты? Любую информацию о тексте, которая нам будет интересна с той точки зрения, с которой мы эти тексты намереваемся изучать. Порой мы можем изучать тексты исключительно с точки зрения хронологии их появления. В этом случае мы должны приписать каждому тексту дату его создания – той степени точности, которая нас устраивает. Это будет корпус, хронологически размеченный. И тогда мы можем изучать статистику, любые характеристики текста в зависимости от даты создания. Если дата создания не известна, то такая задача теряет смысл. Это такой простой, маленький пример, а вообще информацию можно вносить любую, как о самом тексте, так и об авторе, все характеристики автора (даты жизни, пол, возраст, место рождения) и многое, многое другое, всё, что может прийти в голову. Не только дату создания текста, но и место создания, объем текста, количество слов, опять-таки – всё, что мы захотим изучать, и всю информацию о словах этого текста, плюс то, что называется грамматической информацией.

0

6

Почему современная лингвистика должна быть лингвистикой корпусов
Мы публикуем полную стенограмму лекции, прочитанной известным российским лингвистом, доктором филологических наук, членом-корреспондентом РАН, завсектором  типологии и ведущим научным сотрудником Института языкознания РАН, заведующим сектором корпусной лингвистики и лингвистической поэтики Института русского языка РАН, профессором МГУ Владимиром Александровичем Плунгяном 1 октября 2009 года в клубе – литературном кафе Bilingua в рамках проекта «Публичные лекции Полит.ру».
Текст лекции

Владимир Плунгян (фото Н. Четвериковой)
То, что я сегодня собираюсь рассказывать, относится сугубо к сфере компетенции лингвистики. Ничего сенсационного, что могло бы перевернуть жизнь каждого присутствующего, я рассказать не намерен, но для самой лингвистики это очень важно.
В истории всяких наук бывают такие события, о которых полезно знать не только представителям этой науки. Разумеется, внутри науки мы следим за тем, что происходит, что-то нас волнует больше, что-то меньше, мы откликаемся на статьи своих коллег, это всё внутреннее дело тысячи, может быть, нескольких тысяч человек, не более того, но всё-таки иногда происходит нечто, о чем бывает полезно сообщить более широкому кругу. Что-то из этого может проникнуть в школьные учебники лет через сто, обычно школьные учебники лет на сто отстают от фронта науки, как известно, что-то - в вузовские постепенно.
Появление корпусов – на мой взгляд, это одно из таких событий. Человек образованный знает, например, слово «словарь». Слово «словарь» ведь всем известно, даже неспециалистам по языку, теперь такой человек должен знать слово «корпус». Знать, что это такое, для чего это нужно, почему это важно. Вот сегодня у вас будет возможность узнать о том, что такое корпус, и почему важно это знать. Почему это важно для лингвистики. Люди, настроенные романтически, даже могли бы сказать, что в лингвистике произошла корпусная революция. После появления корпусов эта наука стала совсем другая. Мы можем этот пафос немного убрать, чуть-чуть снизить градус, но степень значимости всё-таки примерно такая.
Я кратко расскажу о том, что такое корпус, немного о создании корпуса, расскажу, какие в принципе бывают корпуса, чтобы ввести в предмет, и закончу ответом на поставленный в заглавии вопрос, как существование этого инструмента изменило науку о языке – или изменит науку о языке, или изменяет, можно в любом времени говорить.
Итак, что такое корпус? Корпус – это очень простая, может быть, даже бесхитростная вещь. Это собрание текстов, существующих на некотором языке в электронной форме, прежде всего. То, с чем в повседневной жизни каждый из нас сталкивается. Строго говоря, то, что я сейчас обозначил, это еще не совсем корпус, это протокорпус. Собрание текстов в электронной форме само по себе лучше называть другим словом. Словом «корпус» его иногда называли, называют иногда и сейчас, но лучше это назвать электронной библиотекой. Это правильное название для любого количества текстов, большого или маленького, в электронном виде. Электронные библиотеки известны всем – например, знаменитая библиотека Мошкова, – но любой человек может собрать собственную электронную библиотеку. Электронные библиотеки обычно используются для того, чтобы эти тексты читать, как тексты любой библиотеки. Корпус для этого не используется.
Тексты, входящие в корпус, не предназначены для чтения. Их можно читать, но корпус создается не ради этого. Корпус создается для того, чтобы эти тексты изучать, но для этого с ними надо провести некоторые операции. Их надо специальным образом обработать, внести туда некоторую информацию. Эта информация обычно на техническом языке, в корпусной лингвистике называется разметка, или аннотация. Собрание текстов в электронном виде, сопровожденное разметкой, называется корпусом, независимо от его объема.
Что за информацию мы можем вносить в тексты? Любую информацию о тексте, которая нам будет интересна с той точки зрения, с которой мы эти тексты намереваемся изучать. Порой мы можем изучать тексты исключительно с точки зрения хронологии их появления. В этом случае мы должны приписать каждому тексту дату его создания – той степени точности, которая нас устраивает. Это будет корпус, хронологически размеченный. И тогда мы можем изучать статистику, любые характеристики текста в зависимости от даты создания. Если дата создания не известна, то такая задача теряет смысл. Это такой простой, маленький пример, а вообще информацию можно вносить любую, как о самом тексте, так и об авторе, все характеристики автора (даты жизни, пол, возраст, место рождения) и многое, многое другое, всё, что может прийти в голову. Не только дату создания текста, но и место создания, объем текста, количество слов, опять-таки – всё, что мы захотим изучать, и всю информацию о словах этого текста, плюс то, что называется грамматической информацией.

0

7

Почему современная лингвистика должна быть лингвистикой корпусов
Мы публикуем полную стенограмму лекции, прочитанной известным российским лингвистом, доктором филологических наук, членом-корреспондентом РАН, завсектором  типологии и ведущим научным сотрудником Института языкознания РАН, заведующим сектором корпусной лингвистики и лингвистической поэтики Института русского языка РАН, профессором МГУ Владимиром Александровичем Плунгяном 1 октября 2009 года в клубе – литературном кафе Bilingua в рамках проекта «Публичные лекции Полит.ру».
Текст лекции

Владимир Плунгян (фото Н. Четвериковой)
То, что я сегодня собираюсь рассказывать, относится сугубо к сфере компетенции лингвистики. Ничего сенсационного, что могло бы перевернуть жизнь каждого присутствующего, я рассказать не намерен, но для самой лингвистики это очень важно.
В истории всяких наук бывают такие события, о которых полезно знать не только представителям этой науки. Разумеется, внутри науки мы следим за тем, что происходит, что-то нас волнует больше, что-то меньше, мы откликаемся на статьи своих коллег, это всё внутреннее дело тысячи, может быть, нескольких тысяч человек, не более того, но всё-таки иногда происходит нечто, о чем бывает полезно сообщить более широкому кругу. Что-то из этого может проникнуть в школьные учебники лет через сто, обычно школьные учебники лет на сто отстают от фронта науки, как известно, что-то - в вузовские постепенно.
Появление корпусов – на мой взгляд, это одно из таких событий. Человек образованный знает, например, слово «словарь». Слово «словарь» ведь всем известно, даже неспециалистам по языку, теперь такой человек должен знать слово «корпус». Знать, что это такое, для чего это нужно, почему это важно. Вот сегодня у вас будет возможность узнать о том, что такое корпус, и почему важно это знать. Почему это важно для лингвистики. Люди, настроенные романтически, даже могли бы сказать, что в лингвистике произошла корпусная революция. После появления корпусов эта наука стала совсем другая. Мы можем этот пафос немного убрать, чуть-чуть снизить градус, но степень значимости всё-таки примерно такая.
Я кратко расскажу о том, что такое корпус, немного о создании корпуса, расскажу, какие в принципе бывают корпуса, чтобы ввести в предмет, и закончу ответом на поставленный в заглавии вопрос, как существование этого инструмента изменило науку о языке – или изменит науку о языке, или изменяет, можно в любом времени говорить.
Итак, что такое корпус? Корпус – это очень простая, может быть, даже бесхитростная вещь. Это собрание текстов, существующих на некотором языке в электронной форме, прежде всего. То, с чем в повседневной жизни каждый из нас сталкивается. Строго говоря, то, что я сейчас обозначил, это еще не совсем корпус, это протокорпус. Собрание текстов в электронной форме само по себе лучше называть другим словом. Словом «корпус» его иногда называли, называют иногда и сейчас, но лучше это назвать электронной библиотекой. Это правильное название для любого количества текстов, большого или маленького, в электронном виде. Электронные библиотеки известны всем – например, знаменитая библиотека Мошкова, – но любой человек может собрать собственную электронную библиотеку. Электронные библиотеки обычно используются для того, чтобы эти тексты читать, как тексты любой библиотеки. Корпус для этого не используется.
Тексты, входящие в корпус, не предназначены для чтения. Их можно читать, но корпус создается не ради этого. Корпус создается для того, чтобы эти тексты изучать, но для этого с ними надо провести некоторые операции. Их надо специальным образом обработать, внести туда некоторую информацию. Эта информация обычно на техническом языке, в корпусной лингвистике называется разметка, или аннотация. Собрание текстов в электронном виде, сопровожденное разметкой, называется корпусом, независимо от его объема.
Что за информацию мы можем вносить в тексты? Любую информацию о тексте, которая нам будет интересна с той точки зрения, с которой мы эти тексты намереваемся изучать. Порой мы можем изучать тексты исключительно с точки зрения хронологии их появления. В этом случае мы должны приписать каждому тексту дату его создания – той степени точности, которая нас устраивает. Это будет корпус, хронологически размеченный. И тогда мы можем изучать статистику, любые характеристики текста в зависимости от даты создания. Если дата создания не известна, то такая задача теряет смысл. Это такой простой, маленький пример, а вообще информацию можно вносить любую, как о самом тексте, так и об авторе, все характеристики автора (даты жизни, пол, возраст, место рождения) и многое, многое другое, всё, что может прийти в голову. Не только дату создания текста, но и место создания, объем текста, количество слов, опять-таки – всё, что мы захотим изучать, и всю информацию о словах этого текста, плюс то, что называется грамматической информацией.

0

8

Каким образом это делается, я сейчас говорить не буду, есть разные процедуры, есть автоматические, есть полуавтоматические, это некоторая техническая задача. Обработка текста может быть достаточно трудоемкой, может быть относительно простой, но после того, как эти тексты мы обработали, снабдили их нужной нам информацией, у нас получается корпус. Это собрание текстов в электронной форме, в котором мы можем искать то, что нам нужно. Мы можем искать тексты о спорте, созданные женщинами между 1983 и 1993 годами. Если, конечно, нам такая странная задача придет в голову, то сможем. В этих текстах мы можем искать все формы прошедшего времени глаголов. Мы можем написать исследование об особенностях употребления прошедшего времени у глагола женщинами, авторами спортивных текстов. Я намеренно привел странный пример, хотя любая задача легитимна. Если вы докажете, что именно у этой группы авторов есть особенности, то будет очень интересное лингвистическое наблюдение. На этом примере понятно, какого рода задача может ставиться. Вообще говоря, это задача вполне традиционная. Люди, изучавшие язык, изучали его именно с этой точки зрения, исследуя особенность употребления слов в разных текстах. Собственно, наука о языке ровно это и делает. Но легко видеть, что даже для традиционных задач, то есть для того, чем лингвисты всю жизнь занимались, корпус предоставляет совершенно ни с чем не сравнимые технические возможности.
Как работал лингвист раньше? В докорпусную, докомпьютерную эпоху? Это почти синонимы. Появление корпуса, появление Интернета, появление персональных компьютеров – это почти одновременное событие. Может быть, кто-то знает или помнит, я еще вполне хорошо помню эти времена. Поскольку основной наш объект – это тексты, никаким другим образом изучать язык мы не можем, об этом я поговорю чуть подробнее чуть позже, потому что это имеет непосредственное отношение к нашей теме. Так вот, если я намерен изучить, например, прошедшее время, я должен найти как можно больше текстов, где есть как можно больше примеров прошедшего времени, и их проанализировать. Как это делали лингвисты в докорпусную эпоху? Открывали книгу, находили, прочитывали, находили форму, выписывали ее, одну, другую, третью, сотую, на это уходило много дней, недель, месяцев. Иногда даже лет, иногда можно было услышать рассказ о таких подвижниках от науки, о человеке, который всю жизнь что-то откуда-то выписывал – и ему был почет, уважение коллег. Даже если он ничего потом с этим не сделал, он уже оставил человечеству много сотен карточек, на которых было его рукой что-то написано.
В корпусе такая задача решается за секунды, если он у нас, конечно, правильно размечен. Например, формы прошедшего времени, если придерживаться этого примера, в действительно существующих корпусах. За секунды можно найти десятки, сотни, тысячи, десятки тысяч примеров, настолько много, что даже не очень понятно исследователям становится, что же делать с таким богатством. То есть для традиционных задач лингвисты получили в свое распоряжение очень мощный современный инструмент, типа передвижения на самолете по сравнению с передвижением пешком. Корпус – это все-таки инструмент. Только ли это инструмент – об этом чуть позже. Я думаю, примерно понятно, что такое корпус, это вещь простая, скажу несколько слов о том, как появились корпуса и какие сейчас есть.
Первые корпуса появились в Америке, что неудивительно, в шестидесятые годы, на самой заре компьютерной эры. Так называемый брауновский корпус считается первым. Они выглядели с современной точки зрения довольно странно, это были небольшие фрагменты текстов, незаконченные, но одинаковой длины. Нарезанные на кусочки фрагменты английских текстов. Позже появился ряд других корпусов, это были корпуса английского языка, и, как ни странно, теоретическая лингвистика особенно этим не интересовалась, даже не очень знала об их существовании. Использовались эти корпуса для очень специальных прикладных задач. Вот такая странная игрушка, удел очень уж больших любителей компьютеров. Так было примерно до конца 80-х – начала 90-х годов, когда всё-таки положение стало меняться, и лингвисты стали понимать, что корпус – это такой колоссальный, но неожиданный им подарок, потому что появление компьютера и возникновение Интернета диктовалось совершенно другими потребностями человечества.
Можно спорить о том, что принес Интернет, что это, благо или зло, как всякое изобретение человечества, но лингвисты колоссально выиграли от этого появления. Они на это не рассчитывали, они этого не ожидали и некоторые из них до сих пор не готовы к этому подарку и даже пытаются от него отказаться. Тем не менее, когда это было осознано, стали появляться большие корпуса многих языков. Большой корпус принято называть национальным корпусом. Есть национальный корпус русского языка, например. Но почему национальный? Этот термин звучит немного странно, национальный корпус – с точки зрения неподготовленного человека заставляет думать о каких-то армейских соединениях. Термин восходит к английскому языку, первым был британский национальный корпус, созданный в начале 90-х годов. Британский национальный, чтобы отличить его от американского варианта английского языка. Здесь прилагательное имеет вполне четкую дифференцирующую функцию. «Наш британский» то есть не путать, например, с канадским, с австралийским. Он и сейчас существует, доступен в Интернете, и считается образцовым корпусом, хотя уже немножко устаревшим по современным меркам. Британский корпус стал эталоном корпуса в 90-е годы, поэтому национальным корпусом стали называть всякий большой корпус данного языка. То есть корпус, который данный язык представляет некоторым исчерпывающим образом.
Что для этого нужно? Корпус должен быть большим. Отражать если не все тексты, написанные на данном языке, хотя такую задачу тоже можно поставить, но наиболее важные, наиболее представительные, пропорционально устроенные. Скажем, корпуса современных языков должны изучать не только художественную литературу, но и газетные тексты, блоги и т.д.
Для хранения, разметки и обработки подобных массивов информации необходимо все передовые технологии ставить ему на службу. Помимо всего прочего, корпус – это довольно затратное, трудоемкое предприятие. Прозаически - нужно довольно много денег, чтобы создать корпус, и довольно много усилий – и программистов, и лингвистов и других специалистов. Некоторые страны охотно идут на такие жертвы, некоторые другие – не очень. В частности, в Германии, конечно, интерес к немецкому языку велик, исследований много, но до недавнего времени такое предприятие, как корпус, не могло найти большой поддержки, всё общегерманское не очень приветствовалось. Это особенно заметно в послевоенной истории Германии. Баварский корпус – сколько угодно, или северно-немецкий, а «немецкий национальный корпус» – такое в контексте немецких реалий не прозвучало бы. В принципе, такие работы ведутся в институте немецкого языка в Мангейме, сейчас можно даже в Интернете что-то найти, но это появилось совсем недавно.
Во Франции есть хорошие специалисты по корпусной лингвистике, но вот такого общедоступного национального корпуса нет. Но вообще довольно много языков имеют более или менее хорошие корпуса. Из славянских стран Чехия долгое время была бесспорным лидером, никто даже не пытался конкурировать, но сейчас последние лет пять-семь – бум славянской корпусной лингвистики, создана даже Ассоциация славянской корпусной лингвистики, существует вот и национальный корпус русского языка. Мы долгое время отставали, даже позорно отставали, но теперь корпус есть, он, кстати, один из лучших в мире по стандартам, и он доступен в Интернете, им несложно пользоваться.
Теперь давайте попробуем ответить на главный вопрос, что нам это дало. Корпус – это не просто инструмент, это больше, чем инструмент, потому что использование этого инструмента очень сильно меняет наше представление о языке. Прежде всего, помимо традиционных задач науки о языке, корпус дает возможность ставить и решать совершенно новые задачи, которые в докорпусную эпоху если и приходили в голову лингвистам, то просто отбрасывались за неисполнимостью. Это, прежде всего, задачи, связанные с обследованием больших массивов текста – всё, что раньше было сверхтрудоемко или зависело от случая, сейчас может быть свободно исследовано.
Когда и как слова входят в язык? В какой момент истории языка мы начинаем фиксировать данное слово, или данную конструкцию, или данное значение? Это, конечно, до корпуса изучалось, но во многом тут полагались на волю случая. А вдруг лингвист не нашел такого текста, где как раз нужное ему употребление и есть, как узнать? Если корпус наш хороший и полный, не найти там нужного примера мы не можем, значит, вся динамика языковых изменений у нас как на ладони, особенно если в корпус включены тексты за достаточно большой период, скажем, за несколько столетий, такое вполне можно сделать, такие корпуса существуют. Для языка это не такой большой срок, но все-таки изменения происходят.
Или, скажем, тексты, созданные в разных регионах бытования языка. Их очень важно сравнить на предмет особенностей. То, что раньше было предметом огромной технической работы, сейчас делается простым нажатием кнопки. Мы можем узнать о языке гораздо больше, чем раньше. Здесь начинается самое интересное, такой парадокс внутреннего развития лингвистики. Можем мы узнать многое, мы, лингвисты, а вот хотим ли мы это знать? Оказывается, что не всегда и не все лингвисты этого хотели, это очень интересный факт. Огромный массив данных, которые буквально хлынули на нас, во многом может заставить пересмотреть существующие представления о языке, о том, что это такое, как он существует, как он изменяется. Понятно, что это не всем может понравиться, у всех представлений могут быть авторы, эти авторы как-то существуют в науке, а тут появляется вдруг какой-то корпус, из которого следует, что всё не так, что нужны новые идеи, новые теории. Лучше уж мы будем как раньше, психологически это вполне понятно.
Чуть более специальные вещи я хочу рассказать. Мне придется немножко углубиться в философию современной лингвистики, в то, как в двадцатом веке разные теории языка понимали язык, что это такое. Я постараюсь, чтобы это было не очень сложно, кроме того, я думаю, многое из того, что я буду говорить, люди, следившие за историей идей двадцатого века, в том или ином отношении знают.
Вообще-то теоретическая лингвистика, изучение языка как самодостаточного феномена – что это такое, каким образом человек им пользуется, – это наука очень молодая, может быть, одна из самых молодых гуманитарных наук. Тут было сказано, что это такая образцовая наука двадцатого – двадцать первого века, это мне очень приятно слышать, лингвисты очень любят цитировать Леви-Стросса, который назвал лингвистику science-pilote, пролагательницей путей гуманитарных наук, и лингвисты никогда не отказываются от этого. Но, тем не менее, сама лингвистика почти что в двадцатом веке и возникла как теоретическая дисциплина. Почему это так, почему человечеству прежде не нужно было этого знать – это отдельный вопрос, пока я не буду на него отвечать. А в двадцатом веке лингвистика возникла на волне течения не чисто лингвистического, хотя лингвистика в нем сыграла очень большую роль, а общегуманитарного, такого философско-гуманитарного течения, которое называется структурализм.
Первая научная лингвистика, которая возникла, была структурной лингвистикой. Она очень сильно повлияла на структурализм в гуманитарных науках в других областях, в изучении литературы, этнографии, практически везде. Есть Фердинанд де Соссюр, основатель современной лингвистики, есть европейские, американские школы структурализма, которые вслед за ним возникли. Структурализм в языкознании господствовал примерно до конца 50-х годов, когда стал медленно сходить со сцены, уступая место другим направлениям. В каком-то смысле и до сих пор существует идеология структурализма. Она не центральная, это уже критикуемая область, но она есть.
Почему это важно для того, о чем мы говорим? Структурализм сделал лингвистику наукой во многих отношениях: точная, с определенным предметом, с какими-то исходными зафиксированными положениями, с понятными задачами. В общем, многое из того, что требуется науке, и чем лингвистика не располагала или располагала в очень малой степени, появилось благодаря структурализму. Это колоссальный прогресс, почти равный созданию науки «на пустом месте». Но это произошло ценой многих жертв и потерь.
Какую главную цену заплатил структурализм за то, что он создал науку о языке? Структурализм понимал язык довольно упрощенно и, грубо говоря, структурализм велел лингвистам заниматься очень ограниченным кругом задач: «Вот это вот ваше, а всем остальным интересоваться не надо». Структурализм провел очень жесткие границы: это лингвистика, а это не лингвистика, это наука, а это не наука, этим заниматься надо, а этим заниматься не надо.
Первым это сделал Соссюр, филологам известно, он поделил науку о языке на язык и речь, на синхронию и диахронию, на систему и норму, как потом говорили. И велел лингвистам заниматься языком, системой, нормой, синхронией, и больше ничем. То есть язык понимался как нечто неизменное, существующее в головах всего социума в совершенно одинаковом виде, некоторое такое абстрактное знание, которое позволяет людям порождать тексты, говорить. Мы наблюдаем тексты, но изучаем то, как они сделаны, это мы и называем языком. То, как сделаны тексты, мы называем языком. Но структурализм объяснил нам, что не тексты главное, а вот этот самый язык, которого никто не видел, он не доступен, его нельзя ни потрогать, ни увидеть, это что-то, что содержится у нас в голове и позволяет нам порождать тексты.
Лингвистика находится в парадоксальной ситуации, никакая другая наука в такой ситуации не находится. Всякая наука имеет свой объект, который она может предъявить. Биология может предъявить живые экземпляры, их можно поймать, разрезать, даже ископаемых животных мы находим и видим, что они существовали. Химия, физика, даже астрономия имеет дело с объектами, доступными для наблюдения в той или иной степени, а лингвистика нет. Объект лингвистики, тот объект, который нам велели считать главным наши классики, нематериален, недоступен. Мы должны о нем всё знать, но доступа к нему у нас нет, у нас есть доступ к текстам. Мы должны, изучая тексты, понять, как они сделаны. Это примерно такой степени сложности задача, как если бы представить, что вы сидите где-нибудь в запертой комнате, вам приносят современный компьютер и говорят: «Разбери его на части, можешь делать с ним, что хочешь, только не общайся ни с кем, а потом напиши инструкцию, как собирать компьютеры».

0

9

Каким образом это делается, я сейчас говорить не буду, есть разные процедуры, есть автоматические, есть полуавтоматические, это некоторая техническая задача. Обработка текста может быть достаточно трудоемкой, может быть относительно простой, но после того, как эти тексты мы обработали, снабдили их нужной нам информацией, у нас получается корпус. Это собрание текстов в электронной форме, в котором мы можем искать то, что нам нужно. Мы можем искать тексты о спорте, созданные женщинами между 1983 и 1993 годами. Если, конечно, нам такая странная задача придет в голову, то сможем. В этих текстах мы можем искать все формы прошедшего времени глаголов. Мы можем написать исследование об особенностях употребления прошедшего времени у глагола женщинами, авторами спортивных текстов. Я намеренно привел странный пример, хотя любая задача легитимна. Если вы докажете, что именно у этой группы авторов есть особенности, то будет очень интересное лингвистическое наблюдение. На этом примере понятно, какого рода задача может ставиться. Вообще говоря, это задача вполне традиционная. Люди, изучавшие язык, изучали его именно с этой точки зрения, исследуя особенность употребления слов в разных текстах. Собственно, наука о языке ровно это и делает. Но легко видеть, что даже для традиционных задач, то есть для того, чем лингвисты всю жизнь занимались, корпус предоставляет совершенно ни с чем не сравнимые технические возможности.
Как работал лингвист раньше? В докорпусную, докомпьютерную эпоху? Это почти синонимы. Появление корпуса, появление Интернета, появление персональных компьютеров – это почти одновременное событие. Может быть, кто-то знает или помнит, я еще вполне хорошо помню эти времена. Поскольку основной наш объект – это тексты, никаким другим образом изучать язык мы не можем, об этом я поговорю чуть подробнее чуть позже, потому что это имеет непосредственное отношение к нашей теме. Так вот, если я намерен изучить, например, прошедшее время, я должен найти как можно больше текстов, где есть как можно больше примеров прошедшего времени, и их проанализировать. Как это делали лингвисты в докорпусную эпоху? Открывали книгу, находили, прочитывали, находили форму, выписывали ее, одну, другую, третью, сотую, на это уходило много дней, недель, месяцев. Иногда даже лет, иногда можно было услышать рассказ о таких подвижниках от науки, о человеке, который всю жизнь что-то откуда-то выписывал – и ему был почет, уважение коллег. Даже если он ничего потом с этим не сделал, он уже оставил человечеству много сотен карточек, на которых было его рукой что-то написано.
В корпусе такая задача решается за секунды, если он у нас, конечно, правильно размечен. Например, формы прошедшего времени, если придерживаться этого примера, в действительно существующих корпусах. За секунды можно найти десятки, сотни, тысячи, десятки тысяч примеров, настолько много, что даже не очень понятно исследователям становится, что же делать с таким богатством. То есть для традиционных задач лингвисты получили в свое распоряжение очень мощный современный инструмент, типа передвижения на самолете по сравнению с передвижением пешком. Корпус – это все-таки инструмент. Только ли это инструмент – об этом чуть позже. Я думаю, примерно понятно, что такое корпус, это вещь простая, скажу несколько слов о том, как появились корпуса и какие сейчас есть.
Первые корпуса появились в Америке, что неудивительно, в шестидесятые годы, на самой заре компьютерной эры. Так называемый брауновский корпус считается первым. Они выглядели с современной точки зрения довольно странно, это были небольшие фрагменты текстов, незаконченные, но одинаковой длины. Нарезанные на кусочки фрагменты английских текстов. Позже появился ряд других корпусов, это были корпуса английского языка, и, как ни странно, теоретическая лингвистика особенно этим не интересовалась, даже не очень знала об их существовании. Использовались эти корпуса для очень специальных прикладных задач. Вот такая странная игрушка, удел очень уж больших любителей компьютеров. Так было примерно до конца 80-х – начала 90-х годов, когда всё-таки положение стало меняться, и лингвисты стали понимать, что корпус – это такой колоссальный, но неожиданный им подарок, потому что появление компьютера и возникновение Интернета диктовалось совершенно другими потребностями человечества.
Можно спорить о том, что принес Интернет, что это, благо или зло, как всякое изобретение человечества, но лингвисты колоссально выиграли от этого появления. Они на это не рассчитывали, они этого не ожидали и некоторые из них до сих пор не готовы к этому подарку и даже пытаются от него отказаться. Тем не менее, когда это было осознано, стали появляться большие корпуса многих языков. Большой корпус принято называть национальным корпусом. Есть национальный корпус русского языка, например. Но почему национальный? Этот термин звучит немного странно, национальный корпус – с точки зрения неподготовленного человека заставляет думать о каких-то армейских соединениях. Термин восходит к английскому языку, первым был британский национальный корпус, созданный в начале 90-х годов. Британский национальный, чтобы отличить его от американского варианта английского языка. Здесь прилагательное имеет вполне четкую дифференцирующую функцию. «Наш британский» то есть не путать, например, с канадским, с австралийским. Он и сейчас существует, доступен в Интернете, и считается образцовым корпусом, хотя уже немножко устаревшим по современным меркам. Британский корпус стал эталоном корпуса в 90-е годы, поэтому национальным корпусом стали называть всякий большой корпус данного языка. То есть корпус, который данный язык представляет некоторым исчерпывающим образом.
Что для этого нужно? Корпус должен быть большим. Отражать если не все тексты, написанные на данном языке, хотя такую задачу тоже можно поставить, но наиболее важные, наиболее представительные, пропорционально устроенные. Скажем, корпуса современных языков должны изучать не только художественную литературу, но и газетные тексты, блоги и т.д.
Для хранения, разметки и обработки подобных массивов информации необходимо все передовые технологии ставить ему на службу. Помимо всего прочего, корпус – это довольно затратное, трудоемкое предприятие. Прозаически - нужно довольно много денег, чтобы создать корпус, и довольно много усилий – и программистов, и лингвистов и других специалистов. Некоторые страны охотно идут на такие жертвы, некоторые другие – не очень. В частности, в Германии, конечно, интерес к немецкому языку велик, исследований много, но до недавнего времени такое предприятие, как корпус, не могло найти большой поддержки, всё общегерманское не очень приветствовалось. Это особенно заметно в послевоенной истории Германии. Баварский корпус – сколько угодно, или северно-немецкий, а «немецкий национальный корпус» – такое в контексте немецких реалий не прозвучало бы. В принципе, такие работы ведутся в институте немецкого языка в Мангейме, сейчас можно даже в Интернете что-то найти, но это появилось совсем недавно.
Во Франции есть хорошие специалисты по корпусной лингвистике, но вот такого общедоступного национального корпуса нет. Но вообще довольно много языков имеют более или менее хорошие корпуса. Из славянских стран Чехия долгое время была бесспорным лидером, никто даже не пытался конкурировать, но сейчас последние лет пять-семь – бум славянской корпусной лингвистики, создана даже Ассоциация славянской корпусной лингвистики, существует вот и национальный корпус русского языка. Мы долгое время отставали, даже позорно отставали, но теперь корпус есть, он, кстати, один из лучших в мире по стандартам, и он доступен в Интернете, им несложно пользоваться.
Теперь давайте попробуем ответить на главный вопрос, что нам это дало. Корпус – это не просто инструмент, это больше, чем инструмент, потому что использование этого инструмента очень сильно меняет наше представление о языке. Прежде всего, помимо традиционных задач науки о языке, корпус дает возможность ставить и решать совершенно новые задачи, которые в докорпусную эпоху если и приходили в голову лингвистам, то просто отбрасывались за неисполнимостью. Это, прежде всего, задачи, связанные с обследованием больших массивов текста – всё, что раньше было сверхтрудоемко или зависело от случая, сейчас может быть свободно исследовано.
Когда и как слова входят в язык? В какой момент истории языка мы начинаем фиксировать данное слово, или данную конструкцию, или данное значение? Это, конечно, до корпуса изучалось, но во многом тут полагались на волю случая. А вдруг лингвист не нашел такого текста, где как раз нужное ему употребление и есть, как узнать? Если корпус наш хороший и полный, не найти там нужного примера мы не можем, значит, вся динамика языковых изменений у нас как на ладони, особенно если в корпус включены тексты за достаточно большой период, скажем, за несколько столетий, такое вполне можно сделать, такие корпуса существуют. Для языка это не такой большой срок, но все-таки изменения происходят.
Или, скажем, тексты, созданные в разных регионах бытования языка. Их очень важно сравнить на предмет особенностей. То, что раньше было предметом огромной технической работы, сейчас делается простым нажатием кнопки. Мы можем узнать о языке гораздо больше, чем раньше. Здесь начинается самое интересное, такой парадокс внутреннего развития лингвистики. Можем мы узнать многое, мы, лингвисты, а вот хотим ли мы это знать? Оказывается, что не всегда и не все лингвисты этого хотели, это очень интересный факт. Огромный массив данных, которые буквально хлынули на нас, во многом может заставить пересмотреть существующие представления о языке, о том, что это такое, как он существует, как он изменяется. Понятно, что это не всем может понравиться, у всех представлений могут быть авторы, эти авторы как-то существуют в науке, а тут появляется вдруг какой-то корпус, из которого следует, что всё не так, что нужны новые идеи, новые теории. Лучше уж мы будем как раньше, психологически это вполне понятно.
Чуть более специальные вещи я хочу рассказать. Мне придется немножко углубиться в философию современной лингвистики, в то, как в двадцатом веке разные теории языка понимали язык, что это такое. Я постараюсь, чтобы это было не очень сложно, кроме того, я думаю, многое из того, что я буду говорить, люди, следившие за историей идей двадцатого века, в том или ином отношении знают.
Вообще-то теоретическая лингвистика, изучение языка как самодостаточного феномена – что это такое, каким образом человек им пользуется, – это наука очень молодая, может быть, одна из самых молодых гуманитарных наук. Тут было сказано, что это такая образцовая наука двадцатого – двадцать первого века, это мне очень приятно слышать, лингвисты очень любят цитировать Леви-Стросса, который назвал лингвистику science-pilote, пролагательницей путей гуманитарных наук, и лингвисты никогда не отказываются от этого. Но, тем не менее, сама лингвистика почти что в двадцатом веке и возникла как теоретическая дисциплина. Почему это так, почему человечеству прежде не нужно было этого знать – это отдельный вопрос, пока я не буду на него отвечать. А в двадцатом веке лингвистика возникла на волне течения не чисто лингвистического, хотя лингвистика в нем сыграла очень большую роль, а общегуманитарного, такого философско-гуманитарного течения, которое называется структурализм.
Первая научная лингвистика, которая возникла, была структурной лингвистикой. Она очень сильно повлияла на структурализм в гуманитарных науках в других областях, в изучении литературы, этнографии, практически везде. Есть Фердинанд де Соссюр, основатель современной лингвистики, есть европейские, американские школы структурализма, которые вслед за ним возникли. Структурализм в языкознании господствовал примерно до конца 50-х годов, когда стал медленно сходить со сцены, уступая место другим направлениям. В каком-то смысле и до сих пор существует идеология структурализма. Она не центральная, это уже критикуемая область, но она есть.
Почему это важно для того, о чем мы говорим? Структурализм сделал лингвистику наукой во многих отношениях: точная, с определенным предметом, с какими-то исходными зафиксированными положениями, с понятными задачами. В общем, многое из того, что требуется науке, и чем лингвистика не располагала или располагала в очень малой степени, появилось благодаря структурализму. Это колоссальный прогресс, почти равный созданию науки «на пустом месте». Но это произошло ценой многих жертв и потерь.
Какую главную цену заплатил структурализм за то, что он создал науку о языке? Структурализм понимал язык довольно упрощенно и, грубо говоря, структурализм велел лингвистам заниматься очень ограниченным кругом задач: «Вот это вот ваше, а всем остальным интересоваться не надо». Структурализм провел очень жесткие границы: это лингвистика, а это не лингвистика, это наука, а это не наука, этим заниматься надо, а этим заниматься не надо.
Первым это сделал Соссюр, филологам известно, он поделил науку о языке на язык и речь, на синхронию и диахронию, на систему и норму, как потом говорили. И велел лингвистам заниматься языком, системой, нормой, синхронией, и больше ничем. То есть язык понимался как нечто неизменное, существующее в головах всего социума в совершенно одинаковом виде, некоторое такое абстрактное знание, которое позволяет людям порождать тексты, говорить. Мы наблюдаем тексты, но изучаем то, как они сделаны, это мы и называем языком. То, как сделаны тексты, мы называем языком. Но структурализм объяснил нам, что не тексты главное, а вот этот самый язык, которого никто не видел, он не доступен, его нельзя ни потрогать, ни увидеть, это что-то, что содержится у нас в голове и позволяет нам порождать тексты.
Лингвистика находится в парадоксальной ситуации, никакая другая наука в такой ситуации не находится. Всякая наука имеет свой объект, который она может предъявить. Биология может предъявить живые экземпляры, их можно поймать, разрезать, даже ископаемых животных мы находим и видим, что они существовали. Химия, физика, даже астрономия имеет дело с объектами, доступными для наблюдения в той или иной степени, а лингвистика нет. Объект лингвистики, тот объект, который нам велели считать главным наши классики, нематериален, недоступен. Мы должны о нем всё знать, но доступа к нему у нас нет, у нас есть доступ к текстам. Мы должны, изучая тексты, понять, как они сделаны. Это примерно такой степени сложности задача, как если бы представить, что вы сидите где-нибудь в запертой комнате, вам приносят современный компьютер и говорят: «Разбери его на части, можешь делать с ним, что хочешь, только не общайся ни с кем, а потом напиши инструкцию, как собирать компьютеры».

0

10

Каким образом это делается, я сейчас говорить не буду, есть разные процедуры, есть автоматические, есть полуавтоматические, это некоторая техническая задача. Обработка текста может быть достаточно трудоемкой, может быть относительно простой, но после того, как эти тексты мы обработали, снабдили их нужной нам информацией, у нас получается корпус. Это собрание текстов в электронной форме, в котором мы можем искать то, что нам нужно. Мы можем искать тексты о спорте, созданные женщинами между 1983 и 1993 годами. Если, конечно, нам такая странная задача придет в голову, то сможем. В этих текстах мы можем искать все формы прошедшего времени глаголов. Мы можем написать исследование об особенностях употребления прошедшего времени у глагола женщинами, авторами спортивных текстов. Я намеренно привел странный пример, хотя любая задача легитимна. Если вы докажете, что именно у этой группы авторов есть особенности, то будет очень интересное лингвистическое наблюдение. На этом примере понятно, какого рода задача может ставиться. Вообще говоря, это задача вполне традиционная. Люди, изучавшие язык, изучали его именно с этой точки зрения, исследуя особенность употребления слов в разных текстах. Собственно, наука о языке ровно это и делает. Но легко видеть, что даже для традиционных задач, то есть для того, чем лингвисты всю жизнь занимались, корпус предоставляет совершенно ни с чем не сравнимые технические возможности.
Как работал лингвист раньше? В докорпусную, докомпьютерную эпоху? Это почти синонимы. Появление корпуса, появление Интернета, появление персональных компьютеров – это почти одновременное событие. Может быть, кто-то знает или помнит, я еще вполне хорошо помню эти времена. Поскольку основной наш объект – это тексты, никаким другим образом изучать язык мы не можем, об этом я поговорю чуть подробнее чуть позже, потому что это имеет непосредственное отношение к нашей теме. Так вот, если я намерен изучить, например, прошедшее время, я должен найти как можно больше текстов, где есть как можно больше примеров прошедшего времени, и их проанализировать. Как это делали лингвисты в докорпусную эпоху? Открывали книгу, находили, прочитывали, находили форму, выписывали ее, одну, другую, третью, сотую, на это уходило много дней, недель, месяцев. Иногда даже лет, иногда можно было услышать рассказ о таких подвижниках от науки, о человеке, который всю жизнь что-то откуда-то выписывал – и ему был почет, уважение коллег. Даже если он ничего потом с этим не сделал, он уже оставил человечеству много сотен карточек, на которых было его рукой что-то написано.
В корпусе такая задача решается за секунды, если он у нас, конечно, правильно размечен. Например, формы прошедшего времени, если придерживаться этого примера, в действительно существующих корпусах. За секунды можно найти десятки, сотни, тысячи, десятки тысяч примеров, настолько много, что даже не очень понятно исследователям становится, что же делать с таким богатством. То есть для традиционных задач лингвисты получили в свое распоряжение очень мощный современный инструмент, типа передвижения на самолете по сравнению с передвижением пешком. Корпус – это все-таки инструмент. Только ли это инструмент – об этом чуть позже. Я думаю, примерно понятно, что такое корпус, это вещь простая, скажу несколько слов о том, как появились корпуса и какие сейчас есть.
Первые корпуса появились в Америке, что неудивительно, в шестидесятые годы, на самой заре компьютерной эры. Так называемый брауновский корпус считается первым. Они выглядели с современной точки зрения довольно странно, это были небольшие фрагменты текстов, незаконченные, но одинаковой длины. Нарезанные на кусочки фрагменты английских текстов. Позже появился ряд других корпусов, это были корпуса английского языка, и, как ни странно, теоретическая лингвистика особенно этим не интересовалась, даже не очень знала об их существовании. Использовались эти корпуса для очень специальных прикладных задач. Вот такая странная игрушка, удел очень уж больших любителей компьютеров. Так было примерно до конца 80-х – начала 90-х годов, когда всё-таки положение стало меняться, и лингвисты стали понимать, что корпус – это такой колоссальный, но неожиданный им подарок, потому что появление компьютера и возникновение Интернета диктовалось совершенно другими потребностями человечества.
Можно спорить о том, что принес Интернет, что это, благо или зло, как всякое изобретение человечества, но лингвисты колоссально выиграли от этого появления. Они на это не рассчитывали, они этого не ожидали и некоторые из них до сих пор не готовы к этому подарку и даже пытаются от него отказаться. Тем не менее, когда это было осознано, стали появляться большие корпуса многих языков. Большой корпус принято называть национальным корпусом. Есть национальный корпус русского языка, например. Но почему национальный? Этот термин звучит немного странно, национальный корпус – с точки зрения неподготовленного человека заставляет думать о каких-то армейских соединениях. Термин восходит к английскому языку, первым был британский национальный корпус, созданный в начале 90-х годов. Британский национальный, чтобы отличить его от американского варианта английского языка. Здесь прилагательное имеет вполне четкую дифференцирующую функцию. «Наш британский» то есть не путать, например, с канадским, с австралийским. Он и сейчас существует, доступен в Интернете, и считается образцовым корпусом, хотя уже немножко устаревшим по современным меркам. Британский корпус стал эталоном корпуса в 90-е годы, поэтому национальным корпусом стали называть всякий большой корпус данного языка. То есть корпус, который данный язык представляет некоторым исчерпывающим образом.
Что для этого нужно? Корпус должен быть большим. Отражать если не все тексты, написанные на данном языке, хотя такую задачу тоже можно поставить, но наиболее важные, наиболее представительные, пропорционально устроенные. Скажем, корпуса современных языков должны изучать не только художественную литературу, но и газетные тексты, блоги и т.д.
Для хранения, разметки и обработки подобных массивов информации необходимо все передовые технологии ставить ему на службу. Помимо всего прочего, корпус – это довольно затратное, трудоемкое предприятие. Прозаически - нужно довольно много денег, чтобы создать корпус, и довольно много усилий – и программистов, и лингвистов и других специалистов. Некоторые страны охотно идут на такие жертвы, некоторые другие – не очень. В частности, в Германии, конечно, интерес к немецкому языку велик, исследований много, но до недавнего времени такое предприятие, как корпус, не могло найти большой поддержки, всё общегерманское не очень приветствовалось. Это особенно заметно в послевоенной истории Германии. Баварский корпус – сколько угодно, или северно-немецкий, а «немецкий национальный корпус» – такое в контексте немецких реалий не прозвучало бы. В принципе, такие работы ведутся в институте немецкого языка в Мангейме, сейчас можно даже в Интернете что-то найти, но это появилось совсем недавно.
Во Франции есть хорошие специалисты по корпусной лингвистике, но вот такого общедоступного национального корпуса нет. Но вообще довольно много языков имеют более или менее хорошие корпуса. Из славянских стран Чехия долгое время была бесспорным лидером, никто даже не пытался конкурировать, но сейчас последние лет пять-семь – бум славянской корпусной лингвистики, создана даже Ассоциация славянской корпусной лингвистики, существует вот и национальный корпус русского языка. Мы долгое время отставали, даже позорно отставали, но теперь корпус есть, он, кстати, один из лучших в мире по стандартам, и он доступен в Интернете, им несложно пользоваться.
Теперь давайте попробуем ответить на главный вопрос, что нам это дало. Корпус – это не просто инструмент, это больше, чем инструмент, потому что использование этого инструмента очень сильно меняет наше представление о языке. Прежде всего, помимо традиционных задач науки о языке, корпус дает возможность ставить и решать совершенно новые задачи, которые в докорпусную эпоху если и приходили в голову лингвистам, то просто отбрасывались за неисполнимостью. Это, прежде всего, задачи, связанные с обследованием больших массивов текста – всё, что раньше было сверхтрудоемко или зависело от случая, сейчас может быть свободно исследовано.
Когда и как слова входят в язык? В какой момент истории языка мы начинаем фиксировать данное слово, или данную конструкцию, или данное значение? Это, конечно, до корпуса изучалось, но во многом тут полагались на волю случая. А вдруг лингвист не нашел такого текста, где как раз нужное ему употребление и есть, как узнать? Если корпус наш хороший и полный, не найти там нужного примера мы не можем, значит, вся динамика языковых изменений у нас как на ладони, особенно если в корпус включены тексты за достаточно большой период, скажем, за несколько столетий, такое вполне можно сделать, такие корпуса существуют. Для языка это не такой большой срок, но все-таки изменения происходят.
Или, скажем, тексты, созданные в разных регионах бытования языка. Их очень важно сравнить на предмет особенностей. То, что раньше было предметом огромной технической работы, сейчас делается простым нажатием кнопки. Мы можем узнать о языке гораздо больше, чем раньше. Здесь начинается самое интересное, такой парадокс внутреннего развития лингвистики. Можем мы узнать многое, мы, лингвисты, а вот хотим ли мы это знать? Оказывается, что не всегда и не все лингвисты этого хотели, это очень интересный факт. Огромный массив данных, которые буквально хлынули на нас, во многом может заставить пересмотреть существующие представления о языке, о том, что это такое, как он существует, как он изменяется. Понятно, что это не всем может понравиться, у всех представлений могут быть авторы, эти авторы как-то существуют в науке, а тут появляется вдруг какой-то корпус, из которого следует, что всё не так, что нужны новые идеи, новые теории. Лучше уж мы будем как раньше, психологически это вполне понятно.
Чуть более специальные вещи я хочу рассказать. Мне придется немножко углубиться в философию современной лингвистики, в то, как в двадцатом веке разные теории языка понимали язык, что это такое. Я постараюсь, чтобы это было не очень сложно, кроме того, я думаю, многое из того, что я буду говорить, люди, следившие за историей идей двадцатого века, в том или ином отношении знают.
Вообще-то теоретическая лингвистика, изучение языка как самодостаточного феномена – что это такое, каким образом человек им пользуется, – это наука очень молодая, может быть, одна из самых молодых гуманитарных наук. Тут было сказано, что это такая образцовая наука двадцатого – двадцать первого века, это мне очень приятно слышать, лингвисты очень любят цитировать Леви-Стросса, который назвал лингвистику science-pilote, пролагательницей путей гуманитарных наук, и лингвисты никогда не отказываются от этого. Но, тем не менее, сама лингвистика почти что в двадцатом веке и возникла как теоретическая дисциплина. Почему это так, почему человечеству прежде не нужно было этого знать – это отдельный вопрос, пока я не буду на него отвечать. А в двадцатом веке лингвистика возникла на волне течения не чисто лингвистического, хотя лингвистика в нем сыграла очень большую роль, а общегуманитарного, такого философско-гуманитарного течения, которое называется структурализм.
Первая научная лингвистика, которая возникла, была структурной лингвистикой. Она очень сильно повлияла на структурализм в гуманитарных науках в других областях, в изучении литературы, этнографии, практически везде. Есть Фердинанд де Соссюр, основатель современной лингвистики, есть европейские, американские школы структурализма, которые вслед за ним возникли. Структурализм в языкознании господствовал примерно до конца 50-х годов, когда стал медленно сходить со сцены, уступая место другим направлениям. В каком-то смысле и до сих пор существует идеология структурализма. Она не центральная, это уже критикуемая область, но она есть.
Почему это важно для того, о чем мы говорим? Структурализм сделал лингвистику наукой во многих отношениях: точная, с определенным предметом, с какими-то исходными зафиксированными положениями, с понятными задачами. В общем, многое из того, что требуется науке, и чем лингвистика не располагала или располагала в очень малой степени, появилось благодаря структурализму. Это колоссальный прогресс, почти равный созданию науки «на пустом месте». Но это произошло ценой многих жертв и потерь.
Какую главную цену заплатил структурализм за то, что он создал науку о языке? Структурализм понимал язык довольно упрощенно и, грубо говоря, структурализм велел лингвистам заниматься очень ограниченным кругом задач: «Вот это вот ваше, а всем остальным интересоваться не надо». Структурализм провел очень жесткие границы: это лингвистика, а это не лингвистика, это наука, а это не наука, этим заниматься надо, а этим заниматься не надо.
Первым это сделал Соссюр, филологам известно, он поделил науку о языке на язык и речь, на синхронию и диахронию, на систему и норму, как потом говорили. И велел лингвистам заниматься языком, системой, нормой, синхронией, и больше ничем. То есть язык понимался как нечто неизменное, существующее в головах всего социума в совершенно одинаковом виде, некоторое такое абстрактное знание, которое позволяет людям порождать тексты, говорить. Мы наблюдаем тексты, но изучаем то, как они сделаны, это мы и называем языком. То, как сделаны тексты, мы называем языком. Но структурализм объяснил нам, что не тексты главное, а вот этот самый язык, которого никто не видел, он не доступен, его нельзя ни потрогать, ни увидеть, это что-то, что содержится у нас в голове и позволяет нам порождать тексты.
Лингвистика находится в парадоксальной ситуации, никакая другая наука в такой ситуации не находится. Всякая наука имеет свой объект, который она может предъявить. Биология может предъявить живые экземпляры, их можно поймать, разрезать, даже ископаемых животных мы находим и видим, что они существовали. Химия, физика, даже астрономия имеет дело с объектами, доступными для наблюдения в той или иной степени, а лингвистика нет. Объект лингвистики, тот объект, который нам велели считать главным наши классики, нематериален, недоступен. Мы должны о нем всё знать, но доступа к нему у нас нет, у нас есть доступ к текстам. Мы должны, изучая тексты, понять, как они сделаны. Это примерно такой степени сложности задача, как если бы представить, что вы сидите где-нибудь в запертой комнате, вам приносят современный компьютер и говорят: «Разбери его на части, можешь делать с ним, что хочешь, только не общайся ни с кем, а потом напиши инструкцию, как собирать компьютеры».

0

11

Каким образом это делается, я сейчас говорить не буду, есть разные процедуры, есть автоматические, есть полуавтоматические, это некоторая техническая задача. Обработка текста может быть достаточно трудоемкой, может быть относительно простой, но после того, как эти тексты мы обработали, снабдили их нужной нам информацией, у нас получается корпус. Это собрание текстов в электронной форме, в котором мы можем искать то, что нам нужно. Мы можем искать тексты о спорте, созданные женщинами между 1983 и 1993 годами. Если, конечно, нам такая странная задача придет в голову, то сможем. В этих текстах мы можем искать все формы прошедшего времени глаголов. Мы можем написать исследование об особенностях употребления прошедшего времени у глагола женщинами, авторами спортивных текстов. Я намеренно привел странный пример, хотя любая задача легитимна. Если вы докажете, что именно у этой группы авторов есть особенности, то будет очень интересное лингвистическое наблюдение. На этом примере понятно, какого рода задача может ставиться. Вообще говоря, это задача вполне традиционная. Люди, изучавшие язык, изучали его именно с этой точки зрения, исследуя особенность употребления слов в разных текстах. Собственно, наука о языке ровно это и делает. Но легко видеть, что даже для традиционных задач, то есть для того, чем лингвисты всю жизнь занимались, корпус предоставляет совершенно ни с чем не сравнимые технические возможности.
Как работал лингвист раньше? В докорпусную, докомпьютерную эпоху? Это почти синонимы. Появление корпуса, появление Интернета, появление персональных компьютеров – это почти одновременное событие. Может быть, кто-то знает или помнит, я еще вполне хорошо помню эти времена. Поскольку основной наш объект – это тексты, никаким другим образом изучать язык мы не можем, об этом я поговорю чуть подробнее чуть позже, потому что это имеет непосредственное отношение к нашей теме. Так вот, если я намерен изучить, например, прошедшее время, я должен найти как можно больше текстов, где есть как можно больше примеров прошедшего времени, и их проанализировать. Как это делали лингвисты в докорпусную эпоху? Открывали книгу, находили, прочитывали, находили форму, выписывали ее, одну, другую, третью, сотую, на это уходило много дней, недель, месяцев. Иногда даже лет, иногда можно было услышать рассказ о таких подвижниках от науки, о человеке, который всю жизнь что-то откуда-то выписывал – и ему был почет, уважение коллег. Даже если он ничего потом с этим не сделал, он уже оставил человечеству много сотен карточек, на которых было его рукой что-то написано.
В корпусе такая задача решается за секунды, если он у нас, конечно, правильно размечен. Например, формы прошедшего времени, если придерживаться этого примера, в действительно существующих корпусах. За секунды можно найти десятки, сотни, тысячи, десятки тысяч примеров, настолько много, что даже не очень понятно исследователям становится, что же делать с таким богатством. То есть для традиционных задач лингвисты получили в свое распоряжение очень мощный современный инструмент, типа передвижения на самолете по сравнению с передвижением пешком. Корпус – это все-таки инструмент. Только ли это инструмент – об этом чуть позже. Я думаю, примерно понятно, что такое корпус, это вещь простая, скажу несколько слов о том, как появились корпуса и какие сейчас есть.
Первые корпуса появились в Америке, что неудивительно, в шестидесятые годы, на самой заре компьютерной эры. Так называемый брауновский корпус считается первым. Они выглядели с современной точки зрения довольно странно, это были небольшие фрагменты текстов, незаконченные, но одинаковой длины. Нарезанные на кусочки фрагменты английских текстов. Позже появился ряд других корпусов, это были корпуса английского языка, и, как ни странно, теоретическая лингвистика особенно этим не интересовалась, даже не очень знала об их существовании. Использовались эти корпуса для очень специальных прикладных задач. Вот такая странная игрушка, удел очень уж больших любителей компьютеров. Так было примерно до конца 80-х – начала 90-х годов, когда всё-таки положение стало меняться, и лингвисты стали понимать, что корпус – это такой колоссальный, но неожиданный им подарок, потому что появление компьютера и возникновение Интернета диктовалось совершенно другими потребностями человечества.
Можно спорить о том, что принес Интернет, что это, благо или зло, как всякое изобретение человечества, но лингвисты колоссально выиграли от этого появления. Они на это не рассчитывали, они этого не ожидали и некоторые из них до сих пор не готовы к этому подарку и даже пытаются от него отказаться. Тем не менее, когда это было осознано, стали появляться большие корпуса многих языков. Большой корпус принято называть национальным корпусом. Есть национальный корпус русского языка, например. Но почему национальный? Этот термин звучит немного странно, национальный корпус – с точки зрения неподготовленного человека заставляет думать о каких-то армейских соединениях. Термин восходит к английскому языку, первым был британский национальный корпус, созданный в начале 90-х годов. Британский национальный, чтобы отличить его от американского варианта английского языка. Здесь прилагательное имеет вполне четкую дифференцирующую функцию. «Наш британский» то есть не путать, например, с канадским, с австралийским. Он и сейчас существует, доступен в Интернете, и считается образцовым корпусом, хотя уже немножко устаревшим по современным меркам. Британский корпус стал эталоном корпуса в 90-е годы, поэтому национальным корпусом стали называть всякий большой корпус данного языка. То есть корпус, который данный язык представляет некоторым исчерпывающим образом.
Что для этого нужно? Корпус должен быть большим. Отражать если не все тексты, написанные на данном языке, хотя такую задачу тоже можно поставить, но наиболее важные, наиболее представительные, пропорционально устроенные. Скажем, корпуса современных языков должны изучать не только художественную литературу, но и газетные тексты, блоги и т.д.
Для хранения, разметки и обработки подобных массивов информации необходимо все передовые технологии ставить ему на службу. Помимо всего прочего, корпус – это довольно затратное, трудоемкое предприятие. Прозаически - нужно довольно много денег, чтобы создать корпус, и довольно много усилий – и программистов, и лингвистов и других специалистов. Некоторые страны охотно идут на такие жертвы, некоторые другие – не очень. В частности, в Германии, конечно, интерес к немецкому языку велик, исследований много, но до недавнего времени такое предприятие, как корпус, не могло найти большой поддержки, всё общегерманское не очень приветствовалось. Это особенно заметно в послевоенной истории Германии. Баварский корпус – сколько угодно, или северно-немецкий, а «немецкий национальный корпус» – такое в контексте немецких реалий не прозвучало бы. В принципе, такие работы ведутся в институте немецкого языка в Мангейме, сейчас можно даже в Интернете что-то найти, но это появилось совсем недавно.
Во Франции есть хорошие специалисты по корпусной лингвистике, но вот такого общедоступного национального корпуса нет. Но вообще довольно много языков имеют более или менее хорошие корпуса. Из славянских стран Чехия долгое время была бесспорным лидером, никто даже не пытался конкурировать, но сейчас последние лет пять-семь – бум славянской корпусной лингвистики, создана даже Ассоциация славянской корпусной лингвистики, существует вот и национальный корпус русского языка. Мы долгое время отставали, даже позорно отставали, но теперь корпус есть, он, кстати, один из лучших в мире по стандартам, и он доступен в Интернете, им несложно пользоваться.
Теперь давайте попробуем ответить на главный вопрос, что нам это дало. Корпус – это не просто инструмент, это больше, чем инструмент, потому что использование этого инструмента очень сильно меняет наше представление о языке. Прежде всего, помимо традиционных задач науки о языке, корпус дает возможность ставить и решать совершенно новые задачи, которые в докорпусную эпоху если и приходили в голову лингвистам, то просто отбрасывались за неисполнимостью. Это, прежде всего, задачи, связанные с обследованием больших массивов текста – всё, что раньше было сверхтрудоемко или зависело от случая, сейчас может быть свободно исследовано.
Когда и как слова входят в язык? В какой момент истории языка мы начинаем фиксировать данное слово, или данную конструкцию, или данное значение? Это, конечно, до корпуса изучалось, но во многом тут полагались на волю случая. А вдруг лингвист не нашел такого текста, где как раз нужное ему употребление и есть, как узнать? Если корпус наш хороший и полный, не найти там нужного примера мы не можем, значит, вся динамика языковых изменений у нас как на ладони, особенно если в корпус включены тексты за достаточно большой период, скажем, за несколько столетий, такое вполне можно сделать, такие корпуса существуют. Для языка это не такой большой срок, но все-таки изменения происходят.
Или, скажем, тексты, созданные в разных регионах бытования языка. Их очень важно сравнить на предмет особенностей. То, что раньше было предметом огромной технической работы, сейчас делается простым нажатием кнопки. Мы можем узнать о языке гораздо больше, чем раньше. Здесь начинается самое интересное, такой парадокс внутреннего развития лингвистики. Можем мы узнать многое, мы, лингвисты, а вот хотим ли мы это знать? Оказывается, что не всегда и не все лингвисты этого хотели, это очень интересный факт. Огромный массив данных, которые буквально хлынули на нас, во многом может заставить пересмотреть существующие представления о языке, о том, что это такое, как он существует, как он изменяется. Понятно, что это не всем может понравиться, у всех представлений могут быть авторы, эти авторы как-то существуют в науке, а тут появляется вдруг какой-то корпус, из которого следует, что всё не так, что нужны новые идеи, новые теории. Лучше уж мы будем как раньше, психологически это вполне понятно.
Чуть более специальные вещи я хочу рассказать. Мне придется немножко углубиться в философию современной лингвистики, в то, как в двадцатом веке разные теории языка понимали язык, что это такое. Я постараюсь, чтобы это было не очень сложно, кроме того, я думаю, многое из того, что я буду говорить, люди, следившие за историей идей двадцатого века, в том или ином отношении знают.
Вообще-то теоретическая лингвистика, изучение языка как самодостаточного феномена – что это такое, каким образом человек им пользуется, – это наука очень молодая, может быть, одна из самых молодых гуманитарных наук. Тут было сказано, что это такая образцовая наука двадцатого – двадцать первого века, это мне очень приятно слышать, лингвисты очень любят цитировать Леви-Стросса, который назвал лингвистику science-pilote, пролагательницей путей гуманитарных наук, и лингвисты никогда не отказываются от этого. Но, тем не менее, сама лингвистика почти что в двадцатом веке и возникла как теоретическая дисциплина. Почему это так, почему человечеству прежде не нужно было этого знать – это отдельный вопрос, пока я не буду на него отвечать. А в двадцатом веке лингвистика возникла на волне течения не чисто лингвистического, хотя лингвистика в нем сыграла очень большую роль, а общегуманитарного, такого философско-гуманитарного течения, которое называется структурализм.
Первая научная лингвистика, которая возникла, была структурной лингвистикой. Она очень сильно повлияла на структурализм в гуманитарных науках в других областях, в изучении литературы, этнографии, практически везде. Есть Фердинанд де Соссюр, основатель современной лингвистики, есть европейские, американские школы структурализма, которые вслед за ним возникли. Структурализм в языкознании господствовал примерно до конца 50-х годов, когда стал медленно сходить со сцены, уступая место другим направлениям. В каком-то смысле и до сих пор существует идеология структурализма. Она не центральная, это уже критикуемая область, но она есть.
Почему это важно для того, о чем мы говорим? Структурализм сделал лингвистику наукой во многих отношениях: точная, с определенным предметом, с какими-то исходными зафиксированными положениями, с понятными задачами. В общем, многое из того, что требуется науке, и чем лингвистика не располагала или располагала в очень малой степени, появилось благодаря структурализму. Это колоссальный прогресс, почти равный созданию науки «на пустом месте». Но это произошло ценой многих жертв и потерь.
Какую главную цену заплатил структурализм за то, что он создал науку о языке? Структурализм понимал язык довольно упрощенно и, грубо говоря, структурализм велел лингвистам заниматься очень ограниченным кругом задач: «Вот это вот ваше, а всем остальным интересоваться не надо». Структурализм провел очень жесткие границы: это лингвистика, а это не лингвистика, это наука, а это не наука, этим заниматься надо, а этим заниматься не надо.
Первым это сделал Соссюр, филологам известно, он поделил науку о языке на язык и речь, на синхронию и диахронию, на систему и норму, как потом говорили. И велел лингвистам заниматься языком, системой, нормой, синхронией, и больше ничем. То есть язык понимался как нечто неизменное, существующее в головах всего социума в совершенно одинаковом виде, некоторое такое абстрактное знание, которое позволяет людям порождать тексты, говорить. Мы наблюдаем тексты, но изучаем то, как они сделаны, это мы и называем языком. То, как сделаны тексты, мы называем языком. Но структурализм объяснил нам, что не тексты главное, а вот этот самый язык, которого никто не видел, он не доступен, его нельзя ни потрогать, ни увидеть, это что-то, что содержится у нас в голове и позволяет нам порождать тексты.
Лингвистика находится в парадоксальной ситуации, никакая другая наука в такой ситуации не находится. Всякая наука имеет свой объект, который она может предъявить. Биология может предъявить живые экземпляры, их можно поймать, разрезать, даже ископаемых животных мы находим и видим, что они существовали. Химия, физика, даже астрономия имеет дело с объектами, доступными для наблюдения в той или иной степени, а лингвистика нет. Объект лингвистики, тот объект, который нам велели считать главным наши классики, нематериален, недоступен. Мы должны о нем всё знать, но доступа к нему у нас нет, у нас есть доступ к текстам. Мы должны, изучая тексты, понять, как они сделаны. Это примерно такой степени сложности задача, как если бы представить, что вы сидите где-нибудь в запертой комнате, вам приносят современный компьютер и говорят: «Разбери его на части, можешь делать с ним, что хочешь, только не общайся ни с кем, а потом напиши инструкцию, как собирать компьютеры».

0

12

елал Соссюр, филологам известно, он поделил науку о языке на язык и речь, на синхронию и диахронию, на систему и норму, как потом говорили. И велел лингвистам заниматься языком, системой, нормой, синхронией, и больше ничем. То есть язык понимался как нечто неизменное, существующее в головах всего социума в совершенно одинаковом виде, некоторое такое абстрактное знание, которое позволяет людям порождать тексты, говорить. Мы наблюдаем тексты, но изучаем то, как они сделаны, это мы и называем языком. То, как сделаны тексты, мы называем языком. Но структурализм объяснил нам, что не тексты главное, а вот этот самый язык, которого никто не видел, он не доступен, его нельзя ни потрогать, ни увидеть, это что-то, что содержится у нас в голове и позволяет нам порождать тексты.

0


Вы здесь » ITS OCO » Inquiry office » Голос полного безмолвия страшнее леденящего кровь вопля.


Рейтинг форумов | Создать форум бесплатно