Лексический анализ песен капоэйры

автор: Yeti 18 мая 2012, 14:01 блог: Блог им. Yeti
Немного предыстории

Когда я начинал проект Capoeira Lyrics, я думал, что хорошо было бы иметь к каждому тексту транслитерацию. Для новичков, которые только начинают заниматься капоэйрой и ни капли не знакомы с особенностями транслитерации португальского языка, это было бы очень кстати. Я даже выделил специальное поле, которое, по моим задумкам, должно было бы заполняться наравне с текстом песни и переводом. Но, как обычно бывает, со временем энтузиазм немного угас, поменялось место работы и я переключился на другие проекты и занятия. Спустя некоторое время я вернулся к проекту, начал вести промо-группу вКонтакте и заливать контент. Многие высказывали свои пожелания, да и у меня самого к этому времени уже сформировался список первоочередных задач и идей, которые хотелось бы реализовать в рамках этого проекта.

Автоматическая транслитерация

Сейчас, взгляд немного поменялся — я четко знаю в каком виде хочу видеть capoeiralyrics и работаю над этим в свободное время. Начиная немного ближе знакомиться с португальским языком, я нашел вот этот документ, который зародил в голове следующую идею: «Почему бы не генерировать транслитерацию автоматически и избавить пользователя от заполнения лишнего поля?», тем более, что правила транслитерации практически полностью алгоритмизируемы. Вообще, я не очень люблю «изобретать велосипеды» и я начал искать в интернетах сервис португальско-русской транслитерации, который можно было бы интегрировать в проект. К сожалению, не нашел, и начал писать простой алгоритм, который будет это делать.

Алгоритм

Сначала, я попытался «в лоб» реализовать правила практической транскрипции, но наткнулся на ряд проблем, связанных с определением ударности/безударности слогов и всякие мелочи. Честно говоря, я с самого начала понимал, что придется каким-то образом модифицировать алгоритм, но пока не знал как. К тому же, первые тесты показали, что алгоритм работает некорректно в некоторых случаях и выдает недостаточно правильные результаты. Надо было что-то придумывать. Тогда я решил сделать «ход конём» и добавил правило, которое заменяло бы часто используемые в языке слова на заранее определенные транскрипции и не применяла бы к ним общие правила.

Лексический топ

С технической частью вопросов не возникло, но появилась другая проблема — где взять этот самый топ слов, которые нужно заранее оттранслитерировать. Гугл снова не ответил мне, но это оказалось хорошо, так как топы слов разговорной речи и слов из песен капоэйры наверняка отличались бы, в чем я потом и убедился. Имея достаточно большой архив сырого материала в виде песен с сайта, я написал скрипт, который пробежался по всем текстам и посчитал частоту вхождения каждого слова. Таким образом, была получена статистика по частоте использования слов в песнях капоэйры. Я отдал этот список своему тренеру на транслитерацию и в ближайшее время он будет интегрирован его в двухступенчатый алгоритм португальско-русской транслитерации и я выплюну его в виде небольшого сервиса в интернете.

А ещё ТОП 100 часто используемых слов с их переводами можно отдать ученикам в виде материала, который поможет понимать о чем поют в песнях или еще что-то… Можно попробовать сделать какой-нибудь вывод по этой статистике или не делать — в общем, ВОТ!

Очередные новости и результаты недели

автор: Gringo 28 января 2010, 03:54 блог: Блог проекта Capoeira.INside
И снова здравствуйте, дорогие друзья. В очередной раз несу вам благие вести о развитии проекта Capoeira.Inside Что же было добавлено:
1. В своём профиле вы теперь можете указать свою группу, пояс и с какого года вы в капоэйре.
2. Справа, в блоке «Прямой эфир» теперь показывается время добавления комментария и время и дата добавления топика. Для упрощения ориентации.
3 и основное. На главной странице и на странице «Афиша» вы можете увидеть анонс предстоящих событий в русскоязычной капоэйре. Модуль требует некоторых доработок, но уже сейчас им можно пользоваться в том виде, в котором он есть. Если возникают какие-то вопросы — обращайтесь к кому-нибудь из команды. Посему настоятельно просим вас присылать нам или добавлять самим события в наш календарь.
Несколько советов:
а. Начинается создания мероприятия с создания «места» (читай «Группы», скоро это будет переделано именно так). Адрес указывать не надо. Достаточно указать страну и город.
б. После создания «места» («группы») вы можете безболезненно создавать в этой группе мероприятия. Там вроде всё крайне просто. Пока модуль не доделан, в качестве даты ставим дату начала ивента.
Итак: Сначала «место» («группа»), потом «событие». Адрес указываем в описании события.

UPDATE! Места переименованы в группы.

А теперь о главном. Наш проект открылся в праздник Крещения. Нам показалось, что это будет символично и правильно. Прошло чуть больше недели и есть некоторые результаты.
В первую очередь мы хотели бы выразить огромную благодарность всем, кто зарегистрировался тут, тем кто посещает и пишет. Именно для вас мы и делаем это всё. Большое вам спасибо. Именно благодаря вам этот проект и обречен на успех и интерес всех русскоязычных капоэйристов.
Во-вторых, немного статистики, дабы увидеть результаты. Итак:
— За это время на проекте зарегистрировалось 89 человек.
— Все пользователи написали за это время 329 комментариев.
— Не модераторами было написано 10 постов и это очень радует.
— Самое живое обсуждение в топике O Movimento Novo / Новое движение в капоэйре. Там оставили 52 комментария.
— Самый большой рейтинг получили посты Укрепление коленных суставов и Почему мы поем Paraná ê?.
— Самый большой рейтинг получил вот этот комментарий от юзернейма Camaleao.

Спасибо большое, давайте двигаться дальше. Уважаемые участники, не забывайте, что у вас есть возможность приглашать своих друзей отправляя им инвайты. Пользуйтесь этой возможностью.

Вроде всё, stay tuned.
  • +2