Created
March 23, 2024 13:27
-
-
Save qunash/bde4ce15982e418dedcdf1154da3848e to your computer and use it in GitHub Desktop.
Revisions
-
qunash created this gist
Mar 23, 2024 .There are no files selected for viewing
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode charactersOriginal file line number Diff line number Diff line change @@ -0,0 +1,52 @@ # Доска и дорожная карта `adiga.ai` ## Перевод текста - Текущие проекты - [zedzek.com](http://zedzek.com) - перевод текстов - Собранные данные: - Пары переводов `kbd`-`rus`, вручную собранные из разных источников: - ~65 тыс. проверенных - ~35 тыс. непроверенных - Задачи: - Извлечь пары переводов из двуязычных книг (`Нартхэр` и т.д.). Выровнять их, вручную или с помощью модели `Claude 3 Opus` - Проверить непроверенные пары вручную или с помощью `Claude 3 Opus` - Найти больше источников с параллельными текстами - Добавить синтетические данные: Перевести ~100 тыс.+ предложений, выбранных из одноязычного текста с `kbd` и `ady` на `rus` с помощью модели Claude 3 Opus (и, возможно, предстоящих моделей Gemini-1.5 Ultra, GPT-5, Llama-3 и пр.) - Обучить модели на переведенных данных: - Дообучить модели `m2m-100`/`nllb` на парах переводов - Поэкспериментировать с дообучением моделей `llama-2`/`llama-3` на одноязычных данных + парах переводов. См. [ALMA](https://github.com/fe1ixxu/ALMA/). - Опубликовать обновленные датасеты и обученные модели в открытый доступ на Huggingface. - Добавить датасет в [OPUS corpus](https://opus.nlpl.eu/) ## Генерация текста - Текущие проекты - [adiga.ai](http://adiga.ai) - чатбот, генерация текста - Собранные данные: - ~17 млн слов одноязычного текста на `kbd` - Задачи: - Самостоятельно собрать из интернета больше одноязычного текста на `kbd` и `ady` (web crawl). - Или добавить `kbd` и `ady` в [проект OSCAR](https://oscar-project.org/) - проект по созданию одноязычных наборов данных из Common Crawl. [Common Crawl](https://commoncrawl.org/) - открытый набор данных сканирования веб-страниц (более 250 миллиардов страниц). - Собрать данные чатов из `adiga.ai` - Перевести наборы данных с инструкциями на черкесский с помощью модели Claude 3 Opus или дообученных моделей `m2m-100`/`nllb`. Например датасет [OpenHermes-2.5](https://huggingface.co/datasets/teknium/OpenHermes-2.5) - Обучить модели на полученных данных: - Поэкспериментировать с дообучением моделей `llama-2`/`llama-3` ## Аудио - Направления: - Распознавание речи (ASR) - Синтез речи (TTS) - Перевод аудио-аудио - Текущие проекты - 2 обученные ViTS модели для синтеза речи [vits-kbd-male](https://huggingface.co/spaces/anzorq/vits-kbd-male) - мужской и женский голоса - Собранные данные: - ~6 часов речи-текста на кабардинском (kbd), [Мурат Сохов](https://huggingface.co/datasets/anzorq/kbd_speech) и прочие - ~12 часов речи-текста на кабардинском (kbd) из аудиокниги, [Щихухэр иджыри мэкI](https://huggingface.co/datasets/anzorq/sixuxar_yijiri_mak7) - Задачи: - Собрать больше данных речь-текст: - Получить уже обработанные данные из разных источников (напр. [Gukhel](https://play.google.com/store/apps/details?id=com.darkyver.adygaudiobook) и пр.) - Вручную транскрибировать видео/аудио с YouTube и т.п. - Обучить модели на собранных данных: - `ViTs` для TTS - `Whisper` для ASR - Поэкспериментировать с другими моделями - Для speech-to-speech translation см. напр. [seamless-m4t](https://ai.meta.com/blog/seamless-m4t/)