Skip to content

Instantly share code, notes, and snippets.

@qunash
Created March 23, 2024 13:27
Show Gist options
  • Save qunash/bde4ce15982e418dedcdf1154da3848e to your computer and use it in GitHub Desktop.
Save qunash/bde4ce15982e418dedcdf1154da3848e to your computer and use it in GitHub Desktop.

Revisions

  1. qunash created this gist Mar 23, 2024.
    52 changes: 52 additions & 0 deletions adiga.ai_whiteboard_roadmap.md
    Original file line number Diff line number Diff line change
    @@ -0,0 +1,52 @@
    # Доска и дорожная карта `adiga.ai`

    ## Перевод текста
    - Текущие проекты
    - [zedzek.com](http://zedzek.com) - перевод текстов
    - Собранные данные:
    - Пары переводов `kbd`-`rus`, вручную собранные из разных источников:
    - ~65 тыс. проверенных
    - ~35 тыс. непроверенных
    - Задачи:
    - Извлечь пары переводов из двуязычных книг (`Нартхэр` и т.д.). Выровнять их, вручную или с помощью модели `Claude 3 Opus`
    - Проверить непроверенные пары вручную или с помощью `Claude 3 Opus`
    - Найти больше источников с параллельными текстами
    - Добавить синтетические данные: Перевести ~100 тыс.+ предложений, выбранных из одноязычного текста с `kbd` и `ady` на `rus` с помощью модели Claude 3 Opus (и, возможно, предстоящих моделей Gemini-1.5 Ultra, GPT-5, Llama-3 и пр.)
    - Обучить модели на переведенных данных:
    - Дообучить модели `m2m-100`/`nllb` на парах переводов
    - Поэкспериментировать с дообучением моделей `llama-2`/`llama-3` на одноязычных данных + парах переводов. См. [ALMA](https://github.com/fe1ixxu/ALMA/).
    - Опубликовать обновленные датасеты и обученные модели в открытый доступ на Huggingface.
    - Добавить датасет в [OPUS corpus](https://opus.nlpl.eu/)

    ## Генерация текста
    - Текущие проекты
    - [adiga.ai](http://adiga.ai) - чатбот, генерация текста
    - Собранные данные:
    - ~17 млн слов одноязычного текста на `kbd`
    - Задачи:
    - Самостоятельно собрать из интернета больше одноязычного текста на `kbd` и `ady` (web crawl).
    - Или добавить `kbd` и `ady` в [проект OSCAR](https://oscar-project.org/) - проект по созданию одноязычных наборов данных из Common Crawl. [Common Crawl](https://commoncrawl.org/) - открытый набор данных сканирования веб-страниц (более 250 миллиардов страниц).
    - Собрать данные чатов из `adiga.ai`
    - Перевести наборы данных с инструкциями на черкесский с помощью модели Claude 3 Opus или дообученных моделей `m2m-100`/`nllb`. Например датасет [OpenHermes-2.5](https://huggingface.co/datasets/teknium/OpenHermes-2.5)
    - Обучить модели на полученных данных:
    - Поэкспериментировать с дообучением моделей `llama-2`/`llama-3`

    ## Аудио
    - Направления:
    - Распознавание речи (ASR)
    - Синтез речи (TTS)
    - Перевод аудио-аудио
    - Текущие проекты
    - 2 обученные ViTS модели для синтеза речи [vits-kbd-male](https://huggingface.co/spaces/anzorq/vits-kbd-male) - мужской и женский голоса
    - Собранные данные:
    - ~6 часов речи-текста на кабардинском (kbd), [Мурат Сохов](https://huggingface.co/datasets/anzorq/kbd_speech) и прочие
    - ~12 часов речи-текста на кабардинском (kbd) из аудиокниги, [Щихухэр иджыри мэкI](https://huggingface.co/datasets/anzorq/sixuxar_yijiri_mak7)
    - Задачи:
    - Собрать больше данных речь-текст:
    - Получить уже обработанные данные из разных источников (напр. [Gukhel](https://play.google.com/store/apps/details?id=com.darkyver.adygaudiobook) и пр.)
    - Вручную транскрибировать видео/аудио с YouTube и т.п.
    - Обучить модели на собранных данных:
    - `ViTs` для TTS
    - `Whisper` для ASR
    - Поэкспериментировать с другими моделями
    - Для speech-to-speech translation см. напр. [seamless-m4t](https://ai.meta.com/blog/seamless-m4t/)