Data Science Natural Language Processing. Basics

На курсі ви отримаєте фундаментальні знання, за допомогою яких зможете вирішувати завдання, пов'язані з обробкою текстової інформації.

Про курс

Під час навчання на курсі ви зрозумієте природу текстових даних і як їх збирати, зберігати та аналізувати. Дізнаєтесь про різні методи попередньої обробки тексту та про те які є підходи до аналізу тексту в цілому. Зрозумієте для яких NLP задач найефективніше застосовувати ML підходи, а для яких систему правил.

Також на практиці ви самостійно створите, обробите і проаналізуєте дані, а також реалізуєте власний production-сервіс для вирішення NLP-завдання. Ви опануєте не тільки основні навички необхідні для обробки природної мови, але й освоїте найпопулярніші бібліотеки та технології для реалізації NLP рішень.

Бонусом курсу буде інформація про те, як та де шукати свою першу роботу комплігвіста та як успішно пройти співбесіду.

4 вересня 2021 курс триває 3 місяці
10 000 грн/міс 30 000 грн при повній оплаті курсу
10 500 грн/міс при оплаті частинами
25 студентів кожен студент отримує регулярний фідбек від кураторів групи

Кураторка

Наталя Підгірна

Head of NLP, понад 5 років займається розробкою та запуском NLP продуктів.

PhD, авторка наукових публікацій з лінгвістики, має 8 років досвіду викладання у ВНЗ. Кураторка професійної практики з комплінгвістики студентів УКУ і менторка для Junior/Middle NLP спеціалістів.



Програма курсу

NLP in the Real World

— Що таке NLP/NLU/NLG/NLI.
— Для рішення яких бізнес-задач використовуються техніки та методи NLP. Найтрендовіші NLP завдання останніх років.
— Якими бувають цикли сучасних NLP проектів.
— Якою може бути команда NLP проекту та що представляють собою щоденні задачі комплінгвістів/NLP інженерів.
— Які навички та вміння необхідні комплінгвістам/NLP інженерам щоб бути ефективними в команді.

Data Mining

— Які типи данних існують та які їхні особливості.
— Де взяти дані.
— Як зберігати дані.
— Чому комплінгвісту потрібно знати SQL.

Python Tips for Textual Data Analysis

— Чому саме Python.
— Які Python-хаки найкраще підходять для маніпуляцій з текстом.
— Які найпопулярніші NLP інструменти та бібліотеки для обробки текстових даних.

Text Pre-processing

— Принцип GIGO. Чому важливий етап передопрацювання.
— Чим відрізняється препроцесинг струтурованих текстів від відгуків. Та як з ними працювати.
— Які техніки для передопрацювання існують.
— Як знати коли передопрацювання завершене.

Handling Text Data: from word-level to semantic analysis

— Що таке регулярні вирази та для вирішення яких задач вони підходять.
— Що таке N-grams та яке їхнє застосування в NLU задачах.
— Які техніки синтаксичного аналізу тексту існують.
— Part-of-speech (POS) tagging що це та для чого.
— Що таке парсинг.
— Граматика незалежних складників та залежностей. В чому різниця та для яких задач використовуються.
— Що таке семантичний аналіз та як це працює.
— Техніки семантичного аналізу.
— Co-reference resolution (анафора).
— Word sense disambiguation (багатозначність слів).
— Named entity recognition (розпізнання іменованих сутностей).
— Онтологія та інструменти для її створення + Semantic role labeling (смислова анотація слів).

Machine Learning for NLP

— Які бізнес завдання можна вирішити за допомогою алгоритмів ML.
— Типи машинного навчання.
— Базові алгоритми ML.
— Класичний ML/NLP pipeline який він.
— Як підготувати дані для машинного навчання та на що звернути особливу увагу.
— Метрики якості результатів моделей.
— Confusion Matrix/Accuracy/Precision and Recall - що та для чого.

Text Representation

— Що таке вектори та для чого вони потрібні.
— Bag of words.
— TF-DF.
— Bag of N-grams.
— Word embedding.

Topic Modeling

— Що таке тематичні моделі та якими вони бувають.
— Метод латентного розміщення Діріхле.
— Тематичне моделювання коротких текстів.

Text Classification

— Класифікація на основі правил.
— Машинне навчання з учителем для класифікації тексту.
— Машинне навчання без учителя для класифікації тексту.

Rule-based vs Machine Learning Approaches

— Переваги та недоліки кожного з підходів.
— Що коли обрати.

How to find the first job and to successfully pass interview

— Як отримати свою першу роботу в NLP та як найкраще підготуватиcя до співбесіди.
— Чек-ліст топових питань для співбесіди.

Кому підходить курс

Студентам ВНЗ

за напрямком комп'ютерна лінгвістика для поглиблення знань у сфері NLP

Комп’ютерним лінгвістам

рівня Junior/Middle low, data scientists які вже працюють з NLP та відчувають нестачу знань у деяких базових темах

Спеціалістам

з суміжних з NLP галузей, які хочуть змінити спеціалізацію та почати кар'єру в NLP

Час

10-12+ годин на тиждень для виконання домашніх завдань

Як відбувається навчання

Відеолекції та вебінари

Real-life завдання

У нас діє Practicult — культ практики. Тому ви будете робити багато складних домашок із реальних робочих буднів. Have fun & survive.

Unlimited фідбек

У нас немає базових та преміум режимів. Тільки преміум, завжди. Отримайте від кураторів все. І так, десята ітерація — це нормально.

Сертифікат за справи

Видаємо лише тим, хто своїм потом, часом і силами його заслужив.

ГРАФІК

Старт навчання

4 вересня 2021

Мова викладання

українська

Запитання-відповіді

Що я маю вміти до курсу?

Для проходження курсу вам необхідно знати основні поняття програмування і мати базове розуміння Python (змінні, цикли, функції). Також ви маєте володіти англійською на рівні Intermediate і вище.

З яким софтом будемо працювати на курсі?

Для роботи нам знадобиться Anaconda Notebooks, а вебінари проходитимуть на платформі Zoom.

Чи можна дивитися заняття в будь-який зручний день?

Можна, але важливо встигати виконувати домашні завдання, які ви будете отримувати після кожного заняття.

Як відбувається комунікація на курсі та в якому форматі куратор дає фідбек?

Вся комунікація на курсі відбуватиметься через платформу Slack (робочий чат групи, канали для домашніх завдань і корисних посилань). Куратор надає фідбек у вигляді коментарів на домашні завдання і обговорення на вебінарах.

Що, якщо мені не сподобається?

До 3-го заняття ми зможемо повернути вам всю суму за навчання, якщо ви передумаєте.

Чи будуть мені доступні відеозаписи лекцій після завершення курсу?

Так, у вас зберігається доступ після завершення курсу.

Чи отримаю я сертифікат після проходження курсу?

Тільки за умови виконання всіх домашніх завдань.

Реєстрація

Ще маєте питання?
Не соромтесь їх задати.

Проконсультуйте мене

Кому буде корисно

— студентам ВНЗ за напрямком комп'ютерна лінгвістика для поглиблення знань у сфері NLP
— комп’ютерним лінгвістам рівня Junior/Middle low, data scientists які вже працюють з NLP та відчувають нестачу знань у деяких базових темах
— спеціалістам з суміжних з NLP галузей, які хочуть змінити спеціалізацію та почати кар'єру в NLP