📰 最近消息
Всем привет! На этот раз без пейпера:Думаю, в этом канале сидит много талантливых ML инженеров с интересом к NLP — а мы в нашу замечательную AI команду Replika ищем Senior NLP Research Engineer развивать наш open-domain диалог на миллионах пользователей!Все подробности по ссылке — https://www.notion
Google презентовал свою новую наработку в Conversational AI под названием LaMDA. Blogpost | VideoСудя по посту первого автора GShard сеть представляет из себя огромный MoE transformer на сотни миллиардов (триллионы?) параметров. Тренировали скорее всего на своем внутреннем огромном диалоговом датасе
Curriculum Learning: A Regularization Method for Efficient and Stable Billion-Scale GPT Model Pre-Traininghttps://arxiv.org/abs/2108.06084TL;DRMicrosoft показали, что возможно делать pre-training больших (1.5B) GPT-модели с большим размером батча (bs 4К), более стабильно (без скачков лосса) и без по
РезультатыПрименяемый подход сравнивали с обучением со “стандартными” параметрами, а также с двумя работами конкурентов - 1) с дискретным 2-ступенчатым увеличением длины последовательности (“2-stage CL“) и 2) плавным увеличением размера батча (“Bsz Warmup 45”). Метрики меряли по перплексии на валида
Red Teaming Language Models with Language Modelshttps://arxiv.org/abs/2202.03286TL;DRПредложили оригинальный способ поиска оскорбительного поведения в языковых моделях: благодаря способностям к zero-shot генерации можно создавать «провокационные» контексты с помощью других языковых моделей. Метод по
Typical Decoding for Natural Language Generationhttps://arxiv.org/abs/2202.00666v2TL;DRПредложили новый способ сэмплирования из языковых моделей, основанный на концепциях теории информации и предположениях о том, как люди оперируют естественным языком в реальной жизни.Суть подходаКак известно, совре