ap.train¶
Модуль для поддержания работы с данными
- class ap.train.data_manager.ModelDataManager(data_dir: str, experiment_config: str)¶
Базовые классы:
objectКласс для поддержания работы с данными
- generate_batches_balanced_by_rubric()¶
Возвращает artm.BatchVectorizer, построенный на сбалансированных батчах.
Генерирует батчи, в которых документы сбалансированны относительно рубрик ГРНТИ. Из всего тренировочного датасета сэмплируются документы так, чтобы в обучении на эпохе участвовало одинаковое количество документов каждой рубрики ГРНТИ. Количество документов каждой рубрики равно average_rubric_size - среднему размеру рубрики ГРНТИ.
Если в конфиге для обучения модели self._config присутствует путь до батчей, построенных по википедии self._path_batches_wiki, то батчи будут использованы для обучения модели. Иначе в обучении будут принимать участие только батчи, сбалансированные относительно рубрик ГРНТИ.
Возвразает artm.BatchVectorizer, построенный на этих батчах.
- Результат
artm.BatchVectorizer, построенный на сбалансированных батчах.
- Тип результата
batch_vectorizer (artm.BatchVectorizer)
- get_modality_distribution() Dict[str, int]¶
Возвращает количество документов каждой модальности из self.class_ids для тренировочных данных.
Если в конфиге для обучения модели self.config передан путь до словаря, содержащего количество документов Wikipedia по модальностям, эти данные учитываются для оценки всего тренировочного датасета.
- Параметры
modality_distribution_all (dict) – словарь, ключ - модальность, значение - количество документов с такой модальностью
- load_train_data()¶
- update_config(config: str)¶
TODO
- Параметры
config (TODO) – TODO
- write_new_docs(vw, docs)¶
TODO
- Параметры
vw (TODO) – TODO
docs (TODO) – TODO
- exception ap.train.data_manager.NoTranslationException¶
Базовые классы:
Exception