ap.train¶

Модуль для поддержания работы с данными

class ap.train.data_manager.ModelDataManager(data_dir: str, experiment_config: str)¶

Базовые классы: object

Класс для поддержания работы с данными

generate_batches_balanced_by_rubric()¶

Возвращает artm.BatchVectorizer, построенный на сбалансированных батчах.

Генерирует батчи, в которых документы сбалансированны относительно рубрик ГРНТИ. Из всего тренировочного датасета сэмплируются документы так, чтобы в обучении на эпохе участвовало одинаковое количество документов каждой рубрики ГРНТИ. Количество документов каждой рубрики равно average_rubric_size - среднему размеру рубрики ГРНТИ.

Если в конфиге для обучения модели self._config присутствует путь до батчей, построенных по википедии self._path_batches_wiki, то батчи будут использованы для обучения модели. Иначе в обучении будут принимать участие только батчи, сбалансированные относительно рубрик ГРНТИ.

Возвразает artm.BatchVectorizer, построенный на этих батчах.

Результат: artm.BatchVectorizer, построенный на сбалансированных батчах.
Тип результата: batch_vectorizer (artm.BatchVectorizer)

get_modality_distribution() → Dict[str, int]¶

Возвращает количество документов каждой модальности из self.class_ids для тренировочных данных.

Если в конфиге для обучения модели self.config передан путь до словаря, содержащего количество документов Wikipedia по модальностям, эти данные учитываются для оценки всего тренировочного датасета.

Параметры: modality_distribution_all (dict) – словарь, ключ - модальность, значение - количество документов с такой модальностью

load_train_data()¶

update_config(config: str)¶

TODO

Параметры: config (TODO) – TODO

write_new_docs(vw, docs)¶

TODO

Параметры

vw (TODO) – TODO
docs (TODO) – TODO

exception ap.train.data_manager.NoTranslationException¶: Базовые классы: Exception