ap.train

Модуль для поддержания работы с данными

class ap.train.data_manager.ModelDataManager(data_dir: str, experiment_config: str)

Базовые классы: object

Класс для поддержания работы с данными

generate_batches_balanced_by_rubric()

Возвращает artm.BatchVectorizer, построенный на сбалансированных батчах.

Генерирует батчи, в которых документы сбалансированны относительно рубрик ГРНТИ. Из всего тренировочного датасета сэмплируются документы так, чтобы в обучении на эпохе участвовало одинаковое количество документов каждой рубрики ГРНТИ. Количество документов каждой рубрики равно average_rubric_size - среднему размеру рубрики ГРНТИ.

Если в конфиге для обучения модели self._config присутствует путь до батчей, построенных по википедии self._path_batches_wiki, то батчи будут использованы для обучения модели. Иначе в обучении будут принимать участие только батчи, сбалансированные относительно рубрик ГРНТИ.

Возвразает artm.BatchVectorizer, построенный на этих батчах.

Результат

artm.BatchVectorizer, построенный на сбалансированных батчах.

Тип результата

batch_vectorizer (artm.BatchVectorizer)

get_modality_distribution() Dict[str, int]

Возвращает количество документов каждой модальности из self.class_ids для тренировочных данных.

Если в конфиге для обучения модели self.config передан путь до словаря, содержащего количество документов Wikipedia по модальностям, эти данные учитываются для оценки всего тренировочного датасета.

Параметры

modality_distribution_all (dict) – словарь, ключ - модальность, значение - количество документов с такой модальностью

load_train_data()
update_config(config: str)

TODO

Параметры

config (TODO) – TODO

write_new_docs(vw, docs)

TODO

Параметры
  • vw (TODO) – TODO

  • docs (TODO) – TODO

exception ap.train.data_manager.NoTranslationException

Базовые классы: Exception