Общедоступные сводные статистические данные ассоциации GWAS представлены во всех форматах. Разнообразие форматов данных часто объясняется природой изучаемых фенотипов (например, признак-контроль / количественные признаки) и программным обеспечением, используемым для выполнения анализа. Однако перед любыми пост-GWAS-анализами необходимо преобразовать данные из различных форматов в один и тот же формат. Эта страница призвана предоставить несколько советов, руководств и протоколов, которые я считаю полезными для форматирования большого количества сводных статистических данных GWAS, чтобы помочь предотвратить ошибки при анализе после GWAS.

Шаг 0 - переименование, дата и запись публикации данных

Файлы данных сводной статистики GWAS часто имеют имена файлов, которые также встречаются повсюду. Прежде чем углубляться в детали данных, мы рекомендуем придумать аббревиатуру для фенотипа и последовательно переименовать файлы. В конечном итоге это сделает вашу жизнь намного проще. Например, для сводных статистических данных GWAS по шизофрении 2014 года имя файла может быть SCZ_2014.txt, а для GWAS по ревматоидному артриту 2014 года в нескольких популяциях можно переименовать файлы как RA_ASN_2014.txt, RA_EURO_2014.txt и RA_TE_2014.txt. , где TE означает трансэтнический. Мы также рекомендуем включать в каждую сводную статистику GWAS документ readme для записи публикации сводных данных GWAS и URL-адреса, с которого были загружены данные. И имена файлов документа readme могут иметь вид SCZ_2014.readme.Наконец, мы рекомендуем хранить все файлы readme и недавно загруженные файлы сводной статистики в папке с именем 0_Raw.

Шаг 1. Взгляните на заголовок и выясните, чего не хватает

Заголовок файлов данных сводной статистики GWAS сообщает, какой тип информации GWAS доступен и недоступен в файле. Ниже приводится список некоторых типичных заголовков. Если информация, необходимая для их анализа, отсутствует в заголовке (например, размер выборки, количество случаев и контролей и т. Д.), То для извлечения этой информации необходимо прочитать документ GWAS.

Примечание о сборке генома

Многие недавно загруженные сводные статистические данные GWAS также содержат только идентификатор SNP, а не номер хромосомы или положения пары оснований. В некоторых случаях некоторые старые GWAS до 2012 года используют HG18 (NCBI B36) для позиций пары оснований. Для этого типа данных необходимо сопоставить идентификаторы SNP с легендой панели ссылок, чтобы узнать номер хромосомы и положения пары оснований.

Примечание о размере выборки

Обратите внимание, что некоторые GWAS сообщают об общем размере выборки, который включает образцы как на стадии обнаружения, так и на стадии репликации. Однако часто бывает, что размер выборки на этапе обнаружения GWAS совпадает с данными.

Шаг 2 - Создайте свои собственные заголовки и вычислите релевантную информацию

Большинство сводных статистических данных GWAS не содержат всей необходимой информации. Например, очень часто файл сводной статистики GWAS не содержит Z-баллов, а содержит размер эффекта (отношение шансов для признаков-контроль) и его стандартную ошибку, а некоторые GWAS предоставляют p-значения и размер эффекта. Поскольку информация о Z-показателях используется во многих программах на основе сводных данных, таких как LDSC и HESS, настоятельно рекомендуется включать информацию о Z-показателях в форматированный файл сводной статистики. В общем, очень удобно всегда иметь следующие 7 столбцов в отформатированном файле сводной статистики. Другая информативная информация, такая как частота аллелей, количество случаев и контролей, может быть добавлена ​​после первых 7 столбцов. Мы рекомендуем хранить обработанные файлы сводной статистики в отдельном каталоге с именем 1_Processed.

SNP: идентификатор SNP (рекомендуется включать в данные только SNP с идентификаторами rs, поскольку эти SNP часто более хорошо охарактеризованы)

CHR: номер хромосомы (некоторые сводные данные GWAS содержат SNP на хромосоме X, Y и MT, но обычно эти SNP отфильтровываются во время контроля качества)

BP: позиции базовых пар (убедитесь, что все форматированные сводные статистические данные используют одну и ту же сборку генома)

A1: Аллель эффекта (также иногда называемый аллелем риска, референсным аллелем, аллелем эффекта, кодированным аллелем и т. Д.)

A2: Неэффективный аллель (также иногда называемый альтернативным аллелем, другим аллелем и т. Д.)

Z: Z-оценка по отношению к аллелю эффекта, т.е. если Z-оценка положительна, то аллель эффекта увеличивает фенотип.

N - размер выборки (часто это размер выборки на стадии открытия, а не максимальный размер выборки)

Примечание о вычислении Z-оценок

Если размер эффекта и стандартная ошибка включены в только что загруженный файл сводной статистики GWAS, тогда Z-оценка может быть вычислена как \ [Z = \над >\]

Если включены отношение шансов и стандартная ошибка, тогда Z-оценка может быть вычислена как \ [Z = ) \над >\]

Если доступны p-значение и размер эффекта (отношение шансов), тогда Z-оценка может быть вычислена как \ [Z = \ text \ times | \ Phi ^ (p / 2) | \] или \ [Z = \ text \ times | \ Phi ^ (p / 2) | \], где \ (\ Phi ^ \) - обратная интегральная функция распределения нормального распределения.

Шаг 3 - Контроль качества и выравнивание аллелей относительно контрольной панели

На шаге 2 весь недавно загруженный файл сводной статистики GWAS должен быть в едином формате, с которым легко работать. Следующим шагом является выполнение контроля качества SNP, т. Е. Удаление SNP, которые могут испортить ваш анализ. Мы рекомендуем применить следующие 8 шагов фильтрации:

Удалите все небаллельные SNP

Удалите все SNP с неоднозначными аллелями (SNP с аллелями A / T, C / G)

Удалены SNP без идентификаторов rs, дублированных идентификаторов rs или положения пары оснований.

Удалены SNP, которых нет в фазе 3 проекта 1000 Genomes (или в любой другой справочной панели, которую вы используете).

Удалены SNP, чьи положения пары оснований или аллели не совпадают с таковыми в 1000GP Phase 3 (или любой другой контрольной панели)

Удалены SNP с условным исчислением INFO менее 0,9 (если предоставляется INFO)

Удалены все SNP на хромосомах X, Y и MT.

Удалены SNP с размером выборки на 5 стандартных отклонений от среднего. (Это сделано для защиты от сценариев, в которых некоторые SNP были генотипированы на специализированном массиве генотипов и имеют значительно больше образцов, чем остальные.)

Результаты этого шага можно сохранить в каталоге с именем 3_Filtered.

В дополнение к фильтрации SNP также удобно выровнять аллели (аллель эффекта и аллель без эффекта) каждого SNP всех обработанных данных сводной статистики GWAS с таковыми из справочной панели, чтобы каждая сводная статистика GWAS имела одинаковый аллель эффекта , и неэффективный аллель. В процессе может потребоваться перевернуть знак Z-оценок (также размер эффекта, логарифмическое отношение шансов и т. Д.), Если аллели SNP в сводной статистике противоположны аллелям контрольной панели. Например, если SNP имеет аллели эффекта / отсутствия эффекта как A / G и Z-оценку 1,0 в сводной статистике, а аллели эффекта / отсутствия эффекта как T / C в контрольной панели, тогда можно изменить аллели A / G для T / C и Z-оценка до -1,0.

Шаг 4 - Убедитесь, что все сделано правильно

После шага 3 файл сводной статистики должен быть готов к работе с LDSC. Чтобы убедиться, что файл сводной статистики отформатирован правильно, можно запустить LDSC кросс-признаков, чтобы увидеть, находится ли генетическая корреляция между парой признаков в пределах ожидаемых. Также полезно, чтобы ваши коллеги по лаборатории просмотрели конвейер, чтобы убедиться в правильности.

Вывод

Форматирование данных сводной статистики GWAS может быть сложной задачей, учитывая различные типы форматов данных и количество подводных камней, которые могут испортить ваш анализ. Эта страница служит для предоставления некоторых советов, личных идей по форматированию данных и предотвращения неожиданностей.