Идеи за диаграми на статистическа анкета

Имам някои домашни задачи в тематични анкети и диаграми. Първата задача е да се нормализира въвеждането на проучване, тъй като структурата на данните се променя от време на време. Така че има три вида проучвания:

  • статични полета, където се съхранява текст
  • динамични, където потребителят може да избере една опция
  • и полета за множествен избор, където потребителят може да избере множество опции

Така че аз не съм наистина човек със статистиката, така че наистина нямам представа какво мога да направя с тези входящи данни.

Така че данните, които имам, се съхраняват в огромен XML файл, оттам мога лесно да разбера колко пъти е попълнено дадено проучване и колко пъти е попълнено поле, така че мога (напр. на кръгова диаграма да покажа отношението на попълнените или не е попълнено). Втората идея е да се покаже връзката между съдържанието на елемент с множество опции, като се използва стълбовидна диаграма или така.

В случай на многоопционалните елементи имам идеята да покажа данни в импликация на една опция. Но въпросът е какво може да се покаже?

Другият проблем са статичните елементи (текстови полета и т.н.). Какви данни могат да бъдат представени от едно поле?

Данните в XML полето се събират от 2001 до 2005 г. Така че може би мога да работя с датите на проучванията, но както казах, всъщност не знам как да обработя данните, да събера колкото е възможно повече, да създам наистина голямо количество диаграми.


person therufa    schedule 02.01.2011    source източник


Отговори (2)


След нормализиране на вашите данни (което може да е по-трудно от визуализирането на частта от вашата работа), можете да направите следното:

  • За да покажете статичните си полета, които съдържат текстове, можете да прекодирате този текст в нови променливи, съдържащи по-малко категории, които могат да се поберат в графика/графика. Друг начин е да направите облаци от думи на текстовете - като на wordle.net.
  • Динамичните полета, всяко от които съдържа само един отговор, могат да бъдат най-лесни за показване. Можете да направите кръгова диаграма, за да покажете процентите на атрибутите, или по-скоро стълбовидна диаграма, която също може да показва проценти/плътности или честоти (напр. вижте ggplot2 пакет в R).
  • За да покажете полетата за множествен избор, трябва да преструктурирате датата в подходящия формат (не знам как изглежда сега). Това може да стане чрез различни таблици, които показват броя (честотите) за всяка категория във всички променливи. Например: 187 души ядоха шоколад, 160 ядоха хляб и 50 души ядоха пица вчера. След това можете лесно да покажете стойностите чрез лентова диаграма. Внимавайте: сумата от тези стойности няма да е равна на размера на извадката, тъй като всеки може да избере множество стойности, така че кръговата диаграма би била наистина лош избор.

Надявам се да мога да помогна.

person daroczig    schedule 08.01.2011

Не бих препоръчал кръгови диаграми. Вместо това използвайте стълбовидни диаграми или точкови графики. В тях е много по-лесно да се разграничат сходни честоти за различни категории. Подреждането на категориите по честоти в тях също е почти винаги добра идея. Тук можете да намерите кратка статия за това защо Кръговите диаграми са лоши.

3D диаграмите може да изглеждат добре и са чудесен начин да впечатлите хората с малко познания относно визуализацията на данни (което може да е това, от което се нуждаете ;-)). Но те се считат за лоша практика от повечето експерти, тъй като използването на допълнителни измерения, които не са абсолютно необходими, отвлича вниманието на читателя от действителните данни.

Лично аз смятам, че кръстосаните таблици и точковите диаграми са доста разбираеми начини за показване на връзки между две измерения на данните.

Често е добра идея да докладвате някои основни статистически данни заедно с диаграми, но се уверете, че правите това само когато е подходящо. Вижте тази статия в Уикипедия, ако искате да научите кои са едномерните статистики (като средна стойност например) подходящи за кои данни.

Ако сериозно искате да научите за визуализацията на данни, мога горещо да препоръчам книгите на Едуард Тъфт относно темата. Наистина е удоволствие да се четат. Въпреки че стоят на солидна научна основа, те са лесни за разбиране, дори и с малък или никакъв опит в областта.

Успех, Алекс

person AlexDPC    schedule 09.01.2011