Набор данных BigQuery Reddit: сбор комментариев из сабреддитов?

Очень новичок в BigQuery и SQL в целом! Я нашел этот удивительный набор данных комментариев Reddit в Интернете (https://bigquery.cloud.google.com/table/fh-bigquery:reddit_comments.2015_05) и хотел бы провести качественный анализ комментариев.

Вопрос. Как сузить поиск до получения только комментариев и временных меток в сабреддитах r/рак и сабреддитах r/диабет? Какой именно запрос мне следует использовать?

Я знаю, что это, наверное, очень просто, но я потратил на это последние 4-5 часов и до сих пор не могу понять...


person aaidentity    schedule 08.09.2016    source источник


Ответы (1)


SELECT subreddit, COUNT(*) c
FROM [fh-bigquery:reddit_comments.2015_05] 
WHERE subreddit IN ('cancer', 'diabetes')
GROUP BY 1
LIMIT 1000

Query complete (1.6s elapsed, 595 MB processed)

Row subreddit   c    
1   diabetes    6508     
2   cancer      1923     

Для необработанных комментариев и временных меток:

SELECT subreddit, created_utc, body
FROM [fh-bigquery:reddit_comments.2015_05] 
WHERE subreddit IN ('cancer', 'diabetes')
LIMIT 10
person Felipe Hoffa    schedule 08.09.2016
comment
Это работает, Фелипе! Спасибо вам огромное за помощь в этом! Я очень ценю это! - person aaidentity; 09.09.2016