Ресурси за намиране на набори от данни, подходящи за вашите нужди.

Докато преглеждах списъка на статиите, които съм написал до момента, открих, че доста са свързани с концепцията за придобиване на набори от данни за задачи в областта на науката за данни. Някои от тези статии са насочени към намиране на добри уебсайтове за набори от данни, докато други разглеждат начини за създаване на персонализирани набори от данни. Тази статия е компилация от различни концепции, разгледани в различни статии. Човек може да мисли за това като за обобщаване на множество техники, като същевременно се свързва обратно към оригиналните статии.

1. Разширено търсене с Google

Търсенето с Google е най-често срещаният начин за търсене на набор от данни. Но знаете ли, че можете да персонализирате заявката за търсене, за да получите точни резултати и то по-бързо? В тази статия разглеждаме три начина за оптимизиране на нашето търсене в интернет.

Връзка:Разширено търсене с Google

2. Полезни сайтове за намиране на масиви от данни за задачи за анализ на данни

Търсенето с Google е страхотно, но има и специални сайтове, които съдържат набори от данни с добро качество. Тази статия изброява пет такива набора от данни с подробни видео инструкции как да получите достъп до тях. Не се безпокой; Изоставих често срещаните като UCI Machine Learning Repository, Kaggle datasets и Data.gov и вместо това ви предоставих някои от по-малко известните.

Връзка: Полезни сайтове за намиране на набори от данни за задачи за анализ на данни

3. Пет набора от данни от реалния свят за усъвършенстване на вашите умения за проучвателен анализ на данни

Ако искате да се потопите направо в анализа, без да търсите наборите от данни, тази статия ще ви бъде полезна. Изброих пет набора от данни, които са идеални за извършване на добра EDA и визуализация. Можете да анализирате набора от данни за заплатите или доклада от клиничните изпитвания или дори данните за въздушния трафик. Черешката на тортата е, че всички те са налични в Kaggle, така че трябва само да завъртите бележник, за да започнете.

Връзка:5 набора от данни от реалния свят за усъвършенстване на вашите умения за проучвателен анализ на данни

4. Създаване на персонализирани набори от данни за изображения

Ако се интересувате от задълбочено обучение и искате да работите върху проект, използвайки вашите набори от данни, тогава в тази статия споделям пет разширения на браузъра, които улесняват масовото изтегляне на изображенията. Уверете се обаче, че не изтегляте изображения, които нарушават условията за авторско право.

Връзка:Създаване на набори от персонализирани изображения

5. Извличане на данни от HTML таблици

Понякога наличните в интернет набори от данни се представят под формата на HTML таблици. Понякога такива таблици обикновено са дълги и се разпръскват по цялата уеб страница. Освен това данните, налични в такива форми, могат да бъдат динамични, т.е. актуализирани на редовни интервали. В резултат на това не винаги е полезно да го копирате и поставите в листа на Excel. Остъргването е алтернатива, но има дори по-прост начин. В Google Таблици има удобна функция, наречена IMPORTHTML, , която е идеална за импортиране на данни от таблица или списък в рамките на HTML страница. Тази статия описва процеса от край до край на извличане на таблици (и списъци) в Google таблици.

Връзка: Импортирайте HTML таблици в Google Таблици без усилие.

6. Извличане на данни от PDF файлове

Извличането на таблични данни от PDF файлове е трудно. Но още по-големият проблем е, че много отворени данни са достъпни като PDF файлове. Тези отворени данни са от решаващо значение за анализ и получаване на жизненоважни прозрения. Достъпът до такива данни обаче се превръща в пречка. В тази статия обсъждам Camelot — библиотека на Python с отворен код, която може да ви помогне лесно да извличате таблици от PDF файлове. Освен това има уеб интерфейс, наречен Excaliburза хора, които не искат да кодират, но все пак искат да използват функциите на библиотеката.

Връзка:Извличането на таблични данни от PDF файлове става лесно с Camelot

7. Извличане на информация от XML файлове

Научихме се да боравим с данни под формата на HTML таблици и PDF файлове. Има друга категория данни под формата на XML файлове, които трябва да бъдат обработени, преди да могат да бъдат използвани. XML означава Extensible Markup Language. Както подсказва името, това е език за маркиранекойто кодира документи чрез дефиниране на набор от правила както в машинно четими, така и в четими от хора формати. В тази статия излагам стъпките за конвертиране на XML данни в готов за анализ CSV файл, достатъчно добър, за да бъде погълнат в библиотеката на pandas за по-нататъшен анализ.

Връзка:Извличане на информация от XML файлове в рамка с данни на Pandas

8. Четене на данни от клипборда в рамка с данни на pandas

Тази статия е за една много интересна функция, наречена read_clipboard() методът на pandas създава рамка от данни от данни, копирани в клипборда.Тойчете текст от клипборда и го предава на read_csv(), който след това връща анализиран DataFrame обект.

Връзка: От клипборда към DataFrame с Pandas

Заключение

Тази статия демонстрира множество техники за изтегляне на набори от данни. Някои от тези техники трябва да ви бъдат полезни, когато се осмелите да намерите набори от данни за следващия си проект. Като алтернатива можете също да създадете свои собствени набори от данни и да извършите смислен анализ от изтеглените данни. Небето е границата!