1. Анализ данных научной публикации факультета Булаканского государственного университета на основе Google Scholar с использованием метода парсинга веб-данных (arXiv)

Автор: Джейсон М. Викториано, Хайме П. Пулумбарит, Луисито Лолонг Лакатан, Ричард Альберт С. Саливио, Рика Луиза А. Баравид

Аннотация: Целью статьи является анализ и мониторинг продуктивности научных публикаций преподавателей Булаканского государственного университета. В этом документе собраны все научные публикации Булаканского государственного университета (БулГУ) и его внешних кампусов в виде указателя в Google Scholar. Это исследование было предназначено для отслеживания и мониторинга научной продуктивности преподавателей Булаканского государственного университета, а также каждого колледжа и кампуса.

2. Разработка системы оповещения об обновлении продуктов для пользователей веб-сайтов электронной коммерции с использованием данных HTML и технологии парсинга веб-страниц (arXiv)

Автор:Икечукву Оньенве, Эбеле Оньединма, Чидинма Нвафор, Обинна Агбата

Вывод:Веб-сайты рассматриваются как домены безграничной информации, к которой может получить доступ каждый и каждый. Новые тенденции в области технологий заставили нас изменить то, как мы ведем наш бизнес. В настоящее время Интернет быстро становится новым местом для бизнеса, и развитие этой технологии привело к появлению множества веб-сайтов электронной коммерции. Это упростило образ жизни маркетологов/продавцов, розничных продавцов и потребителей (в совокупности рассматриваемых как пользователи), поскольку предоставляет удобные платформы для продажи/заказа товаров через Интернет. Это также требует, чтобы пользователям приходилось тратить много времени и усилий на поиск лучших предложений продуктов, обновлений продуктов и предложений на веб-сайтах электронной коммерции. Им приходится самостоятельно фильтровать и сравнивать результаты поиска, что занимает много времени и может привести к неоднозначным результатам. В этой статье мы применили методы веб-сканирования и парсинга на веб-сайте электронной коммерции, чтобы получить данные HTML для идентификации обновлений продуктов на основе текущего времени. Данные HTML предварительно обрабатываются для извлечения сведений о продуктах, таких как название, цена, дата и время публикации и т. д., чтобы служить полезной информацией для пользователей.

3. О моделях пространственного отставания, оцененных с использованием краудсорсинга, веб-скрейпинга или других нетрадиционных данных (arXiv)

Автор:Джузеппе Арбиа, Винченцо Нарделли

Аннотация:революция больших данных бросает вызов современным статистическим и эконометрическим методам не только из-за вычислительной нагрузки, связанной с большим объемом и скоростью, с которой генерируются данные, но даже в большей степени из-за различные источники, из которых собираются данные (Arbia, 2021). В настоящей статье особое внимание уделяется этому последнему аспекту. Типичными примерами нетрадиционных источников больших данных являются краудсорсинг (данные, добровольно собранные отдельными лицами) и веб-скрапинг (данные, извлеченные с веб-сайтов и преобразованные в структурированный набор данных). Общей характеристикой этих нетрадиционных сборов данных является отсутствие какой-либо точной статистической схемы выборки, что в статистике описывается как «удобная выборка». Как известно, в этих условиях вероятностный вывод невозможен. Чтобы решить эту проблему, Arbia et al. (2018) предложили использовать особую форму пост-стратификации (называемую «пост-выборка»), с помощью которой данные обрабатываются до их использования в логическом контексте. В этой статье мы обобщаем этот подход, используя ту же идею для оценки модели пространственного отставания (SLM). Мы начинаем показывать с помощью исследования Монте-Карло, что при использовании данных, собранных без надлежащего дизайна, оценки параметров могут быть необъективными. Во-вторых, мы предлагаем стратегию пост-выборки для решения этой проблемы. Мы показываем, что предлагаемая стратегия действительно обеспечивает уменьшение смещения, но за счет сопутствующего увеличения дисперсии оценок. Таким образом, мы предлагаем оперативную стратегию коррекции MSE. В документе также содержится формальный вывод увеличения дисперсии, связанный с процедурой пост-выборки, и завершается эмпирическим применением метода для оценки гедонистической ценовой модели в городе Милан с использованием данных из Интернета.

4. Сбор данных, сбор и моделирование: перенос данных с cars.com в класс вводной статистики (arXiv)

Автор: Сара Макдональд, Николас Джон Хортон.

Аннотация. Новые инструменты значительно облегчили учащимся развитие навыков работы с интересными наборами данных, когда они начинают извлекать смысл из данных. Чтобы в полной мере оценить цикл статистического анализа, учащиеся получают пользу от многократного сбора, обработки, обработки, анализа данных и сообщения результатов. Как мы можем принести такие возможности в класс? Мы описываем классное задание, изначально разработанное Дэнни Капланом (Макалестерский колледж), в котором учащиеся могут расширять возможности решения статистических задач, вручную собирая данные с cars.com, загружая эти данные в R, а затем выполняя анализ взаимосвязей между ценой и ценой. , пробег и год выпуска для выбранного типа автомобиля.