Preparar datos

– Cómo se recopilan los datos
Los datos los dio Cyclistic en esta URL: https://divvy-tripdata.s3.amazonaws.com/index.html, y sería entendible que los datos fueran Confiables, Originales, Completos, Actuales y Citados (COCAC). Sin embargo, después de revisar los datos, es fácil ver que hay algunos problemas.
No hay mucha información sobre cómo se recopilan los datos, se menciona que las bicicletas se rastrean geográficamente, pero no se menciona una aplicación. No puedo saber cómo se adquirieron los datos relacionados con la hora del viaje o el estado de la membresía.
– Identificar datos (formatos y tipos)
Los datos se dividen en 12 CSV, uno para cada mes, aunque hubo 19 CSV compilados durante 1 año y 8 meses de datos. Estos fueron los archivos que usé originalmente hasta la fase de Análisis. Cada CSV contiene 13 columnas:-
ride_id-(datos en formato string)
-
rideable_type-(datos en formato string), (classic_bike, electric_bike y docked_bike)
-
started_at-(datos en formato string), año-mes-día hora:minuto:segundo
-
ended_at-(datos en formato string), año-mes-día hora:minuto:segundo
-
start_station_name-(datos en formato string)
-
start_station_id-(datos en formato string) excepto para el mes de noviembre (datos en formato integer)
-
end_station_name-(datos en formato string)
-
end_station_id-(datos en formato string) excepto para el mes de noviembre (datos en formato integer)
-
start_lat-(datos en formato float point)
-
start_lng-(datos en formato float point)
-
end_lat-(datos en formato float point)
-
end_lng-(datos en formato float point)
-
member_casual-(datos en formato string), (miembro, casual)
– Verificar la credibilidad de los datos
Esta parte es un poco larga, por lo que puedes ver el resto en el documento adjunto a continuación, donde encontrarás el resto de este paso: Preparar datos.
Powered By EmbedPress
Road path vector created by jcomp for Freepik