Dari kursus: Mempelajari Analitik Data: Dasar-Dasar 1

Mempelajari bidang dan jenis data

Dari kursus: Mempelajari Analitik Data: Dasar-Dasar 1

Mempelajari bidang dan jenis data

- [Instruktur] Ada tiga hal penting yang perlu diketahui tentang titik data. Ini memiliki nama bidang, tipe data, dan nilai. Apa yang kebanyakan orang lihat sebagai data sebenarnya adalah nilai. Nilai adalah apa yang kami masukkan, ekspor, dan laporkan. Jika Anda pernah memasukkan data pada formulir dan formulir meminta nama depan, maka Anda memasukkan nilai nama depan Anda. Bagi saya, itu adalah Robin dan itu adalah teks. Nilai untuk setiap bidang adalah pertimbangan utama tentang cara kita menentukan tipe data. Di dunia yang sempurna, nama bidang akan dirancang agar bermakna, tipe data akan didefinisikan berdasarkan apa yang ditafsirkan otak kita dan nilai-nilainya akan selalu dimasukkan dengan sempurna. Saat Anda menjelajah ke kehidupan sehari-hari seorang analis data, Anda akan menemukan dunia tidak sempurna dan data tidak selalu, seperti yang terlihat. Nama bidang dapat berupa label informasi yang luas seperti, Nama Depan, Nama Belakang, atau Jabatan. Kami sekali lagi berharap nama-nama bidang dinamai dengan penuh makna. Sadarilah, itu tidak selalu terjadi. Orang-orang menyebut nama bidang, header kolom dan biasanya diwakili oleh baris atas dan biasanya di Excel minimal dicetak tebal. Tipe data mendorong apa yang dapat dan harus kita lakukan dengan data saat kita bekerja dengannya. Semua data memiliki jenis. Untuk menyederhanakan perincian ini, saya ingin Anda memahami pada tingkat tinggi data hanya memiliki beberapa jenis, itu teks, angka, atau tanggal. Seiring waktu, Anda akan belajar bahwa itu memang lebih dalam dari itu, tetapi kita baru saja memulai. Saat Anda mengekspor data keluar dari sistem, kemungkinan besar data tersebut disimpan dalam database. Tabel database didefinisikan untuk kita oleh orang yang mengembangkan database. Anda akan melihat nama bidang dibuat, Anda akan mengatakan ada tipe data yang terkait dengannya. Mari kita lihat kunci alternatif ID nasional karyawan. Anda dapat melihat nama bidangnya, Anda juga dapat melihat tipe datanya adalah Teks Pendek tetapi ketika kita melihat data itu sendiri, jelas terlihat seperti angka. Juga sedikit trik perdagangan. Angka secara default selalu disejajarkan ke kanan dan teks selalu disejajarkan ke kiri. Jadi ketika saya melihat sekelompok angka yang sejajar ke kiri, saya secara otomatis tahu bahwa itu percaya bahwa itu adalah teks. Saat data ini diekspor, data ini akan mengikuti jenis data bagaimana data tersebut disimpan. Mari kita lihat. Jadi inilah data dari tabel itu. Dan jika Anda melihat kunci alternatif ID nasional karyawan, Anda melihat pengangkatan sejajar, dan ada juga bendera hijau. Jika Anda mengklik salah satu penjualan tersebut dan Anda mengklik informasi kecil, Anda akan melihat bahwa itu adalah angka yang disimpan sebagai teks dan Anda juga memiliki kemampuan untuk mengubahnya menjadi angka. Sekali lagi, Anda melihat ini sejajar kiri dan semua angka lainnya sejajar kanan. Anda tidak selalu memiliki akses ke desain backend, tetapi Anda dapat melihat informasi dan menentukan apa yang Anda yakini tipe datanya. Misalnya, jika Anda melihat warna sebagai nama bidang dan nilainya adalah kata merah, dan saya bertanya kepada Anda yang mana dari tipe data tingkat tinggi itu, Anda mungkin akan mengatakan kata atau teks. Anda bahkan mungkin mendengar orang menyebutnya sebagai string. Jika saya menunjukkan kepada Anda satu, lima atau 45.981, Anda akan mengatakan itu adalah angka. Jika Anda melihat data seperti 20/11/2025, sebagai manusia, Anda dapat langsung menafsirkannya sebagai tanggal karena Anda memikirkan kalender, janji temu, ulang tahun seseorang. Ketika Anda melihat data dan Anda berpikir tentang apa sebenarnya itu, Anda sebenarnya memikirkan tipe data. Analis data telah tumbuh untuk memahami bahwa di sinilah mulai menjadi rumit apa yang dilihat mata kita dan apa yang dikatakan program tidak selalu sama. Ketika kita bekerja dengan data di Excel atau di database, dan data itu ditentukan oleh sistem, apa yang Anda lihat tidak persis seperti yang didefinisikan atau disimpan. Bagaimana jika saya memberi tahu Anda bahwa 20/11/2025 dan 45.981 ke Excel adalah hal yang persis sama. Formatnya yang membuat perbedaan. Izinkan saya menunjukkan kepada Anda. Saya akan mengklik B2 dan jika saya naik ke atas, perhatikan itu menunjukkan kepada saya nomor, nomor, nomor dan kemudian ketika saya sampai pada tanggal pendek, perhatikan bahwa tertulis 11/20/2025. Anda mungkin pernah melihat ini sebelumnya. Terkadang ketika Anda mengetik sesuatu di Excel dan Anda bermaksud satu hal dan itu menafsirkannya sebagai tanggal, misalnya, yang Anda maksud adalah seperempat seperti dalam satu perempat. Anda mengetik pecahan, perhatikan apa yang terjadi di Excel. Jadi saya akan mengetik 1/4 saya. Sekali lagi, maksud saya seperempat. Excel segera menafsirkan ini sebagai 4 Januari. Saat Excel percaya bahwa yang Anda maksud adalah tanggal, itu memformat informasi itu sebagai tanggal. Jadi Anda sebenarnya bermaksud pecahan dan Excel mengembalikan tanggal. Jangan khawatir, itu tidak hanya terjadi pada Anda, para ilmuwan yang mempelajari gen manusia telah mengganti nama sekitar 27 gen manusia karena fakta bahwa Excel salah membaca gen seperti 1 Maret dan 1 September sebagai 1 Maret dan 1 September. Yang penting untuk dipahami adalah, apa yang sebenarnya dilakukan Excel adalah memformat apa yang diyakini sebagai nomor seri untuk menampilkan tanggal. Karena formatnya, kita melihat versi manusia dari tanggal. Mengapa? Sekali lagi, itu karena Excel mengubah tanggal menjadi nomor seri sehingga dapat menggunakannya secara matematis. Untuk memperbaiki pemformatan ini, Anda harus pergi dan mengubah format kembali ke angka atau umum. Dan bagi sebagian orang, ini adalah eksposur maksimum ke tipe data. Izinkan saya menunjukkan kepada Anda bagaimana melakukannya. Jadi saya akan mengklik penjualan ini, saya akan pergi ke nomornya dan saya akan melanjutkan dan mengubahnya menjadi umum atau angka. Dan saya akan melanjutkan dan mengurangi desimal itu. Tipe data umum yang harus diketahui analis data atau teks atau string, tanggal, waktu, angka, dan Boolean yang mungkin terlihat seperti benar atau salah, ya atau tidak. Jika Anda bekerja dalam program seperti Microsoft Access, itu sebenarnya negatif satu atau nol tetapi kemudian alat seperti SQL itu satu atau nol. Teknologi yang berbeda memiliki jenis data yang berbeda. Misalnya, database akses memiliki daftar tipe data yang sangat pendek atau database SQL akan memiliki banyak jenis yang berbeda untuk dipilih. Tetapi pada akhirnya, mereka masih menggulung tanggal, teks, angka, atau Boolean tingkat tinggi. Kenyataannya adalah bahwa terlalu sering nama bidang tidak berarti, tipe data mungkin tidak seperti yang Anda harapkan dan nilai ketika dikunci oleh manusia, tidak selalu dimasukkan dengan benar. Namun, untuk analis yang sedang naik daun atau hanya pekerja data yang ada, ini adalah fakta kehidupan dan dalam beberapa kasus, keamanan kerja.

Konten