Belajar Rancangbangun Network Time Protocol (NTP) Server Stratum 1 (Studi kasus Microsemi/Microchip S650)

Bismillah,

Pada kesempatan ini kami ingin berbagi pengalaman ketika rancangbangun Network Time Protocol (NTP) Server Stratum 1.

Latar belakang :

  1. Kebutuhan aplikasi/sistem bisnis yang membutuhkan waktu yang akurat dan presisi (orde waktu sama dengan atau dibawah miliseconds)
  2. Sistem NTP yang dibangun harus memiliki service level agreement (SLA) yang tinggi
  3. Protokol yang digunakan selain NTP akan juga diimplementasikan Precision Time Protocol (PTP-IEEE 1588) dimasa yang akan datang
  4. Fitur keamanan (Jika ada)

Topologi lojikal dari kebutuhan kami saat itu adalah sebagai berikut :

(Gambar-1, Topologi Lojikal yang digunakan)

Kami memiliki dua area datacenter didua lokasi yang berbeda yaitu Main Datacenter (DC) dan Disaster Recovery Center (DRC), DC dan DRC kami memiliki konfigurasi yang serupa 1:1 dan berada dalam jaringan private network. Sebagai informasi client yang akan menggunakan NTP terdiri dari server fisik, virtualisasi, Perangkat storage, Perangkat Network, Perangkat Security dan lain sebagainya, jika dihitung asumsi dibawah +/- 1000 node. Keseluruhan node tersebut harus mendapatkan layanan NTP yang akurat dan presisi.

Dilain hal sistem yang dirancang harus memiliki service level agreement (SLA) yang tinggi, oleh sebab itu kami meminta beberapa vendor untuk melakukan presentasi, Proof of Concept (PoC), Diskusi dan memberikan rekomendasi yang sesuai dengan kebutuhan kami. Dari hasil kegiatan tersebut kami memutuskan untuk menggunakan skenario berikut :

  1. Setiap datacenter terdiri dari dua box perangkat NTP
  2. Setiap box perangkat NTP memiliki peripheral yang redundant (contoh dual power supply, dual antenna dll) jika memungkinkan
  3. Internal clock menggunakan Rubidium (Rb),
  4. Setiap Box NTP terhubung ke antenna sendiri
  5. Antenna support dengan multi-constellation e.g GPS, GLONASS, BeiDou and Galileo
  6. Fitur keamanan pada Box NTP

Kami juga melakukan diskusi/kunjungan ke Lembaga Ilmu Pengetahuan Indonesia (LIPI) terkait dengan implementasi NTP ini. Sebagai informasi bahwa LIPI memiliki sumber Atomic Clock [2]

(Gambar-2, Kunjungan ke LIPI)

Setelah serangkaian kajian terhadap produk yang akan kita beli kami memutuskan untuk menggunakan produk dari Microsemi/Microchip S650, spesifikasi bisa dilihat pada Ref [1],selain perangkat box NTP kita harus membeli juga peripheral pendukung seperti antenna, kabel coax, Lighting Arrester, Inline Amplifier, Splitter 1: 4 dan lain-lain.

(Gambar-3, Tools antenna configurator dari Microsemi/Microchip)

Paralel dengan proses pembelian perangkat kami melakukan diskusi dengan provider Datacenter terkait dengan rencana implementasi kami tersebut, ada beberapa kendala pada saat itu seperti provider Datacenter (DC) tidak mengizinkan kami menyimpan antenna diatas top roof gedung mereka, alternatif mereka memberikan tempat lain yang dapat dipakai untuk menyimpan antenna akan tetapi terdapat kendala lain yaitu posisi tempat baru tidak Line of Sight (LOS) dan tidak memiliki grounding petir.

(Gambar-4, Proses survei Lokasi)

Gambar-4, menunjukan proses survei lokasi penempatan antenna, walaupun posisi tidak ideal akan tetapi receiver menunjukan hasil yang diinginkan.

(Gambar-5, Proses pembuatan grounding)

Gambar-5, menunjukan proses pengukuran tahanan grounding yang baru dibuat.

(Gambar-6, Posisi final Antenna di DC)

Lain halnya diarea DRC, di DRC kami diperbolehkan menyimpan antenna diatas top roof gedung Provider DRC akan tetapi masalah baru muncul yaitu intermittent loss signal pada receiver, kami berasumsi ada indikasi posisi antenna kami terlalu dekat dengan Transceivers antenna tenant yang lain.

(Gambar-7, Posisi Awal atenna diarea DRC)

Dengan alasan tersebut dan keterbatasan kami yang tidak memiliki alat bantu ukur untuk mengecek interferensi sinyal, maka kami beberapa kali melakukan reposisi antenna.

(Gambar-8, Reposisi antenna diarea DRC)
(Gambar-9, Posisi final antenna diarea DRC)

Kendala lain adalah kedua provider DC dan DRC hanya memperbolehkan menyimpan satu unit antenna sehingga perlu penyesuaian unit outdoor ke unit indoor. Sehingga posisi menjadi Antenna –> Inline Amplifier –> Lighting arrester –> cabel Coax –> Splitter 1:4 –> Perangkat Indoor (Lihat Gambar-1 sebagai referensi).

Jangan lupa juga menyambungkan chasis perangkat ke grounding gedung.

(Gambar-10, Contoh Dashboard Perangkat NTP)
(Gambar-11, Contoh Dashboard Perangkat NTP)

Setelah proses instalasi perangkat outdoor dan indoor selesai jangan lupa melakukan Power Acceptance Test (PAT), User Acceptance Test (UAT) dan juga Negatif Test.

Sekian pengalaman kami dan terimakasih.

Referensi :

[1]. Spesifikasi Microsemi S650 https://www.microsemi.com, diakses Mei 2021

[2]. Jam atom dan manfaat standardisasi waktu, http://lipi.go.id, dikases Mei 2021

Belajar Mengkonfigurasi SAN Switch (Studi Kasus San Switch Brocade)

Gambar 1 (Topologi yang digunakan)

Pada kesempatan ini saya mau berbagi pengalaman mengkonfigurasi SAN Switch (Studi kasus Brocade). Kebetulan perangkat merupakan perangkat lama (Pembelian sekitar 2012-2013) yang mau digunakan kembali untuk pengujian sistem aplikasi baru. Perangkat yang digunakan adalah sebagai berikut :

  1. Dua unit Blade HPE BL-460-G6 (Terinstal VMware ESXi 6.X)
  2. Enclosure HPE C3000
  3. Dua Interconnect Network Switch
  4. Satu Interconnect SAN Switch Brocade
  5. Satu San Switch Brocade
  6. Storage HPE P2000 G3 (Usable 12 TB)

Tujuan dari konfigurasi ini adalah agar storage HPE P2000 G3 sebesar 12 TB dapat dikenali sebagai Datastore di dua unit Blade HPE BL-460-G6 yang sebelumnya sudah terinstal VMware ESXi 6.x. Akan tetapi konfigurasi kali ini hanya terfokus ke konfigurasi di perangkat SAN Switch, sebagai informasi pada gambar satu ada dua unit SAN Switch, yang pertama interconect SAN Switch Brocade yang di konfigurasi dengan rule subordinate dan yang kedua SAN Switch Brocade yang di konfigurasi rule Principal. Untuk memulai konfigurasi alangkah baiknya kita mengetahui informasi wwn dari perangkat yang akan dikonfig. Untuk langkah-langkah kami mengambil referensi dari tautan berikut :

ref [1], diakses April 2021

Sedangkan untuk konfigurasi kami adalah sebagai berikut :

!enable_port
portcfgpersistentenable

!buat alias wwn_host_x
alicreate host_x_1,50:01:43:80:04:c2:60:4d
alicreate host_x_2,50:01:43:80:04:c2:60:4c
alicreate host_x_3,50:01:43:80:04:c2:60:4f
alicreate host_x_4,50:01:43:80:04:c2:60:4e

!buat alias wwn_host_y
alicreate host_y_1,50:01:43:80:04:c2:55:19
alicreate host_y_2,50:01:43:80:04:c2:55:18
alicreate host_y_3,50:01:43:80:04:c2:55:1b
alicreate host_y_4,50:01:43:80:04:c2:55:1a

!buat alias wwn_P2000_LTVTSTO01
alicreate P2000_LTVTSTO01,20:80:00:c0:ff:13:c5:40

!buat alias wwn_san_switch
alicreate sansw_dwh, 10:00:00:05:33:ab:80:ee
alicreate sansw_c3000, 10:00:50:eb:1a:67:c3:93

!create_zone
zonecreate z_VT, “host_x_1;host_x_2;host_x_3;host_x_4”

!add_members_zone
zoneadd z_VT,”host_y_1;host_y_2;host_y_3;host_y_4″
zoneadd z_VT,”sansw_dwh;sansw_c3000″
zoneadd z_VT,”P2000_LTVTSTO01″

!create config
cfgcreate cfg_VT,z_VT
!save config
cfgsave
!enable config
cfgenable cfg_VT

Setelah konfigurasi di SAN SWITCH selesai, tinggal menambahkan (add storage) di ESXi nya :

Gambar 2 (Proses penambahan Datastore)

Sekian dan mudah-mudahan dapat bermanfaat.

Menambahkan Online HDD Dalam RAID Group (Studi Kasus Server HP)

Bayangkan suatu kondisi server dimana empat unit HDD yang identik kita setting dalam satu RAID group menggunakan RAID-5.

a
Gambar-1 (Ilustrasi Fisik HDD, warna Hijau mengilustrasikan Logical Volume RAID)

Salah satu HDD dari RAID group tersebut tiba-tiba mengalami kerusakan!, sistem monitoring memberitahukan bahwa ada failure diserver tersebut, tetapi anda cuek tidak menanggapinya dan malah asik mengecek email, karena anda yakin walaupun salah satu HDD mengalami kerusakan, server masih dapat berjalan dengan baik menggunakan tiga unit HDD tersisa, tetapi lamunan anda buyar tatkala bos anda segera memberitahukan bahwa server tersebut tidak bisa diakses sama sekali. Server tidak bisa booting dan Corrupt, selidik punya selidik, Group RAID-5 HDD server anda tidak hanya mengalami satu HDD failure akan tetapi mengalami kerusakan HDD yang lain.

Gambar-1 (Ilustrasi 2 unit HDD rusak)
Gambar-1 (Ilustrasi 2 unit HDD rusak)
Gambar-3 (Contoh log dalam keadaan nyata, dua HDD rusak)
Gambar-3 (Contoh log dalam keadaan nyata, dua HDD rusak)

Kejadian ini sering kita sebut dengan ungkapan “Sh*t Happens”, kejadian yang hanya dapat terjadi dalam skala 1:100 tapi tetap mungkin terjadi!. “Mencegah lebih baik daripada mengobati” mungkin pepatah ini bisa kita implementasikan juga didunia IT, kali ini pepatah tersebut kita akan coba diserver khususnya dalam kinerja RAID Hardisk.

Gambar-4 (Ilustrasi Penambahan Online HDD)
Gambar-4 (Ilustrasi Penambahan Online HDD)

Setelah kejadian ini tim infrastruktur segera menggelar rapat untuk menyingkapi permasalahan tersebut. Dari rapat didapatkan suatu rencana perbaikan dengan menambahkan satu HDD sebagai online HDD atau sering kita dengar dengan sebutan HDD spare, Online HDD ini akan menggantikan HDD yang failure sampai dengan HDD yang rusak tersebut diganti dengan yang baru. Proses usulan perbaikan ini tidak boleh merestart atau menshutdown server dilingkungan production.

Kali ini kita akan belajar untuk menambahkan satu HDD sebagai online spare tatkala server mengalami kejadian satu HDD failure. Dari pengalaman penulis, semua principal HW server memiliki kemampuan untuk menambahkan HDD secara “on the fly” untuk dijadikan online HDD. Kebetulan server yang dijadikan referensinya adalah HP. Kita akan menambahkan online HDD dengan bantuan tools “HP Array Configuration Utility CLI”. Langkah-langkahnya adalah sebagai berikut :

  • Ketikan hpacucli pada console
Gambar-5 (Pengecekan meggunakan perintah hpacucli)
Gambar-5 (Pengecekan meggunakan perintah hpacucli)
  • Ketikan ctrl all show config, dengan perintah ini kita dapat mengetahui bahwa konfigurasi dasar logical drive server kita menggunakan RAID-5.
Gambar-6 (informasi dasar konfigurasi RAID)
Gambar-6 (informasi dasar konfigurasi RAID)
  • Tambahkan HDD baru pada server , sehingga jika kita ketikan ctrl all show config, akan muncul device baru yang belum dialokasikan, terlihat pada gambar 7
3.add new hdd
Gambar-7 (Penambahan HDD baru)
  • Dengan perintah ctrl slot=0 array A add spares=2I:1:5, kita menambahkan HDD yang baru , terletak pada port 2I box 1 dan bay 6 kedalam raid controller slot 0  array A (ilustrasi gambar-8)
Gambar-8 (Perintah pengalokasian HDD baru menjadi Online HDD)
Gambar-8 (Perintah pengalokasian HDD baru menjadi Online HDD)
  • Jika perintah yang dimasukkan benar, maka ketika kita ketikan perintah ctrl all show config, maka HDD yang baru telah dialokasikan menjadi online HDD atau spare, seperti terlihat pada gambar-9
5. spare sudah terpasang
Gambar-9 (HDD yang baru telah dialokasikan menjadi online HDD atau spare)
  • Langkah selanjutnya adalah opsional, hanya untuk memastikan bahwa online HDD yang kita alokasikan bekerja sesuai dengan harapan, pada kasus ini saya mencabut salah satu HDD pada port 1I, box 1 di bay 4, terlihat di gambar 10 HDD yang saya cabut statusnya berubah menjadi Failed, dan online HDD berubah statusnya menjadi Active spare dengan status Rebuilding.
Gambar-10 (Pengujian)
Gambar-10 (Pengujian)
  • Pada gambar 11 terlihat ilustrasi penggantian HDD rusak dengan yang baru, jika konfigurasi benar HDD yang baru akan melakukan proses Rebuilding menggantikan online HDD.
8. rebuilding kedua
Gambar-11 (Ilustrasi penggantian HDD rusak)
  • Setelah HDD baru selesai melakukan Rebuild, Online HDD akan kembali kedalam status awalnya
5. spare sudah terpasang
Gambar-12(HDD baru telah telah selesai melakukan rebuild dan onlie HDD kembali ke status awal)

Tapi perlu dipertimbangkan bahwa usulan penambahan online HDD berikut tidak serta merta merupakan solusi yang paling baik, anda juga perlu mempertimbangan dari sudut pandang yang lain (Silahkan mengacu pada referensi 3 sebagai bahan acuan),dan pilihan ada ditangan anda. Sekian pengalaman dari saya mudah-mudahan tulisan ini dapat bermanfaat.

 
Ref:
1. http://www.hp.com
2. http://en.wikipedia.org/wiki/RAID
3. http://blog.open-e.com/why-a-hot-spare-hard-disk-is-a-bad-idea/

Belajar Mengimplementasikan Eventlog Analyzer

Suatu ketika Bos meminta staf IT-nya untuk membangun suatu infrastruktur server dan aplikasi yang dapat mengumpulkan semua log dari server-server produksi yang beroperasi diperusahaannya. Dia juga menginginkan jikalau ada log dari server produksi yang termasuk pada gangguan ataupun event yang dianggap “Severity High” maka server dengan aplikasinya tersebut akan mengirimkan pesan singkat (SMS) ke nomer-nomer tertentu. Kira-kira gambaran umum topology dari perusahaan tersebut adalah sebagai berikut:

(Gambar-1 Topologi)
(Gambar-1 Topologi)

Kondisi lainnya adalah:

  1. Server-server yang ada diambil lognya beroperating system Linux dan berjumlah << 100 unit dan berada di area closed/private network(tidak ada koneksi internet).
  2. Server pengumpul event/log ini beroperating system Windows.
  3. Untuk keperluan audit, server event/log ini harus mampu menampung data selama satu tahun.
  4. Aplikasi event/log ini harus user friendly.
  5. Diserver-server yang akan diambil event/log tidak diperbolehkan untuk diinstall agent.
  6. Pada kasus terjadi event/log level severity high pada server produksi maka aplikasi akan mengirimkan pesan singkat ke nomer tertentu, contoh event/log tersebut adalah :

-.Power Problem
-.Link Failure
-.HDD Failure
-.Login Failure
-.System Reboot
-.System Shutdown

      7. Infrastruktur dan aplikasi pengumpul event/log tersebut harus pahe alias paket hemat karena anggaran terbatas.

Sesudah mengetahui user requirement dari si Bos, maka staff IT langsung mencari produk yang sesuai dengan keinginan si Bosnya tersebut. Setelah googling diyahoo, akhirnya pilihan aplikasi jatuh ke produk bernaman “Eventlog  Analyzer” (http://www.manageengine.com/products/eventlog/). Produk tersebut bisa didownload versi trial untuk kita uji dilingkungan development, atau kita juga bisa merasakan “live demo” dari aplikasi tersebut dihalaman web yang mereka sediakan: “http://demo.eventloganalyzer.com/event/index3.do”. Aplikasi sudah kita dapatkan sekarang kita tinggal konsentrasi ke infrastruktur HW untuk server Eventlog Analyzer, tapi saya lebih fokus ke media penyimpanan server tersebut, untuk menghitung besarnya kapasitas dari storage server kita menggunakan acuan dari referensi berikut:

(Gambar-2)
(Gambar-2)

Untuk proses instalasi aplikasi event log analyzer diwindows seperti biasa hanya perlu keahlian tangan untuk mengklik next, sedangkan untuk server target/client kita harus menambahkan satu baris perintah (untuk settingan basic) di /etc/syslog.conf, kita tambahkan diujung baris seperti berikut :

syslogconf
(Gambar-3 syslog.conf)

Pastikan diserver client/target service syslog sedang berjalan.

(Gambar-4 services syslog)
(Gambar-4 services syslog)

Tunggu beberapa saat jika settingan benar maka diserver eventlog analyzer akan muncul dashboard seperti berikut :

(Gambar-5 Dashboard)
(Gambar-5 Dashboard)

Tambahkan server-server yang akan diambil oleh server Eventlog analyzer ini:

(Gambar-6 Host Server-Server)
(Gambar-6 Host Server-Server)

Contoh dari Event/Log yang diambil adalah sebagai berikut:

(Gambar-6 Contoh Event/log yang terekam)
(Gambar-6 Contoh Event/log yang terekam)
2
Gambar-7 (Contoh Event/log “error” yang terekam)

Aplikasi pada kondisi tersebut sudah dapat dinyatakan sukses untuk diimplementasikan, sekarang kita ingin agar aplikasi tersebut dapat mengirimkan pesan singkat jika server target/client terdapat log yang berindikasi “severity high”, untuk dapat mengirimkan sms, tentu kita memerlukan sms-gateway contoh dari perangkat tersebut adalah sebagai berikut:

Gambar-7 (Modem SMS Gateway)
Gambar-7 (Modem SMS Gateway)

Selain perangkat sms-gateway kita juga diharuskan mengetahui event apa yang terjadi tatkala server client/target sedang mengalami kejadian yang dianggap “saverity high” event tersebut diambil dari “/var/log/messages”. Jika sudah mengetahuinya kita bisa jadikan profile alert diserver eventlog analyzer.

(Gambar 8 Alert Setting)
(Gambar 8 Alert Setting)

Langkah selanjutnya adalah pengujian (Disarankan agar pengujian tersebut dilakukan didevelopment terlebih dahulu). Skenarionya adalah jika diserver terjadi event-event seperti Power Problem, Link Failure, HDD Failure, Login Failure, System Reboot dan System Shutdown, server eventlog analyzer tersebut akan mengirimkan notifikasi pesan singkat ke nomer tertentu.

(Gambar-9 contoh notifikasi pesan singkat)
(Gambar-9 contoh notifikasi pesan singkat)
(Gambar-10 contoh notifikasi pesan singkat)
(Gambar-10 contoh notifikasi pesan singkat)

Sepertinya percobaan kita berhasil, sekian pengalaman dari saya mudah-mudahan dapat bermanfaat.

Pro:  Mudah diimplementasikan.

Cons: menggunakan UDP sehingga tidak ada jaminan bahwa data terkirim dengan benar dan data tidak ada engkripsi ketika proses pengiriman.

Ref: http://www.manageengine.com/products/eventlog/, (Diakses maret 2014).