연구8 Optimizing AI/ML and HPC Workloads: Exploring RDMA (RoCEv2) for High-Performance https://www.linkedin.com/pulse/optimizing-aiml-hpc-workloads-exploring-rdma-rocev2-data-chitakani-iuwvc/ Optimizing AI/ML and HPC Workloads: Exploring RDMA (RoCEv2) for High-Performance Data Center NetworkingIn the realm of growing Artificial Intelligence (AI) and Machine Learning (ML) applications, the demand for High-Performance Compute (HPC) systems within Data Centers is escalating rapidly. .. 2024. 9. 6. [TIL] Paxos? Raft? Distributed system에서 여러 컴퓨터가 하나의 시스템처럼 동작하기 위해서 Consensus Algorithm 등장Fail-Stop : 단순히 노드가 고장나서 멈추는 형태Fail-Stop 형태의 장애를 가정한 대표적인 consensus algorithm이 Paxos, RaftByzantine Failure : 고장나서 멈추는 것 + 노드가 악의적인 행동을 포함한 임의의 동작을 할 수 있는 문제대표적인 consensus algorithm이 PBFT(Practical Byzantine Fault Tolerance)Paxos란?분산 시스템에서 여러 프로세스 간에 하나의 값에 동의하기위한 프로토콜.proposer, accepter, learner → 이 3개의 역할로 구분된다.proposer가 제안하.. 2024. 7. 18. [TIL] Consistency Models for concurrent systems https://jepsen.io/consistency Strict Serializable vs. Serializable vs. Linearizable(순서대로 약 → 강)SerializableStrict SerializableLinearizabledefinition시스템 내의 transaction들이 마치 순차적으로 실행된 것처럼 보이는 data consistencySerializable + time order→ 실제 시간 순서에 따라 Serializable이 되어야 한다. (실시간성 보장)Strict Serializable + 모든 연산이 단일 글로벌 순서에 의해 정렬 (단일 시점에서 일어난 것처럼 보이기 위해 single system imgae 제공)적용 대상트랜잭션트랜잭션모든 연산 (읽기 및 쓰.. 2024. 7. 16. [TIL - 20240704] RDMA Atomic operation이란? RDMA Atomic Verb란?RDMA 기술의 기능 중 하나로, 네트워크를 통해 remote memory에 atomic operations(원자적 연산)을 수행할 수 있게 한다.이는 여러 스레드나 프로세스가 동시에 접근하더라도 data consistency를 유지하는 연산을 의미한다. * 성공한 경우, remote는 알아챌 수 없다. 실패한 경우는, remote는 비동기 에러가 올라간다. 이때 비동기 에러(asynchronous error)는 Infiniband verbs에 메커니즘으로 제공되며, ibv_get_async_event()를 호출하는 것으로 얻을 수 있거나 select()나 epoll()로 기다릴 수 있다. Fetch-and-Add (FAA)원격 메모리에서 값을 읽고, 지정된 값을 더하고 .. 2024. 7. 4. [TIL - 20240703] Turing complete란? Turing complete(or Computationally universal)?Turing complete는 충분한 time과 resource가 주어진다면 복잡해도 computational problem이든 해결할 수 있다는 의미이다. (엄격하게로는 무한한 storage capacity가 필요) Turing complete에 대해 잘 알려진 예시는 Python이다. Python은 단순한 계산으로 복잡한 AI task와 같은 문제를 해결한다. 또는 Scratch라는 Programming language가 있다. (Scratch는 어떻게 코드를 작성하는지 아이들에게 가르칠 때 종종 사용한다)minimum set of featuresflow of control conditional on data (조건문을.. 2024. 7. 3. [CoNEXT ’18] The eXpress Data Path: Fast Programmable Packet Processing in the Operating System Kernel Title: The eXpress Data Path: Fast Programmable Packet Processing in the Operating System Kernel Author: Toke Høiland-Jørgensen, Jesper Dangaard Brouer, Daniel Borkmann, John Fastabend, Tom Herbert, David Ahern, David Miller Published: CoNEXT '18 ABSTRACT Programmable packet 처리를 할 때 context switch가 발생하는 것을 피하기 위해 userspace에서 networking hardware를 control하는 kernerl을 우회하는 기술이 나날이 구현되고 있다. 하지만 os를 우.. 2024. 3. 24. 이전 1 2 다음