'데이터 열화설'에 대해..

김영기   
   조회 5691   추천 0    

매우 단순화하면



윈도우즈 탐색기에서


C드라이브의 영상파일 1.MKV를 D드라이브로 복사

D드라이브의 영상파일 1.MKV를 E드라이브로 복사

E드라이브의 영상파일 1.MKV를 F드라이브로 복사


반복하면 결과적으로 1.MKV에 손실이 일어난다는 이야긴데요.



핵심은 1.MKV를 담는 '매체'의 손상과는 전혀 별개로

(매체 손상은 내용물 손상의 충분조건이므로 논할 필요도 그럴 사람도 없음)

1.MKV의 자체의 이진 데이터 배열이 달라질 수가 있나요?


이해가 안 가는게,

이진 배열이 달라지면, 파일명만 1.MKV일 뿐, 원본과 유사성이 없잖아요.

그럼 '복사'라고 칭할 수조차 없지 않을까요-_-?


혼란스럽습니다.

'복사'가 이미 원본과의 동일성을 담보한다는 개념 같은데...

짧은글 일수록 신중하게.
파렌하잇 2020-12
짧은 지식으로 말씀드려보자면....

데이터 열화의 경우 단순히 복사 또는 전송하는과정에서 정상적으로 진행이 완료되었다면 전혀 문제가 없습니다
(오류가 발생하면 열심히 수정, 보완을 거치니까요.....만약 수정도 불가능할정도로 오류가 생겨서 검증조차 불가능 할정도라면
실패했다고 메세지를 날려주고 원인해결을 하게끔 시키지요 ㅡ_ㅡ;;)
다만 저장장치에 담아두고 보관하는 과정에서 오류에 따라 원본데이터의 값이 손상될경우에 발생하는것이구요
복사과정에서 배열이 변했다는것은 원본데이터의 내용도 달라졌다라고 보시면 되겠습니다 더 단순하게 보자면
펌웨어를 무수히 복사해서 배포하더라도 정상적으로 받기만 했다면 제대로 입력이 되는걸 보면 알수있겠죠
만약 복사로 인하여 이진수 배열이 틀어졌다고하면 입력은 고사하고 에러가 발생할겁니다

가끔 웹상에서 데이터열화에 대하여 이야기가 나올때마다 느끼는점은 마치 발전방식에 따라 오디오의 음질차이가
느껴진다는걸 보는것 같습니다...
미담 2020-12
네, 맞습니다. 발전방식에 따라 오디오 음질 엄청 차이가 납니다.
하이파이에서는 앰프 보다 더 차이가 많이 날수도 있습니다.
     
파렌하잇 2020-12
발전소에서 다이렉트로 전기를 공급받지않는이상에는 크게 의미가 없다고 생각됩니다
국내 송배전망의 경우 단일망이 아닌 그리드구성인데다가 민영발전 + 가정집 태양광까지 전부 달라붙어서 섞일대로 섞여있기
때문입니다 그리고 전력품질의경우 발전소보다도 변전설비의 영향이 더 큽니다 발전소가 엄청 노후화해서 기본적인 생산을 못하지만
않는다면요...
          
그모도 2020-12
이거 10년 전에 골든***에서 나온 개그 같은데요...
수력발전소 주변에서 들으면 락 음악이 물 떨어지듯 웅장하게 클래식은 태양광으로 들으라는 그런 유머가 돌았습니다...ㅎㅎ
욱가 2020-12
아직도 그런걸 믿는분들이 계시는군요
김현린 2020-12
1234의 텍스트 파일도 여러번 복사하면 1233이라는 값이 나온다는 논리인가요?
금싸타 은싸타도 진짜 이해가 안되는데
이것도 더더욱이 이해가 안되는거네요.
은행 이체를 여러번하면 만원이 500원이 됫다 100만원이 됫다 할수 있다. 라는거랑 뭐가 다르죠?
     
만두와라면 2020-12
금사타 은사타 금랜선으로 오디오 음질이 좋아진다는 흑세무민은 그냥 컴터의 컴자도 모르는 기계치 인증이죠 
하드나 sdd에서 소리가 나오는 줄 아는 사람들입니다.
          
김현린 2020-12
근데 그걸 여기저기서 이용해 먹는게 문제죠.
심지어 소니에서도 음감용 SD카드를 만들어서 팔고 있습니다.
정말 답답하네요..
               
만두와라면 2020-12
소니야 뭐 애플 이전에 감성마케팅의 대가였으니 그럴만도 합니다
한편으론  측은해보이기까지 합니다.
          
미담 2020-12
위에 사타 랜선에 대한 언급이 있어서 오디오 음질에 대해선 잠시 의견을 내 봅니다. 오디오에서 케이블은 단순한 데이타 전달이 아니고 일종의 저항입니다. 메트릭스 구조로 꼬거나 또는 재료의 물성에 따라 그 저항치나 외부 지터와 연관되어 소리가 달라지는겁니다. 사람이 노래를 부르는데 그 노래 한 소절이 사라지는 그런 데이타 손실을 말하는게 아니라 노래 소리는 온전히 다나지만 그 소리의 질감이 달라질 뿐입니다. 이건 데이타 손실이 아닙니다. 마치 H2O는 물인데 차가운 물과 뜨거운 물이 맛이 서로 틀릴수 있어? 또는 지역에 따라 같은 샘물이래도 물맛이 조금 틀리더라. 이러면 h20 분자가 같은데 어떻게 맛이 틀릴수 있지? 같은 물일뿐이야. 하는 거랑 같은 이치입니다. 같은 맹물인데 물맛이 어떻게 다르겠습니까? 그런데 어떤이는 그 맛을 다르게 느끼고 행복해 하기도 합니다. 그리고 저 기계치 아닙니다. 세상은 내가 아는 것 말고 또 다른 무엇이 있거던요. 배잡고 웃을 이야기를 해드리면, 아수스 보드로 음감용 피씨를 만든거랑 인텔 보드로 음감용 피씨를 만든거랑 음질차이가 명확하게 납니다. 당연히 리니어 파워가 아니라 스위칭 파워의 일종인 컴퓨터 파워도 방식에 따라서도 소리가 달라지고요. 건전지로 가동하는거랑 일반 전기로 가동한거랑도 소리가 틀리고요. 어떤 분이 발전소 이야기하시던데 당연히 소리가 틀립니다. 다만 반드시 발전소에서 바로 들어온다고 반드시 소리가 마음에 드는지는 모르겠지만. 이쯤 말하면 "한번 해보자는 거냐?" 라고 할지 모르지만. 구리와 은, 금등 소재에 따라도 소리가 분명하게 달라집니다. 그런데 그걸 못느끼는 분도 있긴 합니다. 사람마다 특성이 달라 음에 민감한 사람 화질에 민감한 사람....등이 있듯요. 그걸 서로 존중해주면 되는 것이라 봅니다.아, 쓰러질 이야기 하나만 더 덧붙이자면, TLC 랑 SLC SD는 확연하게 소리 차이가 납니다. 컴퓨터나 CPU 설계를 하는 전자공학쪽 박사 중에도 그걸 인정하고 SLC를 권하는 분도 있습니다.
술이 2020-12
데이터 복사하다가 배드블럭에 걸려서 CRC 오류무시 되면서 복사된걸 여러번 복사하다가 그렇게 된걸로 판단했나보네요.
만두와라면 2020-12
아날로그 비디오 테이프도 아닌데 그게 가능할 거라고 생각하시는지. 
쉽게 말해서 당장 여기 게시물 복사해서 여러 개로 만들면 글씨가 점점 안 보인다는 얘기시죠??
김현린 2020-12
dac용 usb 케이블은 그럴수도 있겠다 싶은데
싸타케이블이랑 sd카드 데이터 열화
이런건 진짜 신앙이라 밖에 생각안됩니다.
 평평교랑 동급이라 생각합니다.
ROM정해준 2020-12
불가능한 이야기니 그런 의견에는 신경쓸 필요가 전혀 없다고 생각합니다.
아무리 말해줘도 절대 안 믿습니다. 들어보면 다르답니다. 설득할 가치도 없습니다.
원시인7 2020-12
디지털 데이터라는 건 0,1의 배열인데,
복사할 때마다 0,1의 배열이 바뀐다면 이미 그 파일은 열화가 아니라 다른 내용이겠죠.
옛날 비디오테입 녹화할 때 생각나네요. 아마도 복사를 그런 거라고 생각하는 듯.
김우진 2020-12
말씀하신 현상이 일어날 수는 있겠습니다만, 그런 것은 '열화'라고 하지는 않고 '데이타 오류 또는 오염', 아니면 장비의 '고장'이라고 하겠죠?
epowergate 2020-12
SATA HDD의 경우 10^14의 비율로 확인되지 않는 BIT 오류가 발생할 수 있습니다.
SAS의 경우 10^15의 비율입니다.
기업용 저장장치들 중에서 End-to-End Checksum을 지원하는 장비들이 있습니다.
Silent Data Corruption 방지를 위해서 입니다.
     
병철 2020-12
Silent Data Corruption이 나면 전송 중 오류가 확인이 되지 않았을 뿐이지,
복사 된 데이터는 무결하지 않은거고 파일이 열리지 않거나 정상적으로 사용 할 수 없는거죠?
          
알토냥 2020-12
아니오.

보통 영상의 기준으로 비트 하나가 날아갔다고 파일이 열리지 않는 경우는 잘 없습니다.

물론 날아간 비트의 위치가 문제가 될 수 있겠지만, 재생은 가능하다고 생각하셔도 됩니다.
               
병철 2020-12
답변 감사합니다.

날아간 것을 계속 발견/인지하지 못 하고 계속 누적이 되면 결국엔 오류가 나면서 알게 되는거겠네요..
          
epowergate 2020-12
맞습니다.
데이터의 종류에 따라 다르겠지만 영상이면 큰 영향 없을꺼고
DB라면 재앙이 될수도 있습니다.
시도니 2020-12
디지털 상황에서 데이터가 열화된다는 것은 변조된다는 것인데,,,,

이건 애초에 무결성적인 부분에 대해서 성립이 안되는 거죠.

물론, 이럴 수는 있습니다.

똑같은 두대의 시스템에 똑같은 OS와 똑같은 절차로 복사한 컴퓨터의 HDD 용량을 1:1 체크하면 용량이 다릅니다.

마찬가지로 C드라이브에 자잘한 파일이 많은 디렉토리를 D로 복사하고 이를 다시 E로 복사하면 C와 D와 E의 용량은 다 다르게 됩니다.

왜냐하면, 저장장치의 구조상 블럭에 데이터를 다 채우지 못하더라도 그 블럭에는 다른데이터를 쓸수 없기 떄문에

데이터를 계속 썼다지웠다 하면 단편화가 일어납니다. 물론 한두번 쓰는 정도로 크게 일어나지는 않습니다만,

inode 혹은 인덱스는 그 블럭의 주소를 가지고 있고, 실제 OS에서 데이터를 지우면 index 의 블럭주소의 링크를 끈을 뿐, 실제 데이터는

지워지지 않습니다. (삭제한 데이터 복원 툴들의 원리가 데이터를 읽어서 다시 링크를 거는 원리입니다.)

즉, 아주 쉬운 예로 단편화가 엄청많이 일어나서 조각모음을 돌리면, 데이터의 저장 위치가 달라지고 형태가 달라집니다만,

데이터의 무결성과는 전혀 상관이 없습니다.
디아고수 2020-12
위 논란은 은사타 금사타 이야기와 다를 바 없네요.
디지털 특성상 무슨 비디오 테이프 복제도 아니고 데이터 열화(?)는 있을 수 없습니다만 전송시 노이즈나 다른 전기적 오류로 인해 0이 1이 되고 1이 0이되는
데이터 무결성이 문제가 되는 경우는 있겠지요. 이 경우 재전송 혹은 오류정정 메커니즘으로 말단간에 데이터의 신뢰성을 유지하게 됩니다.
이조차 불안하면 데이터 복제후에 해쉬값을 비교해 보면 되겠죠.
통상 무결성 유지는 장비 혹은 OS단에서 이루어지므로 실제로 일반적안 사용유저단에서 심각하게 고민할 필요는 없는 내용이라 생각됩니다.
무아 2020-12
물리적인 배열은 달라질 수 있어도 논리적인 배열은 달라지지 않겠죠.
>>이진 배열이 달라지면, 파일명만 1.MKV일 뿐, 원본과 유사성이 없잖아요.
디지털 데이터에서 원본 유사성은 논리적인 배열만 맞으면 됩니다.
HDD에 저장된 파일과 SSD에 저장된 파일의 (또는 NTFS 파일 시스팀과 FAT32 파일 시스템 사이라든지)  물리적 배치나 구조는 다르지만 논리적으로는 같은 값을 가지는 데이터 입니다.
가끔은 물리적인 배치나 이런 것을 이용하여 복사 방지같은 것을 걸기도 하긴 합니다.
박문형 2020-12
https://qastack.kr/superuser/124801/how-can-i-copy-a-folder-with-many-files-with-integrity-check

이런 방법으로 검증을 해보는 것이 좋아 보입니다..

https://kldp.org/node/103807

리눅스에서도 방법이 있는가 봅니다..
PCMaster 2020-12
이건 검증이 끝난건데
더이상의 논의가 필요한 문제인가요???
매체간 데이터오염은
말그대로 에러인 상황입니다.
     
무아 2020-12
아님뉘다. 피망님이 올린 짤은 왠지 더 그럴싸하게 데이터 변조가 일어납니다. 하하.
안철현 2020-12
비슷한 이야기로,  오디오전용 HIFI 허브(스위칭)를 사용하면 음질이 단단해지고 처음이 풍부해진다는 이야기 등이 있습니다.
허브가 01010 데이터 패킷 전송인데, 01010 음원데이터가 오디오전용 허브를 지나고, 노이즈가 필터링되어서 음질이 좋아진다는 이야기이구요
CAT5용 케이블대신 CAT7 이상 케이블을 섰더니 음질이 좋아진다는 이야기 등등
이미 아날로그를 디지털로 샘플링 하면서 010101 데이터로 음질이 정했는데,
네트워크 구간을 바꾼들 무슨수로 더 좋아질까요?
     
ROM정해준 2020-12
공유기 기판을 뜯어서 알루미늄 테이프로 쉴딩하겠다고 도와달라고 하던 사람이 떠오르네요... 그럴바에 금고 하나 사다가 전선구멍 뚫고 컴퓨터랑 같이 넣어버리라고 했더니 절대 말 안 들으시더라구요.
병철 2020-12
C드라이브의 영상파일 1.MKV를 D드라이브로 복사
D드라이브의 영상파일 1.MKV를 E드라이브로 복사
E드라이브의 영상파일 1.MKV를 F드라이브로 복사

반복하면 결과적으로 1.MKV에 손실이 일어난다는 이야긴데요.

= SATA(SAS) 케이블 불량?

오홍식 2020-12
전파통신이 명왕성을 넘어다니고 있는 세상입니다.
데이터 열화가 사실이라면 디지털 통신 자체의 근간이 흔들리고 압축 암호화는 의미가 없어집니다..
아, 복사후 달라지는 부분이 있기는 합니다. 생성일 접근권한 같은 os가 관리하는 영역안에 한정되겠지만..
     
이선호 2020-12
데이터 열화는 사실이고, 열화를 감안하도록 설계가 되어있습니다.
이더넷 프레임 (인터넷) 구조를 보면 항상 CRC Chksum이 들어가 있는것처럼 외부의 노이즈가 되었든 다른 요인이 되었건 데이터 손상은 의외로 굉장히 자주 일어납니다.
          
오홍식 2020-12
물리적 신호의 엔트로피가 증가하는것이지 추상적 의미인 데이터가 변하는 것이 아닙니다.
osi계층의 아래에 있는 신호 개념이 데이터 계층 위까지 오면 곤란합니다.
               
이선호 2020-12
신호 개념을 데이터와 분리하시는 이유가 있을까요?
CRC와 Chksum의 개념은 데이터 계층입니다. QAM을 말씀드리는게 아니에요.
오히려 명왕성과의 전파통신이 잘못된 예시로 보입니다. 명왕성과의 전파통신은 신호의 손실이 아주 당연히, 빈번하게 일어날 것이라는 가정하에 설계가 된것이죠. X-BAND를 사용하고 고출력으로 데이터를 송신해도 여러 잡음 + 거리에 의해 데이터 손실이 발생할 수밖에 없으니까요.
그래서 Hamming SECC 등으로 패리티 비트를 생성하지요.

데이터 오류(열화)는 발생가능성이 있고, 발생하지만 거의 대부분이 정정이 되기때문에 문제가 없다라고 봐야지, 통신상에서 데이터 손상이 불가능하다라고 보면 안된다는 이야기입니다. SDC(Silent Data Corruption) 같은 경우는 이미 정정이 되었거나 기록이 끝났다고 컴퓨터는 인식을 했지만 실제로는 기록이 안된것이구요.
데이터 전송 및 보관이 완벽하다면 해시값 비교나, ReFS 옵션상/ZFS에서 무결성모드를 만들 필요가 없었겠지요.

다만 영상 파일에서 한두개 비트가 에러가 나서 불량프레임이 발생했다고 하더라도 재생시 스킵하면 그만이니 영상 재생과는 아예 상관 없는 부분이긴 합니다.
                    
오홍식 2020-12
통신상에서 데이터손상이 불가능 하다는건 누가 쓴 글을 읽고 쓰신글인지?
제가 위성 통신에서 신호 손실이 없다고 적었는지요? 저는 데이터라고 분명히 표기 했습니다.
이런 댓글이 달릴줄 알았으면 그 먼곳에서 오는동안 감쇄와 왜곡등으로 “신호”가 손실되어도 “일정 정도 손실은 복구가능한” 기법이 있어 무결성이 유지되고 그 손실 정도가 “복구 불가능이면 재시도”를 하거나 “중요도에 따라 버리는” 절차를 따른다는 비전공자용 부연 설명도 했어야 하나 봅니다.
제 불찰입니다. 앞으로는 주의 하죠.
                         
이선호 2020-12
지금 말씀하신 부분에 답이 있네요.
[ “신호”가 손실되어도 “일정 정도 손실은 복구가능한” 기법이 있어 무결성이 유지되고 그 손실 정도가 “복구 불가능이면 재시도”를 하거나 “중요도에 따라 버리는” 절차]가 있지요.
헌데 SDC 등으로 "무결성이 깨져버리는" 경우가 발생할 수 있다는 거에요......

명왕성 예시가 잘못되었다는 뜻은 아무리 손실복구기법이 적용되었다고 할지라도 당연하다시피 손실이 날수밖에 없다는걸 감안하고 전송하는 것과 거의 무결성에 가까운 통신이 가능한 지구 내 네트워크랑은 다르다는것이죠.
솔직히 BER 10^-10 수준을 지향하는 지상용 위성링크랑은 다른 부분이니까요.
*. 저는 신호통신학/암호학 전공자가 아닙니다.
이선호 2020-12
복잡한 이야기는 제외하고 디지털이 완벽하다면 서버에 ECC 기능 자체가 필요 없었겠지요?
데이터 전송중에는 상당한 양의 에러가 상시 발생할 수 있습니다. 그래서 네트워크 전송에는 CRC 값이 들어가게 되지요.

데이터를 자주 복사하게 되면 데이터의 이동량이 많아지고, 하드디스크 내 ECC가 감지하지 못하는 SDC(Silent Data Corruption)이 충분히 발생할 수 있습니다. 물론 SDC는 데이터를 가만히 놔둬도 발생이 가능합니다. NAND 메모리에서는 자연적으로 데이터 손상이 갈 수 있고, 그래서 TLC 같은 셀들은 주기적으로 전기를 넣어주라고 얘기하지요.

Bit 단위의 에러로 음질이 달라진다는건 개소리가 맞지만, 데이터 손상은 실제로도 이루어질 수 있고 이루어지고 있습니다.
괜히 해시값 비교를 하는게 아니죠.
유로하 2020-12
제가 회사에서 지원하는 분야인 WLCG에서silent corruption 관련해서 연구를 한게 있는데 대략 1PB당 1M정도의 조용한 손상이 있을 수 있다고 합니다. 파일 복사 정도에서 열화가 난다는 것은 그냥 오래된 제품들에서 복사 중에 노이즈가 발생하는 것인데 그런 환경이라면 디스크에 가만히 두고 있어도 결국 데이터가 손상될겁니다. 차라리 신형 장비로 백업을 해두는 것이 보다 안전할 수 있씁니다.
김영기 2020-12
답변 고맙습니다.
결론은, '매체나 신호의 물리적 한계나 오류가 있을지언정, 복사 메커니즘에 의한 논리적 열화는 일어날 수 없다' 정도로 정리 가능하겠군요.


QnA
제목Page 896/5730
2014-05   5267227   정은준1
2015-12   1792166   백메가
2020-12   3141   GPGPU
2020-12   2483   inquisitive
2020-12   3519   2CPUI김세훈
2020-12   2885   pibang
2020-12   3655   개미늘보
2020-12   3429   호호
2020-12   5692   김영기
2020-12   3899   kuya
2020-12   3066   헌터D
2020-12   2819   김동혁1
2020-12   2796   캔위드
2020-12   5072   장동건2014
2020-12   4546   김황중
2020-12   4539   용새
2020-12   2870   audacity
2020-12   2443   heck
2020-12   3290   블랙펄
2020-12   9959   진안마이산
2020-12   3230   khi211
2020-12   3281   epowergate