Пожалуйста, обратите внимание, что в правках ISBN не стоит переносить на следующую строчку, а стоит писать на той же, через тире.Не стала бы беспокоить из-за такой мелочи, но у Вас много правок, и подправлять каждую бывает затруднительно.
Позволю себе предложить изменение правил в п.20. Подпункт 4. Изменить на Наличие текстового или OCR-слоя, позволяющего делать поиск по ключевым словам.И в конце исключить п. 3. «Автоматический OCR без вычитки и правки (формулы, схемы и рисунки в текстовом слое превращены в мусор»);Добавлять материал не стоит, если за улучшение выдается только: 1. Интерактивное оглавление; 2. Незначащие страницы (цветные обложки, реклама); 3. Уменьшение размера файла; 4. Кодирование текстового материала в DJVU с целью замещения сканированного аналога в этом же формате (предпочтительнее сделать качественное распознавание сканированного текста).Я предлагаю эти изменения с точки зрения пользователя. Автоматический поиск возможен только для файлов с OCR –слоем, пусть и сделанным в автоматическом режиме. Вычитать и исправить книгу страниц в 100 и более нереально, и вряд ли это кто-то будет делать, а наличие OCR – существенно облегчает поиск информации, например в словарях, справочниках, монографиях и пр.Еще, относительно того, что уменьшение размера файла не является улучшением. Конечно, если уменьшение на на несколько мегабайт, но если книга с 200 мегабайт превращена в 10-12? Тем более, что книги грузят на смартфоны, планшеты, у которых возможности по памяти и быстродействию ограничены.P.S. Я понимаю, что некий консерватизм Правил должен присутствовать, но мне кажется, что мои предложения назрели.
В принципе, согласен с DosiaHeDeine. Распознать так, чтобы можно было пользоваться поиском, - дело нехитрое. По поводу объема - это, скорее, на усмотрение проверяющего. В граничных случаях, когда объем уменьшается на порядок, а качество не страдает, замена, думаю, возможна.
Если "Распознать так, чтобы можно было пользоваться поиском, - дело нехитрое", то почему хоть как-то не стимулировать этот процесс. Я этого не понимаю.
В принципе, я так уже давно и делаю для тех книг, к которым приходится часто обращаться. Я не особо надеялся на изменение правил в той редакции, которую я предложил, но во всяком случае надеялся на некий компромисс, хотя бы в части справочников и словарей. Мне к моим аргументам добавить более нечего. Благодарю всех за ответы и комментарии.
В крайнем случае, файл с не описанными в правилах, но всё-таки нужными улучшениями (типа интерактивное оглавление), допускается, только с обязательным условием перевода на владельца первого варианта.
См. выше. Никто не против "качественного" уменьшения, но тогда потребуется отдельная статья в правилах. Есть сомнения, что они (правила) от этого станут более удобопонятными.
Знаете, по-моему, все зарегламентировать невозможно. В конце концов есть судья - Модератор или Доверенный. Если они работают на пользу читателя, то какие могут быть Правила. Дать больше полномочий. Я тут уже не первый год, ну бывает не согласен с чем-то, все это мелочи. Хотя и создать удобные Правила было бы неплохо.
Если требование к вычитке OCR отменить - сайт завалят некачественно распознанными версиями, и ни у кого не будет стимула постараться и сделать более качественное распознавание.Кроме того, сделается возможной такая ситуация, что: - пользователь А вложил немалый труд в то, чтобы отсканировать книгу, и выложил её; - пользователь B на скорую руку распознал файл пользователя А и выложил заново, а исходник удалили. В итоге пользователь В без особых усилий получает баллы, а пользователь А остался ни с чем. Где справедливость в отношении пользователя А?
А в чем несправедливость? Все тут, энтузиасты. Чего в баллах? Так и тут компромисс найти можно, но только к тому кто сканировал, а не перенес файл с др. ресурса. Главным является читатель, а читателю распознанный текст с ORC-слоем, пусть и без вычитки предпочтительнее. Да, и кто мешает «пользователю, А, который, вложил немалый труд в то, чтобы отсканировать книгу», ее еще «на скорую руку» распознать? Кстати, опять же возможно ужесточить требование наличием оглавления или закладок.
а читателю распознанный текст с ORC-слоем, пусть и без вычитки предпочтительнее.
Лож полнейшая. Как читатель огромного количества физико-математической и технической литературы, скажу, что текстового распознанного слоя не нужно. Нужно качественный скан, чтоб индексы были видны, серые или цветные рисунки. Чтоб быстро открывалось на мобильных устройствах и занимало мало места(djvu тут идеально без текстового слоя). И оригинальная нумерация страниц. Для поиска по книге существует содержание. Поиск по словах только убивает время так как одинаковых слов огромное количество. Человек открыл содержание и видит на какую страницу нужно переместится. В распознанных. doc документах очень затратно набрать все формулы и привести все до макета-оригинала. А нумерация страниц, студентам, аспирантам, преподавателям, ученым это очень важно. Дает преподаватель студенту задание, в такой то книге на хх-странице есть такая то формула, а студент открывает распознанный вариант а ее там нет, или она превратилась в мусор. А за порчу материала представленного как "улучшения" можно и схлопотать.
Студент открывая распознаный на автомате вариант с непотертым графическим слоем формулу увидит. Мало того найдет упоминание по ключевым словам, то чего для этой формулы нужно.
Априори справедливости нет. Кто отсканировал, кто скачал с другого ресурса, а кто и сам автор... Какое имеет значение "кто?" первым выложил? Да, и кто ему мешает "первому" "на скорую руку" распознать? Главным является читатель. А читателю удобнее распознанный вариант, пусть, даже в автоматическом режиме, я уже не говорю об оглавлениях, закладках, гиперссылках. Тут, я надеюсь, Вы спорить не будете? Можно, конечно, найти какой-то компромисс, поощряя тех энтузиастов, кто отсканировал, но как?
Неоднократно наблюдались конфликты в этой связи. Ваше предложение создаёт почву для усугубления ситуации.
и кто ему мешает "первому" "на скорую руку" распознать?
Допустим, не знает, как это делается.***В текущей редакции написано:
формулы, схемы и рисунки в текстовом слое превращены в мусор»
Удобно ли пользоваться таким вариантом? Особенно если это "чистый текст" без изображения сканированной страницы?Идеальный OCR сделать действительно очень трудно (идеала никто и не требует), но хотя бы вопиющие варианты отсекать необходимо.P.S. Веками люди вообще не имели возможности автопоиска по книге, даже не мыслили подобного. И ни книжная культура, ни наука от этого не страдали. А теперь, когда он появился, что-то и то и другое подают признаки кризиса.Конечно, это лирическое отступление, но.
Я не понимаю, как можно "Допустим, не знает, как это делается." (распознавание текста), ну ссылку дадим как... И проблем нет. О конфликтах. Ну, тут я не в курсе и не понимаю сути конфликта, в принципе. Пардон. Я не совсем понимаю, что значит "рисунки в мусор", вот в моем примере они мусор?
На с. 11 слова в квадратике схемы вообще не распознались и остались в сером режиме. Формулы на с. 13 стали бессмысленной кириллицей. Таблица на с. 92 превратилась в мешанину латинских букв. Думаю, там такого очень много. Не сказал бы, что мешает, но тем не менее. Еще, возможно, что индексы в некоторых формулах попали по мелкости своей в серый слой с низким разрешением и размазались в мелкие кляксы. Если я не ошибаюсь, файл обработан автоматом и никаких возможностей ручной правки там нет. И вообще для OCR-слоя под графикой такие возможности мало где есть, и в этом мало тоже весьма ограничены. То есть, если поощрять добавление OCR-слоя (заведомо дефектного для среднего качества скана), пойдет поток конвертаций с порчей графического слоя и потерей информации, которую дотошному проверяющему придется с лупой вылавливать. Не бывает таких проверяющих. А потери информации бывают.
С "мусором" понятно. Но что из этого. Зато нажал CTRL+F, ввел слово "ядро" или "ядр" и нашел его по тексту всего учебника о литом ядре при сварке. А "мусор" виден в графическом виде. Читабельно, хотя соглашусь относительно таблицы на 92 стр. Чтобы ее более или менее распознать, ее перед распознаванием нужно было повернуть. Я тогда еще не знал.Относительно потока конвертаций. Тут входят в противоречие интересы сайта или Модерации с интересом Читателя. Я на стороне Читателя. Если так все серьезно с потоком некачественно распознанных текстов, можно принять положение об обязательном распознавании словарей, например, или для новых файлов. В конце концов, более или менее современный компьютер в FineReader 12 это делает без особых проблем, хоть грузит все ядра серьезно. И человек, который "нашел" файл на др. ресурсе сделает полезное дело. А те кто самостоятельно сканирует, так я не могу поверить, что после сканирования или во время трудно поставить галочку "распознать текст", установив языки распознавания (английский, русский, например).Возможно, ввести это в правила для новых файлов, а для существующих, предложить год тем, кто уже выставил свои нераспознанные материалы для самостоятельной замены.Т.е. нужно движение к получению ОRC- cлоя. И следует признать, что получить "качественный" ОRC- cлой без мусора нереально.В качестве варианта, возможно, разовое поощрение тому, кто распознал в какой-то сумме баллов, и оставление распознанного в автоматическом режиме файла у раздающего путем замены.
А те кто самостоятельно сканирует, так я не могу поверить, что после сканирования или во время трудно поставить галочку "распознать текст"
Вы считаете, что сканировать можно только через программу OCR? Наоборот, именно так делать не стоит, даже если вам нужен только OCR (Optical character recognition)
можно принять положение об обязательном распознавании словарей
Беда в том, что правильно, без порчи графического слоя, присоединить результаты этого распознавания к имеющемуся файлу довольно сложно и потребуется процедура из нескольких этапов, что загрузит серьезно не только все ядра, а непривычного конвертатора. В вашем примере небольшие искажения есть, видно сразу, а больших я особо не искал.
можно принять положение об обязательном распознавании словарей, например, или для новых файлов.
Мы не имеем права требовать от пользователей каких бы то ни было навыков обработки файлов (при первичной загрузке). Иначе нарушится равноправие в доступе к системе "загрузил файл - получаешь баллы".
Вы готовы лично обойти профили всех (ну или хотя бы всех активных) пользователей сайта?
О конфликтах
Люди периодически выражают недовольство тем, что другой пользователь выложил их материал с относительно небольшими улучшениями. Даже не обязательно, чтобы скан был ими сделан, т.к. для абсолютно любого файла на сайте действительно "право первого выложившего".На любом другом сайте это было бы не критично, но у нас всё завязано на право получения баллов за скачивание. Поэтому работа по улучшению должна быть значительной, чтобы заслужить такое право.
рисунки в мусор
Иллюстрации, конечно, нет, а математические уравнения или слова на иностр. языке со специфическими символами - запросто.Кстати, иллюстрации очень легко испортить сжатием.
Пардон, я не понял, что значит "лично обойти профили всех (ну или хотя бы всех активных) пользователей сайта". Если Вы о рейтинге, то не и не мечтаю. Вначале были нужны баллы, сейчас нет. Так, некая "зависимость" сформировалась, но не ради рейтинга. Хотя, я могу предположить, что есть пользователи, у которых эта "зависимость" более серьезная. И они, очевидно, приносят пользы сайту больше, чем, к примеру я. Не спорю. Но можно дать, к примеру год, для активных пользователей, чтобы они распознали свои тексты. Вариантов компромисса может быть множество. Я сейчас пишу как Читатель. И я считаю, что находить баланс интересов активных участников сайта, Модерации и Читателя нужно. Относительно мусора. Математические уравнения или слова на иностр. языке со специфическими символами остаются в графике, их видно. Другое дело, что их нельзя найти в поиске и скопировать, так это несущественно. Собственно, я понимаю, что истина рождается в дискуссии, но, даже, не приняв мои предложения, какое-то движение вперед, предусматривающее мотивацию к распознаванию текстов текстов, пусть и в автоматическом режиме, пусть для ограниченного вида файлов (допустим, словари, где формулы и специфические символы редкость или не столь важны) нужно.
так направьте ее на изучение процедуры добавления результатов распознавания без изменения графического слоя и на изменения этого слоя при любой конверсии, а потом заново обдумайте свои предложения
Ну, конечно, книжная культура... Но, уходит она, и когда мне нужно посмотреть в словаре, я предпочитаю электронную версию, не смотря на то что есть и книжная. Тоже самое со специальной технической литературой. Я бы мог привести примеры со специальной литературой, но долго писать. Поверьте, поиск по ключевому слову позволяет найти информацию, которую в книжном варианте не нашел бы никогда. Бывает мимолетное упоминание в разделе, где и не искал бы по оглавлению, находится нужная информация, которая там была упомянута вскользь. Хотя художественную литературу предпочитаю в книжном варианте. Идеальный OCR забит в правилах. А справочник с сотнями рисунков, схем и формул как, кроме как на автомате, распознать? Тут сутками сидеть за ПК придется. А текст в автоматическом режиме распознается без особых ошибок. P.S. Хотя, на практике, качество распознавания, как я заметил, зависит от мощности ПК. Да, и времени требует немало.Впрочем решать администрации сайта. А сайту я, конечно, безмерно благодарен. И, надеюсь, что мое мнение учтут. Ну, можно для начала начать со словарей и справочников.
Читатели технических справочников ни за что не скажут Вам спасибо, если формулы, таблицы и схемы будут превращены в мусор. Поиск по такому файлу будет возможен, но что проку, если найденное не поддастся прочтению.Лирическое отступление было к тому, что при оценке качества книги всякие "блага цивилизации" типа OCR ставятся превыше качества воспроизведения самого текста. И это "несколько" смущает.
Но, вы же эти формулы видите визуально. Графический слой остается нетронутым. Спасибо. Уже говорили. Да, я ставлю наличие OCR-слоя даже выше качества восприятия текста, тем боле, что его наличие мало влияет на это качество потому как это облегчает поиск, да и частичное копирование. Текст читабелен, а это главное, во всяком случае при пользовании справочником. Для чего справочник? Быстро найти информацию, а не наслаждаться чтением, как при чтении худ. литературы.
(П)проверяющий: Не могу принять Вашу книгу, т.к. авто-OCR не улучшение. (З)агрузивший: Но в FAQ написано, что можно! П.: Для словарей и справочников. А у Вас не словарь и не справочник. З.: Как же не справочник, когда справочник! П.: На нём не написано, что это справочник. З.: Но им можно пользоваться как справочником! П.: А чем докажете? З.: Ну вот у него такая структура... П.: Вот вам ссылка на другую книгу, там тоже такая структура, но это учебник.
И т.д. на 3 экрана и 3 часа. Надо ли говорить, что всё это время оба собеседника могли потратить с куда большей пользой.
Я с пониманием отношусь к труду модераторов и доверенных, и понимаю Ваши опасения. Тем более недавно наблюдал подобный диалог. И, уж, извините за "3 экрана и 3 часа" :- :-) в данном случае. Хотя надеюсь, Вы не восприняли эту дискуссию именно так. Во всяком случае, я попытался донести свою т.з. Удалось - не удалось. Судить вам. Я сказал все, чего хотел. Далее будет уже "3 экрана". P.S. И не в тему. Извините, но подобные диалоги, а фактически троллинг, должны пресекаться. Пары-тройки объяснений достаточно. У Вас же есть инструменты по прекращению подобного. Еще, раз, мои извинения за инициативы. И у Вас время отнял, хотя понимал, что все это маловероятно, и сам время потерял. Если бы был Ваш ответ в стиле "Мы Вас услышали, спасибо за предложения, но с точки зрения политики сайта данные изменения приняться не могут". Меня такой бы ответ удовлетворил. И нет потерянного времени. Это я без иронии.
Предлагая правки, не забывайте попутно очистить от мусора. Это позволит избежать повторных правок. В качестве примера: /file/1623007/ Повтор заголовка в описании и ОГЛАВЛЕНИЕ считаются мусором
Бывает пытаюсь и почистить, но тут палка о двух концах. Вроде файл был проверен модератором или доверенным, так что там где не уверен с исправлением - не рискую.
По поводу изменения типов у файлов, обратите, пожалуйста, внимание на такую особенность.Если книги одной серии лежат в специальной именной серийной папке и им поменять тип, то может получиться довольно досадная вещь: папка с как бы пустым корнем и набором файлов, дополнительно свёрнутых в фильтр.Поэтому, на мой взгляд, тип файлов в серийных папках лучше не менять.
Пардон, я видимо, не учел Вашу рекомендацию. P.S. Я не совсем понял, что Вы имеете ввиду под термином "серийная папка"? Я предполагаю, что это папка типа "документация" или "справочники"...
Папка, созданная специально для книг какой-то одной издательской серии. Чаще всего такие папки в меню раздела выделяются под рубрику "Сборники и серии".
В качестве правок Вы предлагаете ISBN - один и тот же для одинаковых заголовков - но разных изданий. Поэтому я предполагаю, что Вы взяли выходные данные не из файлов, а нашли их в интернете для какого-то одного издания, потому что разные издания имеют разные выходные данные и разные ISBN. Пожалуйста, больше не предлагайте правки - выходные данные, если только они не взяты из самого файла.
Вообще-то согласно ГОСТ 7.60-2003 «СИБИД. Издания. Основные виды. Термины и определения» 3.2.3.5.2 атлас: Альбом, содержащий изображения различных объектов, служащий для учебных или практических целей. 3.2.3.5.2.1 анатомический атлас: Атлас с изображением органов и частей человеческого тела 3.2.3.5.2.2 астрономический атлас: Атлас карт звездного неба 3.2.3.5.2.3 ботанический атлас: Атлас с изображением растений и картами ареалов их распространения 3.2.3.5.2.4 географический атлас: Атлас географических карт 3.2.3.5.2.5 зоологический атлас: Атлас с изображением животных и картами ареалов их распространения 3.2.3.5.2.6 лингвистический атлас: Атлас с изображением зон расселения разноязычных народов мира, распространения языков и диалектов 3.2.3.5.2.7 медицинский атлас: Атлас с изображением патологических явлений в организме человека, картами распространения заболеваний или возбудителей болезней. Или в FAQ есть по этому поводу другая точка зрения?
Под Карты и атласы подразумеваются Географические карты и атласы и т.п. (топографические, звездного наба и т.д.) Медицинские атласы, атласы растений, животных, деталей, машин, механизмов и т.д. и т.п. - это Справочники, каталоги, таблицы.
Предлагаю компромиссный выход из создавшейся ситуации: Из Вашего положения, что «Карты и атласы подразумеваются Географические карты и атласы и т.п. (топографические, звездного наба и т.д.)» Тип файла «Карты и атласы» заменить на «Географические и астрономические карты и атласы», оставив обозначение этих файлов КРТ А тип файлов «Справочники, каталоги, таблицы» заменить на «Справочники, каталоги, таблицы, атласы».P.S. Хотя назвать атлас по деталям машин или атлас конструкций назвать справочником язык не поворачивается, лучше уж отнести их к категории «другое». В идеале, конечно должно быть по ГОСТ 7.60-2003 «СИБИД. Издания. Основные виды. Термины и определения», но понимая что идеал так не бывает ввиду объективных и субъективных причин
Пардон, уважаемый Археоптерикс! Дело в том, хоть я и не могу согласиться с Вашей позицией, так как тип я менял тип файла, но Вам виднее. Я предполагал, что будет такая реакция, и не предлагал бы исправления если бы в этом подразделе (анатомические атласы) не было бы файлов, у которых указан тип файла КРТ, к примеру /file/1499261/, /file/1499264/, /file/1499263/, неизвестная ссылка
По поводу книги: MS Publisher 2003"Довідник" - это справочник, но, по своей структуре, это учебник (и довольно неплохой). Посмотрите сами. Авторам, вероятно, нужно было по кафедральному плану выпустить справочник. :) Пусть остается в разделе "Другое".Поступило разъяснение от руководства сайта, что при рассмотрении вопроса о принадлежности книги к справочниками нужно смотреть не на название книги, а на ее содержание. Подобных книг на сайте немало.
Здравствуйте, а зачем Вы справочник: /file/1168081/ предлагаете перенести в Словари и разговорники? Файл, на мой взгляд, необходимо предложить к переносу в фильтр Справочники, каталоги, таблицы. Пожалуйста, измените тип фильтра, иначе правка будет отклонена.
Пожалуйста, в общих разделах с периодикой, например: Периодика по машиностроению и материалообработке не предлагайте перенос файлов Другое → Научные статьи и сборники, т.к. в последствии файлы-фильтры (с аббревиатурой СТ) невозможно будет сортировать по разделам. Поэтому, желательно отменить предложенную правку.
Я Вас не совсем понял. Если бы Вы на примере какого-то файла объяснили или вообще не править Справочники, каталоги, таблицы, меняя тип файла? С уважением, ledebur
Комментарии
Всього найкращього!
Подпункт 4. Изменить на
Наличие текстового или OCR-слоя, позволяющего делать поиск по ключевым словам.И в конце исключить п. 3. «Автоматический OCR без вычитки и правки (формулы, схемы и рисунки в текстовом слое превращены в мусор»);Добавлять материал не стоит, если за улучшение выдается только:
1. Интерактивное оглавление;
2. Незначащие страницы (цветные обложки, реклама);
3. Уменьшение размера файла;
4. Кодирование текстового материала в DJVU с целью замещения сканированного аналога в этом же формате (предпочтительнее сделать качественное распознавание сканированного текста).Я предлагаю эти изменения с точки зрения пользователя. Автоматический поиск возможен только для файлов с OCR –слоем, пусть и сделанным в автоматическом режиме. Вычитать и исправить книгу страниц в 100 и более нереально, и вряд ли это кто-то будет делать, а наличие OCR – существенно облегчает поиск информации, например в словарях, справочниках, монографиях и пр.Еще, относительно того, что уменьшение размера файла не является улучшением. Конечно, если уменьшение на на несколько мегабайт, но если книга с 200 мегабайт превращена в 10-12?
Тем более, что книги грузят на смартфоны, планшеты, у которых возможности по памяти и быстродействию ограничены.P.S. Я понимаю, что некий консерватизм Правил должен присутствовать, но мне кажется, что мои предложения назрели.
Распознать так, чтобы можно было пользоваться поиском, - дело нехитрое.
По поводу объема - это, скорее, на усмотрение проверяющего. В граничных случаях, когда объем уменьшается на порядок, а качество не страдает, замена, думаю, возможна.
Я не особо надеялся на изменение правил в той редакции, которую я предложил, но во всяком случае надеялся на некий компромисс, хотя бы в части справочников и словарей.
Мне к моим аргументам добавить более нечего.
Благодарю всех за ответы и комментарии.
Тут Пример
В конце концов, модератор может судить теряется качество или нет.
Есть сомнения, что они (правила) от этого станут более удобопонятными.
- пользователь А вложил немалый труд в то, чтобы отсканировать книгу, и выложил её;
- пользователь B на скорую руку распознал файл пользователя А и выложил заново, а исходник удалили.
В итоге пользователь В без особых усилий получает баллы, а пользователь А остался ни с чем.
Где справедливость в отношении пользователя А?
Главным является читатель, а читателю распознанный текст с ORC-слоем, пусть и без вычитки предпочтительнее.
Да, и кто мешает «пользователю, А, который, вложил немалый труд в то, чтобы отсканировать книгу», ее еще «на скорую руку» распознать?
Кстати, опять же возможно ужесточить требование наличием оглавления или закладок.
Как читатель огромного количества физико-математической и технической литературы, скажу, что текстового распознанного слоя
не нужно. Нужно качественный скан, чтоб индексы были видны, серые или цветные рисунки. Чтоб быстро открывалось на мобильных устройствах и занимало мало места(djvu тут идеально без текстового слоя). И оригинальная нумерация страниц.
Для поиска по книге существует содержание. Поиск по словах только убивает время так как одинаковых слов огромное количество. Человек открыл содержание и видит на какую страницу нужно переместится.
В распознанных. doc документах очень затратно набрать все формулы и привести все до макета-оригинала.
А нумерация страниц, студентам, аспирантам, преподавателям, ученым это очень важно. Дает преподаватель студенту задание, в такой то книге на хх-странице есть такая то формула, а студент открывает распознанный вариант а ее там нет, или она превратилась в мусор.
А за порчу материала представленного как "улучшения" можно и схлопотать.
Мало того найдет упоминание по ключевым словам, то чего для этой формулы нужно.
Главным является читатель.
А читателю удобнее распознанный вариант, пусть, даже в автоматическом режиме, я уже не говорю об оглавлениях, закладках, гиперссылках.
Тут, я надеюсь, Вы спорить не будете?
Можно, конечно, найти какой-то компромисс, поощряя тех энтузиастов, кто отсканировал, но как?
Особенно если это "чистый текст" без изображения сканированной страницы?Идеальный OCR сделать действительно очень трудно (идеала никто и не требует), но хотя бы вопиющие варианты отсекать необходимо.P.S. Веками люди вообще не имели возможности автопоиска по книге, даже не мыслили подобного.
И ни книжная культура, ни наука от этого не страдали.
А теперь, когда он появился, что-то и то и другое подают признаки кризиса.Конечно, это лирическое отступление, но.
О конфликтах. Ну, тут я не в курсе и не понимаю сути конфликта, в принципе. Пардон.
Я не совсем понимаю, что значит "рисунки в мусор", вот в моем примере они мусор?
Еще, возможно, что индексы в некоторых формулах попали по мелкости своей в серый слой с низким разрешением и размазались в мелкие кляксы.
Если я не ошибаюсь, файл обработан автоматом и никаких возможностей ручной правки там нет. И вообще для OCR-слоя под графикой такие возможности мало где есть, и в этом мало тоже весьма ограничены.
То есть, если поощрять добавление OCR-слоя (заведомо дефектного для среднего качества скана), пойдет поток конвертаций с порчей графического слоя и потерей информации, которую дотошному проверяющему придется с лупой вылавливать. Не бывает таких проверяющих. А потери информации бывают.
В вашем примере небольшие искажения есть, видно сразу, а больших я особо не искал.
Иначе нарушится равноправие в доступе к системе "загрузил файл - получаешь баллы".
Даже не обязательно, чтобы скан был ими сделан, т.к. для абсолютно любого файла на сайте действительно "право первого выложившего".На любом другом сайте это было бы не критично, но у нас всё завязано на право получения баллов за скачивание.
Поэтому работа по улучшению должна быть значительной, чтобы заслужить такое право. Иллюстрации, конечно, нет, а математические уравнения или слова на иностр. языке со специфическими символами - запросто.Кстати, иллюстрации очень легко испортить сжатием.
Если Вы о рейтинге, то не и не мечтаю. Вначале были нужны баллы, сейчас нет. Так, некая "зависимость" сформировалась, но не ради рейтинга. Хотя, я могу предположить, что есть пользователи, у которых эта "зависимость" более серьезная. И они, очевидно, приносят пользы сайту больше, чем, к примеру я. Не спорю. Но можно дать, к примеру год, для активных пользователей, чтобы они распознали свои тексты. Вариантов компромисса может быть множество.
Я сейчас пишу как Читатель. И я считаю, что находить баланс интересов активных участников сайта, Модерации и Читателя нужно.
Относительно мусора. Математические уравнения или слова на иностр. языке со специфическими символами остаются в графике, их видно. Другое дело, что их нельзя найти в поиске и скопировать, так это несущественно.
Собственно, я понимаю, что истина рождается в дискуссии, но, даже, не приняв мои предложения, какое-то движение вперед, предусматривающее мотивацию к распознаванию текстов текстов, пусть и в автоматическом режиме, пусть для ограниченного вида файлов (допустим, словари, где формулы и специфические символы редкость или не столь важны) нужно.
И вот для них это будет катастрофа. Может быть, лично Вам несущественно, а многим другим OCR именно для этого и нужен. Или правила для всех книг едины, или начинается путаница и выяснения отношений.
Хотя художественную литературу предпочитаю в книжном варианте.
Идеальный OCR забит в правилах. А справочник с сотнями рисунков, схем и формул как, кроме как на автомате, распознать? Тут сутками сидеть за ПК придется.
А текст в автоматическом режиме распознается без особых ошибок.
P.S. Хотя, на практике, качество распознавания, как я заметил, зависит от мощности ПК. Да, и времени требует немало.Впрочем решать администрации сайта. А сайту я, конечно, безмерно благодарен. И, надеюсь, что мое мнение учтут. Ну, можно для начала начать со словарей и справочников.
Поиск по такому файлу будет возможен, но что проку, если найденное не поддастся прочтению.Лирическое отступление было к тому, что при оценке качества книги всякие "блага цивилизации" типа OCR ставятся превыше качества воспроизведения самого текста.
И это "несколько" смущает.
Спасибо. Уже говорили.
Да, я ставлю наличие OCR-слоя даже выше качества восприятия текста, тем боле, что его наличие мало влияет на это качество потому как это облегчает поиск, да и частичное копирование.
Текст читабелен, а это главное, во всяком случае при пользовании справочником.
Для чего справочник? Быстро найти информацию, а не наслаждаться чтением, как при чтении худ. литературы.
Надо ли говорить, что всё это время оба собеседника могли потратить с куда большей пользой.
Во всяком случае, я попытался донести свою т.з.
Удалось - не удалось. Судить вам. Я сказал все, чего хотел. Далее будет уже "3 экрана".
P.S. И не в тему. Извините, но подобные диалоги, а фактически троллинг, должны пресекаться. Пары-тройки объяснений достаточно. У Вас же есть инструменты по прекращению подобного.
Еще, раз, мои извинения за инициативы. И у Вас время отнял, хотя понимал, что все это маловероятно, и сам время потерял.
Если бы был Ваш ответ в стиле "Мы Вас услышали, спасибо за предложения, но с точки зрения политики сайта данные изменения приняться не могут". Меня такой бы ответ удовлетворил. И нет потерянного времени. Это я без иронии.
В качестве примера: /file/1623007/ Повтор заголовка в описании и ОГЛАВЛЕНИЕ считаются мусором
Так что не бойтесь предлагать.
P.S. Я не совсем понял, что Вы имеете ввиду под термином "серийная папка"? Я предполагаю, что это папка типа "документация" или "справочники"...
Чаще всего такие папки в меню раздела выделяются под рубрику "Сборники и серии".
То есть сейчас у них состояние исходное.
3.2.3.5.2 атлас: Альбом, содержащий изображения различных объектов, служащий для учебных или практических целей.
3.2.3.5.2.1 анатомический атлас: Атлас с изображением органов и частей человеческого тела
3.2.3.5.2.2 астрономический атлас: Атлас карт звездного неба
3.2.3.5.2.3 ботанический атлас: Атлас с изображением растений и картами ареалов их распространения
3.2.3.5.2.4 географический атлас: Атлас географических карт
3.2.3.5.2.5 зоологический атлас: Атлас с изображением животных и картами ареалов их распространения
3.2.3.5.2.6 лингвистический атлас: Атлас с изображением зон расселения разноязычных народов мира, распространения языков и диалектов
3.2.3.5.2.7 медицинский атлас: Атлас с изображением патологических явлений в организме человека, картами распространения заболеваний или возбудителей болезней.
Или в FAQ есть по этому поводу другая точка зрения?
Медицинские атласы, атласы растений, животных, деталей, машин, механизмов и т.д. и т.п. - это Справочники, каталоги, таблицы.
Из Вашего положения, что «Карты и атласы подразумеваются Географические карты и атласы и т.п. (топографические, звездного наба и т.д.)»
Тип файла «Карты и атласы» заменить на «Географические и астрономические карты и атласы», оставив обозначение этих файлов КРТ
А тип файлов «Справочники, каталоги, таблицы» заменить на «Справочники, каталоги, таблицы, атласы».P.S. Хотя назвать атлас по деталям машин или атлас конструкций назвать справочником язык не поворачивается, лучше уж отнести их к категории «другое». В идеале, конечно должно быть по ГОСТ 7.60-2003 «СИБИД. Издания. Основные виды. Термины и определения», но понимая что идеал так не бывает ввиду объективных и субъективных причин
В папке анатомические атласы находятся только атласы. Дополнительного указания на тип файлов не требуется.
Дело в том, хоть я и не могу согласиться с Вашей позицией, так как тип я менял тип файла, но Вам виднее. Я предполагал, что будет такая реакция, и не предлагал бы исправления если бы в этом подразделе (анатомические атласы) не было бы файлов, у которых указан тип файла КРТ, к примеру /file/1499261/, /file/1499264/, /file/1499263/, неизвестная ссылка
Авторам, вероятно, нужно было по кафедральному плану выпустить справочник. :)
Пусть остается в разделе "Другое".Поступило разъяснение от руководства сайта, что при рассмотрении вопроса о принадлежности книги к справочниками нужно смотреть не на название книги, а на ее содержание.
Подобных книг на сайте немало.
Спорить далее не буду. Хотя тут дай Бог по названиям рассортировать, а потом можно разбирать по ГОСТ, хотя и там мутновато.
P.S. В ПТУ на сколько я знаю, ни кафедр, ни планов выпуска нет :- :-)
Файл, на мой взгляд, необходимо предложить к переносу в фильтр Справочники, каталоги, таблицы.
Пожалуйста, измените тип фильтра, иначе правка будет отклонена.
С уважением, ledebur
Для себя я эту тему закрыл, в надежде, что буду услышан. От меня далее уже ничего не зависит.